（2025|Deepseek，残差连接，残差映射投影，迭代归一化，核融合，混合精度，中间激活重新计算）mHC：流形约束的超连接

EDPJ

813人浏览 · 2026-01-20 11:12:43

EDPJ · 2026-01-20 11:12:43 发布

mHC: Manifold-Constrained Hyper-Connections

论文地址：https://arxiv.org/abs/2512.24880

进 Q 学术交流群：922230617 或加 CV_EDPJ 进 W 交流群

4.3.3. DualPipe 中的通信重叠

1. 引言

自 ResNet 提出以来，深度神经网络架构经历了快速演进。如上图 (a) 所示，单层结构可表述为：

其中，x_l 和 x_{l+1} 分别是第 l 层的 C 维输入和输出，F 代表残差函数。

尽管残差函数 F 在过去十年已演变为包含卷积、注意力机制和前馈网络等多种操作，但残差连接范式保持了其原始形式。随着 Transformer 架构的普及，该范式已成为大型语言模型的基本设计元素。这一成功主要归功于残差连接的简洁形式。更重要的是，早期研究揭示了残差连接的 恒等映射（identity mapping。identity 在矩阵范畴内通常表示为对角线为 1，其他位置为 0 的单位阵）特性维持了大规模训练的稳定性与效率。通过跨层递归扩展残差连接，可得：

其中，L 和 l 分别对应深层和浅层。恒等映射指的是 x_l 本身，强调信号能从浅层直接映射到深层而无需修改。

（2025|ICLR，静态/动态超连接，残差连接，梯度消失与表示崩溃）Hyper-Connections

近期，以超连接（Hyper-Connections，HC）为代表的研究为残差连接引入了新维度，并实证展示了其性能潜力。HC 的单层架构如上图 (b) 所示。通过扩宽残差流宽度并增强连接复杂性，HC 显著增加了拓扑复杂性，而并未改变单个单元在 FLOPs 上的计算开销。形式上，HC 的单层传播定义为：

其中 x_l 和 x_{l+1} 分别是第 l 层的输入和输出。与单层 ResNet 不同，x_l 和 x_{l+1} 的特征维度从 C 扩展到 n×C，n 是扩展率，H 为可学习映射。

H^res_l ∈ R^{n×n} 将残差流内的特征混合，
H^pre_l ∈ R^{1×n} 将特征从 nC 维流聚合为 C 维层输入，
H^post_l ∈ R^{1×n} 将层输出映射回流中。

然而，随着训练规模扩大，HC 引入了潜在的不稳定风险。主要问题在于，当架构跨越多层时，HC 的无约束特性损害了恒等映射特性。在包含多个并行流的架构中，理想的恒等映射作为守恒机制，确保流间平均信号强度在前向和反向传播中保持不变。将 HC 递归扩展到多层可得：

其中，L 和 l 分别代表深层和浅层。与残差连接对比，HC 中的复合映射

未能保留特征的全局均值。这种差异导致信号无界放大或衰减，进而引发大规模训练的不稳定性。另一个考虑是，虽然 HC 在 FLOPs 上保持了计算效率，但原始设计未解决 因扩宽残差流而产生的内存访问开销问题。这些因素共同限制了 HC 的实际可扩展性，阻碍了其在大规模训练中的应用。

为解决这些挑战，本文提出了 流形约束超连接（Manifold-Constrained Hyper-Connections，mHC），如图所示。这是一个通用框架，将 HC 的残差连接空间投影到特定流形以恢复恒等映射特性，同时结合严格的基础设施优化以确保效率。

具体而言，mHC 利用 Sinkhorn-Knopp 算法 将 H^res_L 熵投影到(（entropically project）Birkhoff 多胞体上，从而 将残差连接矩阵约束在由双随机矩阵构成的流形内。由于这些矩阵的行和与列和均为 1，操作

充当输入特征的凸组合。此特性有利于条件良好的信号传播，其中特征均值守恒且信号范数严格正则化，有效缓解了信号消失或爆炸的风险。此外，由于双随机矩阵在矩阵乘法下具有封闭性，复合映射

保留了这一守恒特性。因此，mHC 有效地保持了任意深度间恒等映射的稳定性。

为确保效率，本研究采用 核融合（kernel fusion），并利用 TileLang 开发混合精度内核。此外，本研究通过 选择性重计算 减轻内存占用，并在 DualPipe 调度中精心重叠通信。

3. 基础

在 HC 公式中，第 l 层的输入 x_l ∈ R^{1×C} 被扩展 n 倍以构造一个隐藏矩阵

可视为 n 流残差。此操作有效地拓宽了残差流的宽度。为管理该流的读出、写入和更新过程，HC 引入了三个可学习线性映射：

在 HC 公式中，可学习映射由两部分系数组成：输入依赖部分和全局部分，分别称为动态映射和静态映射。形式上，HC 计算系数如下：

其中 RMSNorm(·) 应用于最后一个维度，标量 α 是初始化为小值的可学习门控因子。动态映射由参数为 θ 的线性投影推导而来，而静态映射则由可学习偏置 b 表示。

值得注意的是，引入这些映射 H 带来的计算开销可忽略不计，因为典型扩展率 n（例如 4）远小于输入维度 C。通过此设计，HC 有效地将残差流的信息容量与层输入维度解耦，而后者与模型计算复杂度（FLOPs）密切相关。因此，HC 通过调整残差流宽度提供了一条新的扩展途径，补充了预训练缩放定律中讨论的模型 FLOPs 和训练数据大小等传统扩展维度。

尽管 HC 需要三个映射来处理残差流与层输入间的维度不匹配，但表 1 所示的初步实验表明，残差映射 H^res_l 带来了最显著的性能增益。这一发现强调了残差流内有效信息交换的至关重要。

3.1. 数值不稳定性

尽管残差映射 H^res_l 对性能至关重要，但其顺序应用对数值稳定性构成重大风险。当 HC 跨越多层扩展时，从层 l 到 L 的有效信号传播由复合映射

控制。由于可学习映射 H^res_l 不受约束，该复合映射不可避免地偏离恒等映射。因此，信号幅度在前向传递和反向传播中都容易爆炸或消失。此现象破坏了残差学习的基本前提（依赖于无阻碍的信号流），从而在更深或更大规模的模型中使训练过程不稳定。

实证证据支持此分析。如上图所示，本文在大规模实验中观察到不稳定的损失行为。以 mHC 为基线，HC 在约 12k 步附近出现意外的损失激增，这与梯度范数的不稳定高度相关。此外，对 H^res_l 的分析验证了此不稳定性的机制。

为量化复合映射沿残差流放大信号的程度，本文使用两个指标。

第一个基于复合映射按行求和的最大绝对值，捕捉前向传递中的最坏扩展情况。
第二个基于最大绝对列和，对应反向传递。

本文将这些指标称为复合映射的 Amax 增益幅度。如图所示，Amax 增益幅度产生峰值达 3000 的极端值，与 1 的显著差异证实了残差流爆炸的存在。

3.2. 系统开销

虽然由于附加映射的线性特性，HC 的计算复杂度仍然可控，但系统级开销带来了不可忽视的挑战。具体而言，内存访问（I/O）成本常构成现代模型架构的主要瓶颈之一，广泛称为 "内存墙"。这一瓶颈在架构设计中常被忽视，但它对运行效率有决定性影响。

聚焦于广泛采用的前置归一化 Transformer 架构，本文分析了 HC 固有的 I/O 模式。表 2 总结了由 n 流残差设计在单个残差层中引入的每 token 内存访问开销。

分析显示，HC 将内存访问成本增加了大约与 n 成比例的倍数。这种过度的 I/O 需求在没有融合内核缓解的情况下，会显著降低训练吞吐量。
此外，由于 H 是可学习参数，反向传播需要它们的中间激活。这导致 GPU 内存占用大幅增加，通常需要梯度检查点来维持可行的内存使用。
此外，在流水线并行中，HC 需要 n 倍的通信成本，导致更大的气泡并降低训练吞吐量。

4. 方法

4.1. 流形约束超连接

受恒等映射原理启发，mHC 的核心前提是将残差映射 H^res_l 约束到特定流形上。原始恒等映射通过强制 H^res_l = I（单位阵）确保稳定性，但这从根本上排除了残差流内的信息交换，而这对于最大化多流架构的潜力至关重要。

因此，本文提出 将残差映射投影到一个流形上，该流形同时保持跨层信号传播的稳定性，并促进残差流间的相互交互以保持模型的表达能力。为此，将 H^res_l 限制为 双随机矩阵（doubly stochastic matrix），即具有非负元素且行和与列和均为 1 的矩阵。形式上，令 MresMres 表示双随机矩阵的流形（也称为 Birkhoff 多胞体）。将 H^res_l 约束到 P_{M^res} (H^res_l)，定义如下：

其中 1_n 代表全 1 的 n 维向量。

值得注意的是，当 n = 1 时，双随机条件退化为标量 1，从而恢复了原始恒等映射。双随机性的选择赋予了几个有利于大规模模型训练的严格理论特性：

范数保持：双随机矩阵的谱范数以 1 为界（即 || H^res_l ||_2 ≤ 1）。这意味着可学习映射是非扩张的，有效缓解了梯度爆炸问题。
组合封闭性：双随机矩阵集合在矩阵乘法下是封闭的。这确保了跨多层的复合残差映射 ∏^{L−1}_{i=1} H^res_l 保持双随机性，从而在整个模型深度中保持稳定性。
通过 Birkhoff 多胞体的几何解释：集合 MresMres 构成 Birkhoff 多胞体，它是置换矩阵集合的凸包。这提供了清晰的几何解释：残差映射充当置换的凸组合。从数学上讲，此类矩阵的重复应用倾向于单调增加

流间信息的混合，有效地充当了鲁棒的特征融合机制。

此外，本文对输入映射 H^pre_l 和输出映射 H^post_l 施加非负约束。这种约束防止了正负系数组合产生的信号抵消，这也可视为一种特殊的流形投影。

4.2. 参数化与流形投影

本节详细说明 mHC 中所有 H 的计算过程。

给定第 l 层的输入隐藏矩阵（hidden matrix）x_l ∈ R^{n×C}，本文首先将其展平为向量

以保留完整上下文信息。然后，本文遵循原始 HC 公式得到动态映射和静态映射如下：

其中 ϕ 是动态映射的线性投影，mat(⋅) 是从 R^{1×n^2} 到 R^{n×n} 的重塑函数。

然后，通过以下方式获得最终的约束映射：

其中 σ(⋅) 表示 Sigmoid 函数。Sinkhorn−Knopp(⋅) 算子首先通过指数算子使所有元素为正，然后执行迭代归一化过程，交替重缩放行和列使其和为 1。具体来说，给定一个正矩阵

作为起点，迭代归一化 进行如下：

其中，Tr 和 Tc 分别表示行和列归一化。当 t_max → ∞ 时，此过程收敛到一个双随机矩阵 H^res_l = M(t_max)。本文在实验中选择 t_max = 20 作为实际值。

4.3. 高效基础设施设计

4.3.1. 核融合

mHC 中的 RMSNorm 在高维隐状态

上操作时施加了显著的延迟，本文重新排序了除以范数的操作，使其跟随矩阵乘法之后。此优化在保持数学等价性的同时提高了效率。

此外，本文采用 混合精度策略 在保证速度的同时最大化数值精度，并将多个具有共享内存访问的操作融合到统一的计算内核中，以减少内存带宽瓶颈。

基于公式 (10) 至 (13) 详述的输入和参数，本文实现了三个专用的 mHC 内核来计算 H。在这些内核中，偏置和线性投影被合并到 b_l 和 ϕ_l 中，RMSNorm 权重也被吸收到 ϕ_l 中。

公式 (14) 至 (15)：本文开发了一个统一内核，融合了对 x 的两次扫描，利用矩阵乘法单元最大化内存带宽利用率。反向传播（包含两次矩阵乘法）同样被合并到单个内核中，消除了 x 的重复加载。两个内核都具有精细调整的流水线（加载、转换、计算、存储）以高效处理混合精度。
公式 (16) 至 (18)：这些在小系数上的轻量级操作被机会性地融合到单个内核中，显著减少了内核启动开销。
公式 (19)：本文在单个内核内实现了 Sinkhorn-Knopp 迭代。对于反向传播，本文推导了一个自定义反向内核，在芯片上重计算中间结果并遍历整个迭代。

使用从上述内核推导出的系数，本文引入了两个额外的内核来应用这些映射：一个用于

另一个用于

通过将 H^post_l 和 H^res_l 的应用与残差合并相融合，本文将该内核读取的元素数从 (3n+1)C 减少到 (n+1)C，写入的元素数从 3nC 减少到 nC。

本文使用 TileLang 高效实现了大多数内核（公式 (14)-(15)除外）。该框架简化了具有复杂计算过程的内核实现，并使本文能够以最少的工程工作量充分利用内存带宽。

4.3.2. 重计算

n 流残差设计在训练期间引入了大量内存开销。为缓解此问题，本文在前向传递后丢弃 mHC 内核的中间激活，并通过重新执行 mHC 内核（不含繁重的层函数 F）在反向传递中即时重新计算它们。因此，对于连续的 L_r 层块，本文只需要存储第一层的输入 x_{l_0}。排除轻量级系数并考虑 F 内的前置归一化，表 3 总结了为反向传递保留的中间激活。

由于 mHC 内核重计算是针对连续的 L_r 层块执行的，给定总共 L 层，本文必须为反向传递持久存储所有 ⌈L / L_r⌉ 个块的第一层输入 x_{l_0}。除了这个驻留内存外，重计算过程为活动块引入了 (n+2)C × L_r 元素的瞬时内存开销，这决定了反向传播期间的峰值内存使用量。因此，本文通过最小化对应于 L_r 的总内存占用来确定最优块大小 L*_r：

此外，大规模训练中的流水线并行施加了一个约束：重计算块不得跨越流水线阶段边界。观察到理论最优值 L*_r 通常与每个流水线阶段的层数一致，本文选择将重计算边界与流水线阶段同步。

4.3.3. DualPipe 中的通信重叠

在大规模训练中，流水线并行 是减轻参数和梯度内存占用的标准实践。

具体而言，本文采用 DualPipe 调度，它有效地重叠了扩展互联通信流量（例如专家和流水线并行中的流量）。然而，与单流设计相比，mHC 中提出的 n 流残差在跨流水线阶段时会产生大量通信延迟。此外，在阶段边界处，为所有 L_r 层重计算 mHC 内核引入了不可忽略的计算开销。为解决这些瓶颈，本文扩展了 DualPipe 调度（见图4），以促进在流水线阶段边界处更好地重叠通信和计算。

值得注意的是，为防止阻塞通信流，本文在专用的高优先级计算流上执行 MLP（即 FFN）层的 F_{post,res} 内核。本文进一步避免在注意力层中对长时间运行的操作使用持久内核，从而防止长时间的停顿。此设计使得重叠的注意力计算可被抢占，允许灵活调度，同时保持计算设备处理单元的高利用率。此外，重计算过程与流水线通信依赖解耦，因为每个阶段的初始激活 x_{l_0} 已本地缓存。

5. 实验

5.1. 实验设置

本文通过语言模型预训练验证所提出的方法，对基线、HC 和本文提出的 mHC 进行比较分析。利用受 DeepSeek-V3 启发的 MoE 架构，本文训练了四个不同的模型变体以覆盖不同的评估体系。

5.2. 主要结果

如图 (a) 所示，mHC 有效缓解了在 HC 中观察到的训练不稳定性，与基线相比最终损失减少了0.021。这种改进的稳定性在图 (b) 的梯度范数分析中得到进一步证实，其中 mHC 表现出比 HC 显著更好的行为，保持了与基线相当稳定的轮廓。

上表展示了一系列多样化基准测试上的下游性能。mHC 带来了全面的改进，始终优于基线，并在大多数任务上超过 HC。值得注意的是，与 HC 相比，mHC 进一步增强了模型的推理能力，在 BBH 上带来 2.1% 的性能提升，在 DROP 上带来 2.3% 的提升。

5.3. 扩展实验

为评估本文方法的可扩展性，本文报告了 mHC 在不同规模上相对于基线的相对损失改进。在图 (a) 中，本文绘制了跨越 3B、9B 和 27B 参数的计算扩展曲线。轨迹表明，即使在更高的计算预算下，性能优势也能稳健保持，仅显示出边际衰减。此外，本文在图 (b) 中检查了运行内的动态，该图展示了 3B 模型的 token 扩展曲线。总的来说，这些发现验证了 mHC 在大规模场景中的有效性。本文的内部大规模训练实验进一步证实了这一结论。

5.4. 稳定性分析

上图展示了 mHC 的传播稳定性。理想情况下，单层映射满足双随机约束，意味着前向信号增益和反向梯度增益都应等于 1。然而，使用 Sinkhorn-Knopp 算法的实际实现必须限制迭代次数以实现计算效率。在本文的设置中，本文使用 20 次迭代来获得近似解。因此，如图 (a) 所示，反向梯度增益略微偏离 1。在图 (b) 所示的复合情况下，偏差增大但仍保持有界，达到最大值约 1.6。值得注意的是，与 HC 中近 3000 的最大增益幅度相比，mHC 将其降低了三个数量级。这些结果表明，与 HC 相比，mHC 显著增强了传播稳定性，确保了稳定的前向信号和反向梯度流。

此外，上图展示了代表性映射。观察到，对于 HC，当最大增益很大时，其他值往往也很大，这表明所有传播路径普遍不稳定。相比之下，mHC始终产生稳定的结果。

6. 结论与展望

虽然如超连接（HC）所提出的扩宽残差流宽度和多样化连接能带来性能增益，但这些连接的无约束性质会导致信号发散。这种破坏损害了跨层信号能量的守恒，引发训练不稳定性并阻碍深度网络的可扩展性。为解决这些挑战，本文引入了流形约束超连接（mHC），一个将残差连接空间投影到特定流形上的通用框架。通过使用 Sinkhorn-Knopp 算法对残差映射强制执行双随机约束，mHC 将信号传播转化为特征的凸组合。实证结果证实，mHC 有效恢复了恒等映射特性，实现了稳定的大规模训练，并且与传统 HC 相比具有更优的可扩展性。至关重要的是，通过高效的基础设施级优化，mHC 以可忽略的计算开销带来了这些改进。

作为 HC 范式的通用扩展，mHC 为未来研究开辟了几个有前景的途径。尽管本工作使用双随机矩阵来确保稳定性，但该框架允许探索针对特定学习目标定制的多样化流形约束。本文预计，对不同几何约束的进一步研究可能会产生新的方法，以更好地优化可塑性与稳定性之间的权衡。此外，本文希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表征学习的理解，mHC将有助于解决当前的局限性，并可能为下一代基础架构的演进指明新途径。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

数字员工创业工具：一人创业全流程辅助工具搭配分析

综合来看，各类数字员工创业辅助工具不存在绝对优劣，只是适配单人创业不同环节、不同人群的差异化辅助载体。针对数字员工创业工具如何搭配使用这一问题，可以按照三个阶段形成清晰使用逻辑：想法验证阶段，以扣子app统筹调研节奏，搭配DeepSeek、Kimi完成市场分析，Notion归档资料，低成本判断项目可行性；项目推进落地阶段，以扣子app串联全部工作流，技术创业者搭配Cursor、Trae完成开发，非

DeepSeek技术社区

财报分析AI工具各产品信息处理适配场景梳理

各类财报分析AI工具在信息处理流程中承担完全不同的细分作用，没有一款产品可以适配所有财报整理、研报阅读、复盘记录场景。扣子app的核心价值是搭建统一项目空间，完成全部研究资料长期归档与流程统筹；DeepSeek、Kimi、ChatGPT、夸克AI、Perplexity分属不同定位的文本与资讯检索工具，分别适配深度年报拆解、多文档横向对比、外文财报阅读、碎片化简易整理、全网资讯交叉验证；酷表Chat