(2025|Deepseek,残差连接,残差映射投影,迭代归一化,核融合,混合精度,中间激活重新计算)mHC:流形约束的超连接
mHC: Manifold-Constrained Hyper-Connections

论文地址:https://arxiv.org/abs/2512.24880
进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群
目录
1. 引言

自 ResNet 提出以来,深度神经网络架构经历了快速演进。如上图 (a) 所示,单层结构可表述为:
![]()
其中,x_l 和 x_{l+1} 分别是第 l 层的 C 维输入和输出,F 代表残差函数。
尽管残差函数 F 在过去十年已演变为包含卷积、注意力机制和前馈网络等多种操作,但残差连接范式保持了其原始形式。随着 Transformer 架构的普及,该范式已成为大型语言模型的基本设计元素。这一成功主要归功于残差连接的简洁形式。更重要的是,早期研究揭示了残差连接的 恒等映射(identity mapping。identity 在矩阵范畴内通常表示为对角线为 1,其他位置为 0 的单位阵)特性维持了大规模训练的稳定性与效率。通过跨层递归扩展残差连接,可得:

其中,L 和 l 分别对应深层和浅层。恒等映射指的是 x_l 本身,强调信号能从浅层直接映射到深层而无需修改。

(2025|ICLR,静态/动态超连接,残差连接,梯度消失与表示崩溃)Hyper-Connections
近期,以超连接(Hyper-Connections,HC)为代表的研究为残差连接引入了新维度,并实证展示了其性能潜力。HC 的单层架构如上图 (b) 所示。通过扩宽残差流宽度并增强连接复杂性,HC 显著增加了拓扑复杂性,而并未改变单个单元在 FLOPs 上的计算开销。形式上,HC 的单层传播定义为:
![]()
其中 x_l 和 x_{l+1} 分别是第 l 层的输入和输出。与单层 ResNet 不同,x_l 和 x_{l+1} 的特征维度从 C 扩展到 n×C,n 是扩展率,H 为可学习映射。
- H^res_l ∈ R^{n×n} 将残差流内的特征混合,
- H^pre_l ∈ R^{1×n} 将特征从 nC 维流聚合为 C 维层输入,
- H^post_l ∈ R^{1×n} 将层输出映射回流中。
然而,随着训练规模扩大,HC 引入了潜在的不稳定风险。主要问题在于,当架构跨越多层时,HC 的无约束特性损害了恒等映射特性。在包含多个并行流的架构中,理想的恒等映射作为守恒机制,确保流间平均信号强度在前向和反向传播中保持不变。将 HC 递归扩展到多层可得:

其中,L 和 l 分别代表深层和浅层。与残差连接对比,HC 中的复合映射
![]()
未能保留特征的全局均值。这种差异导致信号无界放大或衰减,进而引发大规模训练的不稳定性。另一个考虑是,虽然 HC 在 FLOPs 上保持了计算效率,但原始设计未解决 因扩宽残差流而产生的内存访问开销问题。这些因素共同限制了 HC 的实际可扩展性,阻碍了其在大规模训练中的应用。

为解决这些挑战,本文提出了 流形约束超连接(Manifold-Constrained Hyper-Connections,mHC),如图所示。这是一个通用框架,将 HC 的残差连接空间投影到特定流形以恢复恒等映射特性,同时结合严格的基础设施优化以确保效率。
具体而言,mHC 利用 Sinkhorn-Knopp 算法 将 H^res_L 熵投影到((entropically project)Birkhoff 多胞体上,从而 将残差连接矩阵约束在由双随机矩阵构成的流形内。由于这些矩阵的行和与列和均为 1,操作
![]()
充当输入特征的凸组合。此特性有利于条件良好的信号传播,其中特征均值守恒且信号范数严格正则化,有效缓解了信号消失或爆炸的风险。此外,由于双随机矩阵在矩阵乘法下具有封闭性,复合映射
![]()
保留了这一守恒特性。因此,mHC 有效地保持了任意深度间恒等映射的稳定性。
为确保效率,本研究采用 核融合(kernel fusion),并利用 TileLang 开发混合精度内核。此外,本研究通过 选择性重计算 减轻内存占用,并在 DualPipe 调度中精心重叠通信。
3. 基础
在 HC 公式中,第 l 层的输入 x_l ∈ R^{1×C} 被扩展 n 倍以构造一个隐藏矩阵
![]()
可视为 n 流残差。此操作有效地拓宽了残差流的宽度。为管理该流的读出、写入和更新过程,HC 引入了三个可学习线性映射:
![]()
在 HC 公式中,可学习映射由两部分系数组成:输入依赖部分和全局部分,分别称为动态映射和静态映射。形式上,HC 计算系数如下:

![]()
![]()
![]()
其中 RMSNorm(·) 应用于最后一个维度,标量 α 是初始化为小值的可学习门控因子。动态映射由参数为 θ 的线性投影推导而来,而静态映射则由可学习偏置 b 表示。
值得注意的是,引入这些映射 H 带来的计算开销可忽略不计,因为典型扩展率 n(例如 4)远小于输入维度 C。通过此设计,HC 有效地将残差流的信息容量与层输入维度解耦,而后者与模型计算复杂度(FLOPs)密切相关。因此,HC 通过调整残差流宽度提供了一条新的扩展途径,补充了预训练缩放定律中讨论的模型 FLOPs 和训练数据大小等传统扩展维度。
尽管 HC 需要三个映射来处理残差流与层输入间的维度不匹配,但表 1 所示的初步实验表明,残差映射 H^res_l 带来了最显著的性能增益。这一发现强调了残差流内有效信息交换的至关重要。

3.1. 数值不稳定性
尽管残差映射 H^res_l 对性能至关重要,但其顺序应用对数值稳定性构成重大风险。当 HC 跨越多层扩展时,从层 l 到 L 的有效信号传播由复合映射
![]()
控制。由于可学习映射 H^res_l 不受约束,该复合映射不可避免地偏离恒等映射。因此,信号幅度在前向传递和反向传播中都容易爆炸或消失。此现象破坏了残差学习的基本前提(依赖于无阻碍的信号流),从而在更深或更大规模的模型中使训练过程不稳定。

实证证据支持此分析。如上图所示,本文在大规模实验中观察到不稳定的损失行为。以 mHC 为基线,HC 在约 12k 步附近出现意外的损失激增,这与梯度范数的不稳定高度相关。此外,对 H^res_l 的分析验证了此不稳定性的机制。
为量化复合映射沿残差流放大信号的程度,本文使用两个指标。
- 第一个基于复合映射按行求和的最大绝对值,捕捉前向传递中的最坏扩展情况。
- 第二个基于最大绝对列和,对应反向传递。

本文将这些指标称为复合映射的 Amax 增益幅度。如图所示,Amax 增益幅度产生峰值达 3000 的极端值,与 1 的显著差异证实了残差流爆炸的存在。
3.2. 系统开销
虽然由于附加映射的线性特性,HC 的计算复杂度仍然可控,但系统级开销带来了不可忽视的挑战。具体而言,内存访问(I/O)成本常构成现代模型架构的主要瓶颈之一,广泛称为 "内存墙"。这一瓶颈在架构设计中常被忽视,但它对运行效率有决定性影响。

聚焦于广泛采用的前置归一化 Transformer 架构,本文分析了 HC 固有的 I/O 模式。表 2 总结了由 n 流残差设计在单个残差层中引入的每 token 内存访问开销。
- 分析显示,HC 将内存访问成本增加了大约与 n 成比例的倍数。这种过度的 I/O 需求在没有融合内核缓解的情况下,会显著降低训练吞吐量。
- 此外,由于 H 是可学习参数,反向传播需要它们的中间激活。这导致 GPU 内存占用大幅增加,通常需要梯度检查点来维持可行的内存使用。
- 此外,在流水线并行中,HC 需要 n 倍的通信成本,导致更大的气泡并降低训练吞吐量。
4. 方法
4.1. 流形约束超连接
受恒等映射原理启发,mHC 的核心前提是将残差映射 H^res_l 约束到特定流形上。原始恒等映射通过强制 H^res_l = I(单位阵)确保稳定性,但这从根本上排除了残差流内的信息交换,而这对于最大化多流架构的潜力至关重要。
因此,本文提出 将残差映射投影到一个流形上,该流形同时保持跨层信号传播的稳定性,并促进残差流间的相互交互以保持模型的表达能力。为此,将 H^res_l 限制为 双随机矩阵(doubly stochastic matrix),即具有非负元素且行和与列和均为 1 的矩阵。形式上,令 MresMres 表示双随机矩阵的流形(也称为 Birkhoff 多胞体)。将 H^res_l 约束到 P_{M^res} (H^res_l),定义如下:
![]()
其中 1_n 代表全 1 的 n 维向量。
值得注意的是,当 n = 1 时,双随机条件退化为标量 1,从而恢复了原始恒等映射。双随机性的选择赋予了几个有利于大规模模型训练的严格理论特性:
-
范数保持:双随机矩阵的谱范数以 1 为界(即 || H^res_l ||_2 ≤ 1)。这意味着可学习映射是非扩张的,有效缓解了梯度爆炸问题。
-
组合封闭性:双随机矩阵集合在矩阵乘法下是封闭的。这确保了跨多层的复合残差映射 ∏^{L−1}_{i=1} H^res_l 保持双随机性,从而在整个模型深度中保持稳定性。
-
通过 Birkhoff 多胞体的几何解释:集合 MresMres 构成 Birkhoff 多胞体,它是置换矩阵集合的凸包。这提供了清晰的几何解释:残差映射充当置换的凸组合。从数学上讲,此类矩阵的重复应用倾向于单调增加
流间信息的混合,有效地充当了鲁棒的特征融合机制。
此外,本文对输入映射 H^pre_l 和输出映射 H^post_l 施加非负约束。这种约束防止了正负系数组合产生的信号抵消,这也可视为一种特殊的流形投影。
4.2. 参数化与流形投影
本节详细说明 mHC 中所有 H 的计算过程。
给定第 l 层的输入隐藏矩阵(hidden matrix)x_l ∈ R^{n×C},本文首先将其展平为向量
![]()
以保留完整上下文信息。然后,本文遵循原始 HC 公式得到动态映射和静态映射如下:

![]()
其中 ϕ 是动态映射的线性投影,mat(⋅) 是从 R^{1×n^2} 到 R^{n×n} 的重塑函数。
然后,通过以下方式获得最终的约束映射:

其中 σ(⋅) 表示 Sigmoid 函数。Sinkhorn−Knopp(⋅) 算子首先通过指数算子使所有元素为正,然后执行迭代归一化过程,交替重缩放行和列使其和为 1。具体来说,给定一个正矩阵
![]()
作为起点,迭代归一化 进行如下:
![]()
其中,Tr 和 Tc 分别表示行和列归一化。当 t_max → ∞ 时,此过程收敛到一个双随机矩阵 H^res_l = M(t_max)。本文在实验中选择 t_max = 20 作为实际值。
4.3. 高效基础设施设计
4.3.1. 核融合
mHC 中的 RMSNorm 在高维隐状态
![]()
上操作时施加了显著的延迟,本文重新排序了除以范数的操作,使其跟随矩阵乘法之后。此优化在保持数学等价性的同时提高了效率。
此外,本文采用 混合精度策略 在保证速度的同时最大化数值精度,并将多个具有共享内存访问的操作融合到统一的计算内核中,以减少内存带宽瓶颈。

基于公式 (10) 至 (13) 详述的输入和参数,本文实现了三个专用的 mHC 内核来计算 H。在这些内核中,偏置和线性投影被合并到 b_l 和 ϕ_l 中,RMSNorm 权重也被吸收到 ϕ_l 中。
-
公式 (14) 至 (15):本文开发了一个统一内核,融合了对 x 的两次扫描,利用矩阵乘法单元最大化内存带宽利用率。反向传播(包含两次矩阵乘法)同样被合并到单个内核中,消除了 x 的重复加载。两个内核都具有精细调整的流水线(加载、转换、计算、存储)以高效处理混合精度。
-
公式 (16) 至 (18):这些在小系数上的轻量级操作被机会性地融合到单个内核中,显著减少了内核启动开销。
-
公式 (19):本文在单个内核内实现了 Sinkhorn-Knopp 迭代。对于反向传播,本文推导了一个自定义反向内核,在芯片上重计算中间结果并遍历整个迭代。
使用从上述内核推导出的系数,本文引入了两个额外的内核来应用这些映射:一个用于
![]()
另一个用于
![]()
通过将 H^post_l 和 H^res_l 的应用与残差合并相融合,本文将该内核读取的元素数从 (3n+1)C 减少到 (n+1)C,写入的元素数从 3nC 减少到 nC。
本文使用 TileLang 高效实现了大多数内核(公式 (14)-(15)除外)。该框架简化了具有复杂计算过程的内核实现,并使本文能够以最少的工程工作量充分利用内存带宽。
4.3.2. 重计算
n 流残差设计在训练期间引入了大量内存开销。为缓解此问题,本文在前向传递后丢弃 mHC 内核的中间激活,并通过重新执行 mHC 内核(不含繁重的层函数 F)在反向传递中即时重新计算它们。因此,对于连续的 L_r 层块,本文只需要存储第一层的输入 x_{l_0}。排除轻量级系数并考虑 F 内的前置归一化,表 3 总结了为反向传递保留的中间激活。

由于 mHC 内核重计算是针对连续的 L_r 层块执行的,给定总共 L 层,本文必须为反向传递持久存储所有 ⌈L / L_r⌉ 个块的第一层输入 x_{l_0}。除了这个驻留内存外,重计算过程为活动块引入了 (n+2)C × L_r 元素的瞬时内存开销,这决定了反向传播期间的峰值内存使用量。因此,本文通过最小化对应于 L_r 的总内存占用来确定最优块大小 L*_r:

此外,大规模训练中的流水线并行施加了一个约束:重计算块不得跨越流水线阶段边界。观察到理论最优值 L*_r 通常与每个流水线阶段的层数一致,本文选择将重计算边界与流水线阶段同步。
4.3.3. DualPipe 中的通信重叠
在大规模训练中,流水线并行 是减轻参数和梯度内存占用的标准实践。
具体而言,本文采用 DualPipe 调度,它有效地重叠了扩展互联通信流量(例如专家和流水线并行中的流量)。然而,与单流设计相比,mHC 中提出的 n 流残差在跨流水线阶段时会产生大量通信延迟。此外,在阶段边界处,为所有 L_r 层重计算 mHC 内核引入了不可忽略的计算开销。为解决这些瓶颈,本文扩展了 DualPipe 调度(见图4),以促进在流水线阶段边界处更好地重叠通信和计算。

值得注意的是,为防止阻塞通信流,本文在专用的高优先级计算流上执行 MLP(即 FFN)层的 F_{post,res} 内核。本文进一步避免在注意力层中对长时间运行的操作使用持久内核,从而防止长时间的停顿。此设计使得重叠的注意力计算可被抢占,允许灵活调度,同时保持计算设备处理单元的高利用率。此外,重计算过程与流水线通信依赖解耦,因为每个阶段的初始激活 x_{l_0} 已本地缓存。
5. 实验
5.1. 实验设置
本文通过语言模型预训练验证所提出的方法,对基线、HC 和本文提出的 mHC 进行比较分析。利用受 DeepSeek-V3 启发的 MoE 架构,本文训练了四个不同的模型变体以覆盖不同的评估体系。
5.2. 主要结果

如图 (a) 所示,mHC 有效缓解了在 HC 中观察到的训练不稳定性,与基线相比最终损失减少了0.021。这种改进的稳定性在图 (b) 的梯度范数分析中得到进一步证实,其中 mHC 表现出比 HC 显著更好的行为,保持了与基线相当稳定的轮廓。

上表展示了一系列多样化基准测试上的下游性能。mHC 带来了全面的改进,始终优于基线,并在大多数任务上超过 HC。值得注意的是,与 HC 相比,mHC 进一步增强了模型的推理能力,在 BBH 上带来 2.1% 的性能提升,在 DROP 上带来 2.3% 的提升。
5.3. 扩展实验

为评估本文方法的可扩展性,本文报告了 mHC 在不同规模上相对于基线的相对损失改进。在图 (a) 中,本文绘制了跨越 3B、9B 和 27B 参数的计算扩展曲线。轨迹表明,即使在更高的计算预算下,性能优势也能稳健保持,仅显示出边际衰减。此外,本文在图 (b) 中检查了运行内的动态,该图展示了 3B 模型的 token 扩展曲线。总的来说,这些发现验证了 mHC 在大规模场景中的有效性。本文的内部大规模训练实验进一步证实了这一结论。
5.4. 稳定性分析

上图展示了 mHC 的传播稳定性。理想情况下,单层映射满足双随机约束,意味着前向信号增益和反向梯度增益都应等于 1。然而,使用 Sinkhorn-Knopp 算法的实际实现必须限制迭代次数以实现计算效率。在本文的设置中,本文使用 20 次迭代来获得近似解。因此,如图 (a) 所示,反向梯度增益略微偏离 1。在图 (b) 所示的复合情况下,偏差增大但仍保持有界,达到最大值约 1.6。值得注意的是,与 HC 中近 3000 的最大增益幅度相比,mHC 将其降低了三个数量级。这些结果表明,与 HC 相比,mHC 显著增强了传播稳定性,确保了稳定的前向信号和反向梯度流。

此外,上图展示了代表性映射。观察到,对于 HC,当最大增益很大时,其他值往往也很大,这表明所有传播路径普遍不稳定。相比之下,mHC始终产生稳定的结果。
6. 结论与展望
虽然如超连接(HC)所提出的扩宽残差流宽度和多样化连接能带来性能增益,但这些连接的无约束性质会导致信号发散。这种破坏损害了跨层信号能量的守恒,引发训练不稳定性并阻碍深度网络的可扩展性。为解决这些挑战,本文引入了流形约束超连接(mHC),一个将残差连接空间投影到特定流形上的通用框架。通过使用 Sinkhorn-Knopp 算法对残差映射强制执行双随机约束,mHC 将信号传播转化为特征的凸组合。实证结果证实,mHC 有效恢复了恒等映射特性,实现了稳定的大规模训练,并且与传统 HC 相比具有更优的可扩展性。至关重要的是,通过高效的基础设施级优化,mHC 以可忽略的计算开销带来了这些改进。
作为 HC 范式的通用扩展,mHC 为未来研究开辟了几个有前景的途径。尽管本工作使用双随机矩阵来确保稳定性,但该框架允许探索针对特定学习目标定制的多样化流形约束。本文预计,对不同几何约束的进一步研究可能会产生新的方法,以更好地优化可塑性与稳定性之间的权衡。此外,本文希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表征学习的理解,mHC将有助于解决当前的局限性,并可能为下一代基础架构的演进指明新途径。

更多推荐

所有评论(0)