mHC: Manifold-Constrained Hyper-Connections


论文地址:https://arxiv.org/abs/2512.24880

进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群


目录

1. 引言

3. 基础

3.1. 数值不稳定性

3.2. 系统开销

4. 方法

4.1. 流形约束超连接

4.2. 参数化与流形投影

4.3. 高效基础设施设计

4.3.1. 核融合

4.3.2. 重计算

4.3.3. DualPipe 中的通信重叠

5. 实验

5.1. 实验设置

5.2. 主要结果

5.3. 扩展实验

5.4. 稳定性分析

6. 结论与展望


1. 引言

自 ResNet 提出以来,深度神经网络架构经历了快速演进。如上图 (a) 所示,单层结构可表述为:

其中,x_l 和 x_{l+1} 分别是第 l 层的 C 维输入和输出,F 代表残差函数。

尽管残差函数 F 在过去十年已演变为包含卷积、注意力机制和前馈网络等多种操作,但残差连接范式保持了其原始形式。随着 Transformer 架构的普及,该范式已成为大型语言模型的基本设计元素。这一成功主要归功于残差连接的简洁形式。更重要的是,早期研究揭示了残差连接的 恒等映射(identity mapping。identity 在矩阵范畴内通常表示为对角线为 1,其他位置为 0 的单位阵特性维持了大规模训练的稳定性与效率。通过跨层递归扩展残差连接,可得:

其中,L 和 l 分别对应深层和浅层。恒等映射指的是 x_l 本身,强调信号能从浅层直接映射到深层而无需修改。

(2025|ICLR,静态/动态超连接,残差连接,梯度消失与表示崩溃)Hyper-Connections

近期,以超连接(Hyper-Connections,HC)为代表的研究为残差连接引入了新维度,并实证展示了其性能潜力。HC 的单层架构如上图 (b) 所示。通过扩宽残差流宽度并增强连接复杂性,HC 显著增加了拓扑复杂性,而并未改变单个单元在 FLOPs 上的计算开销。形式上,HC 的单层传播定义为:

其中 x_l 和 x_{l+1} 分别是第 l 层的输入和输出。与单层 ResNet 不同,x_l 和 x_{l+1} 的特征维度从 C 扩展到 n×C,n 是扩展率,H 为可学习映射。

  • H^res_l ∈ R^{n×n} 将残差流内的特征混合,
  • H^pre​_l ∈ R^{1×n} 将特征从 nC 维流聚合为 C 维层输入,
  • H^post_l ∈ R^{1×n} 将层输出映射回流中。

然而,随着训练规模扩大,HC 引入了潜在的不稳定风险。主要问题在于,当架构跨越多层时,HC 的无约束特性损害了恒等映射特性。在包含多个并行流的架构中,理想的恒等映射作为守恒机制,确保流间平均信号强度在前向和反向传播中保持不变。将 HC 递归扩展到多层可得:

其中,L 和 l 分别代表深层和浅层。与残差连接对比,HC 中的复合映射

未能保留特征的全局均值。这种差异导致信号无界放大或衰减,进而引发大规模训练的不稳定性。另一个考虑是,虽然 HC 在 FLOPs 上保持了计算效率,但原始设计未解决 因扩宽残差流而产生的内存访问开销问题。这些因素共同限制了 HC 的实际可扩展性,阻碍了其在大规模训练中的应用。

为解决这些挑战,本文提出了 流形约束超连接(Manifold-Constrained Hyper-Connections,mHC),如图所示。这是一个通用框架,将 HC 的残差连接空间投影到特定流形以恢复恒等映射特性,同时结合严格的基础设施优化以确保效率。

具体而言,mHC 利用 Sinkhorn-Knopp 算法 将 H^res_L​ 熵投影到((entropically project)Birkhoff 多胞体上,从而 将残差连接矩阵约束在由双随机矩阵构成的流形内。由于这些矩阵的行和与列和均为 1,操作

充当输入特征的凸组合。此特性有利于条件良好的信号传播,其中特征均值守恒且信号范数严格正则化,有效缓解了信号消失或爆炸的风险。此外,由于双随机矩阵在矩阵乘法下具有封闭性,复合映射

保留了这一守恒特性。因此,mHC 有效地保持了任意深度间恒等映射的稳定性。

为确保效率,本研究采用 核融合(kernel fusion),并利用 TileLang 开发混合精度内核。此外,本研究通过 选择性重计算 减轻内存占用,并在 DualPipe 调度中精心重叠通信。

3. 基础

在 HC 公式中,第 l 层的输入 x_l ∈ R^{1×C} 被扩展 n 倍以构造一个隐藏矩阵

可视为 n 流残差。此操作有效地拓宽了残差流的宽度。为管理该流的读出、写入和更新过程,HC 引入了三个可学习线性映射:

在 HC 公式中,可学习映射由两部分系数组成:输入依赖部分和全局部分,分别称为动态映射和静态映射。形式上,HC 计算系数如下:

其中 RMSNorm(·) 应用于最后一个维度,标量 α 是初始化为小值的可学习门控因子。动态映射由参数为 θ 的线性投影推导而来,而静态映射则由可学习偏置 b 表示。

值得注意的是,引入这些映射 H 带来的计算开销可忽略不计,因为典型扩展率 n(例如 4)远小于输入维度 C。通过此设计,HC 有效地将残差流的信息容量与层输入维度解耦,而后者与模型计算复杂度(FLOPs)密切相关。因此,HC 通过调整残差流宽度提供了一条新的扩展途径,补充了预训练缩放定律中讨论的模型 FLOPs 和训练数据大小等传统扩展维度。

尽管 HC 需要三个映射来处理残差流与层输入间的维度不匹配,但表 1 所示的初步实验表明,残差映射 H^res_l 带来了最显著的性能增益。这一发现强调了残差流内有效信息交换的至关重要。

3.1. 数值不稳定性

尽管残差映射 H^res_l​ 对性能至关重要,但其顺序应用对数值稳定性构成重大风险。当 HC 跨越多层扩展时,从层 l 到 L 的有效信号传播由复合映射

控制。由于可学习映射 H^res_l 不受约束,该复合映射不可避免地偏离恒等映射。因此,信号幅度在前向传递和反向传播中都容易爆炸或消失。此现象破坏了残差学习的基本前提(依赖于无阻碍的信号流),从而在更深或更大规模的模型中使训练过程不稳定。

实证证据支持此分析。如上图所示,本文在大规模实验中观察到不稳定的损失行为。以 mHC 为基线,HC 在约 12k 步附近出现意外的损失激增,这与梯度范数的不稳定高度相关。此外,对 H^res_l​ 的分析验证了此不稳定性的机制。

为量化复合映射沿残差流放大信号的程度,本文使用两个指标。

  • 第一个基于复合映射按行求和的最大绝对值,捕捉前向传递中的最坏扩展情况。
  • 第二个基于最大绝对列和,对应反向传递。

本文将这些指标称为复合映射的 Amax 增益幅度。如图所示,Amax 增益幅度产生峰值达 3000 的极端值,与 1 的显著差异证实了残差流爆炸的存在。

3.2. 系统开销

虽然由于附加映射的线性特性,HC 的计算复杂度仍然可控,但系统级开销带来了不可忽视的挑战。具体而言,内存访问(I/O)成本常构成现代模型架构的主要瓶颈之一,广泛称为 "内存墙"。这一瓶颈在架构设计中常被忽视,但它对运行效率有决定性影响。

聚焦于广泛采用的前置归一化 Transformer 架构,本文分析了 HC 固有的 I/O 模式。表 2 总结了由 n 流残差设计在单个残差层中引入的每 token 内存访问开销。

  • 分析显示,HC 将内存访问成本增加了大约与 n 成比例的倍数。这种过度的 I/O 需求在没有融合内核缓解的情况下,会显著降低训练吞吐量。
  • 此外,由于 H 是可学习参数,反向传播需要它们的中间激活。这导致 GPU 内存占用大幅增加,通常需要梯度检查点来维持可行的内存使用。
  • 此外,在流水线并行中,HC 需要 n 倍的通信成本,导致更大的气泡并降低训练吞吐量。

4. 方法

4.1. 流形约束超连接

受恒等映射原理启发,mHC 的核心前提是将残差映射 H^res_l​ 约束到特定流形上。原始恒等映射通过强制 H^res_l ​= I(单位阵)确保稳定性,但这从根本上排除了残差流内的信息交换,而这对于最大化多流架构的潜力至关重要。

因此,本文提出 将残差映射投影到一个流形上,该流形同时保持跨层信号传播的稳定性,并促进残差流间的相互交互以保持模型的表达能力。为此,将 H^res_l​ 限制为 双随机矩阵(doubly stochastic matrix),即具有非负元素且行和与列和均为 1 的矩阵。形式上,令 MresMres 表示双随机矩阵的流形(也称为 Birkhoff 多胞体)。将 H^res_l​​ 约束到 P_{M^res} (H^res_l),定义如下:

其中 1_n 代表全 1 的 n 维向量。

值得注意的是,当 n = 1 时,双随机条件退化为标量 1,从而恢复了原始恒等映射。双随机性的选择赋予了几个有利于大规模模型训练的严格理论特性:

  • 范数保持:双随机矩阵的谱范数以 1 为界(即 || H^res_l  ||_2 ≤ 1)。这意味着可学习映射是非扩张的,有效缓解了梯度爆炸问题。

  • 组合封闭性:双随机矩阵集合在矩阵乘法下是封闭的。这确保了跨多层的复合残差映射 ∏^{L−1}_{i=1} H^res_l​ 保持双随机性,从而在整个模型深度中保持稳定性。

  • 通过 Birkhoff 多胞体的几何解释:集合 MresMres 构成 Birkhoff 多胞体,它是置换矩阵集合的凸包。这提供了清晰的几何解释:残差映射充当置换的凸组合。从数学上讲,此类矩阵的重复应用倾向于单调增加

流间信息的混合,有效地充当了鲁棒的特征融合机制。

此外,本文对输入映射 H^pre_l​ 和输出映射 H^post_l 施加非负约束。这种约束防止了正负系数组合产生的信号抵消,这也可视为一种特殊的流形投影。

4.2. 参数化与流形投影

本节详细说明 mHC 中所有 H 的计算过程。

给定第 l 层的输入隐藏矩阵(hidden matrix)x_l​ ∈ R^{n×C},本文首先将其展平为向量

以保留完整上下文信息。然后,本文遵循原始 HC 公式得到动态映射和静态映射如下:

其中 ϕ 是动态映射的线性投影,mat(⋅) 是从 R^{1×n^2} 到 R^{n×n} 的重塑函数。

然后,通过以下方式获得最终的约束映射:

其中 σ(⋅) 表示 Sigmoid 函数。Sinkhorn−Knopp(⋅) 算子首先通过指数算子使所有元素为正,然后执行迭代归一化过程,交替重缩放行和列使其和为 1。具体来说,给定一个正矩阵

作为起点,迭代归一化 进行如下:

其中,Tr 和 Tc 分别表示行和列归一化。当 t_max → ∞ 时,此过程收敛到一个双随机矩阵 H^res_l ​= M(t_max​)。本文在实验中选择 t_max = 20 作为实际值。

4.3. 高效基础设施设计

4.3.1. 核融合

mHC 中的 RMSNorm 在高维隐状态

上操作时施加了显著的延迟,本文重新排序了除以范数的操作,使其跟随矩阵乘法之后。此优化在保持数学等价性的同时提高了效率。

此外,本文采用 混合精度策略 在保证速度的同时最大化数值精度,并将多个具有共享内存访问的操作融合到统一的计算内核中,以减少内存带宽瓶颈。

基于公式 (10) 至 (13) 详述的输入和参数,本文实现了三个专用的 mHC 内核来计算 H。在这些内核中,偏置和线性投影被合并到 b_l 和 ϕ_l 中,RMSNorm 权重也被吸收到 ϕ_l 中。

  • 公式 (14) 至 (15):本文开发了一个统一内核,融合了对 x 的两次扫描,利用矩阵乘法单元最大化内存带宽利用率。反向传播(包含两次矩阵乘法)同样被合并到单个内核中,消除了 x 的重复加载。两个内核都具有精细调整的流水线(加载、转换、计算、存储)以高效处理混合精度。

  • 公式 (16) 至 (18):这些在小系数上的轻量级操作被机会性地融合到单个内核中,显著减少了内核启动开销。

  • 公式 (19):本文在单个内核内实现了 Sinkhorn-Knopp 迭代。对于反向传播,本文推导了一个自定义反向内核,在芯片上重计算中间结果并遍历整个迭代。

使用从上述内核推导出的系数,本文引入了两个额外的内核来应用这些映射:一个用于

另一个用于

通过将 H^post_l 和 H^res_l 的应用与残差合并相融合,本文将该内核读取的元素数从 (3n+1)C 减少到 (n+1)C,写入的元素数从 3nC 减少到 nC。

本文使用 TileLang 高效实现了大多数内核(公式 (14)-(15)除外)。该框架简化了具有复杂计算过程的内核实现,并使本文能够以最少的工程工作量充分利用内存带宽。

4.3.2. 重计算

n 流残差设计在训练期间引入了大量内存开销。为缓解此问题,本文在前向传递后丢弃 mHC 内核的中间激活,并通过重新执行 mHC 内核(不含繁重的层函数 F)在反向传递中即时重新计算它们。因此,对于连续的 L_r 层块,本文只需要存储第一层的输入 x_{l_0}​​。排除轻量级系数并考虑 F 内的前置归一化,表 3 总结了为反向传递保留的中间激活。

由于 mHC 内核重计算是针对连续的 L_r 层块执行的,给定总共 L 层,本文必须为反向传递持久存储所有 ⌈L / L_r⌉ 个块的第一层输入 x_{l_0}​​。除了这个驻留内存外,重计算过程为活动块引入了 (n+2)C × L_r 元素的瞬时内存开销,这决定了反向传播期间的峰值内存使用量。因此,本文通过最小化对应于 L_r 的总内存占用来确定最优块大小 L*_r​:

此外,大规模训练中的流水线并行施加了一个约束:重计算块不得跨越流水线阶段边界。观察到理论最优值 L*_r​ 通常与每个流水线阶段的层数一致,本文选择将重计算边界与流水线阶段同步。

4.3.3. DualPipe 中的通信重叠

在大规模训练中,流水线并行 是减轻参数和梯度内存占用的标准实践。

具体而言,本文采用 DualPipe 调度,它有效地重叠了扩展互联通信流量(例如专家和流水线并行中的流量)。然而,与单流设计相比,mHC 中提出的 n 流残差在跨流水线阶段时会产生大量通信延迟。此外,在阶段边界处,为所有 L_r 层重计算 mHC 内核引入了不可忽略的计算开销。为解决这些瓶颈,本文扩展了 DualPipe 调度(见图4),以促进在流水线阶段边界处更好地重叠通信和计算。

值得注意的是,为防止阻塞通信流,本文在专用的高优先级计算流上执行 MLP(即 FFN)层的 F_{post,res} 内核。本文进一步避免在注意力层中对长时间运行的操作使用持久内核,从而防止长时间的停顿。此设计使得重叠的注意力计算可被抢占,允许灵活调度,同时保持计算设备处理单元的高利用率。此外,重计算过程与流水线通信依赖解耦,因为每个阶段的初始激活 x_{l_0} 已本地缓存。

5. 实验

5.1. 实验设置

本文通过语言模型预训练验证所提出的方法,对基线、HC 和本文提出的 mHC 进行比较分析。利用受 DeepSeek-V3 启发的 MoE 架构,本文训练了四个不同的模型变体以覆盖不同的评估体系。

5.2. 主要结果

如图 (a) 所示,mHC 有效缓解了在 HC 中观察到的训练不稳定性,与基线相比最终损失减少了0.021。这种改进的稳定性在图 (b) 的梯度范数分析中得到进一步证实,其中 mHC 表现出比 HC 显著更好的行为,保持了与基线相当稳定的轮廓。

上表展示了一系列多样化基准测试上的下游性能。mHC 带来了全面的改进,始终优于基线,并在大多数任务上超过 HC。值得注意的是,与 HC 相比,mHC 进一步增强了模型的推理能力,在 BBH 上带来 2.1% 的性能提升,在 DROP 上带来 2.3% 的提升。

5.3. 扩展实验

为评估本文方法的可扩展性,本文报告了 mHC 在不同规模上相对于基线的相对损失改进。在图 (a) 中,本文绘制了跨越 3B、9B 和 27B 参数的计算扩展曲线。轨迹表明,即使在更高的计算预算下,性能优势也能稳健保持,仅显示出边际衰减。此外,本文在图 (b) 中检查了运行内的动态,该图展示了 3B 模型的 token 扩展曲线。总的来说,这些发现验证了 mHC 在大规模场景中的有效性。本文的内部大规模训练实验进一步证实了这一结论。

5.4. 稳定性分析

上图展示了 mHC 的传播稳定性。理想情况下,单层映射满足双随机约束,意味着前向信号增益和反向梯度增益都应等于 1。然而,使用 Sinkhorn-Knopp 算法的实际实现必须限制迭代次数以实现计算效率。在本文的设置中,本文使用 20 次迭代来获得近似解。因此,如图 (a) 所示,反向梯度增益略微偏离 1。在图 (b) 所示的复合情况下,偏差增大但仍保持有界,达到最大值约 1.6。值得注意的是,与 HC 中近 3000 的最大增益幅度相比,mHC 将其降低了三个数量级。这些结果表明,与 HC 相比,mHC 显著增强了传播稳定性,确保了稳定的前向信号和反向梯度流。

此外,上图展示了代表性映射。观察到,对于 HC,当最大增益很大时,其他值往往也很大,这表明所有传播路径普遍不稳定。相比之下,mHC始终产生稳定的结果。

6. 结论与展望

虽然如超连接(HC)所提出的扩宽残差流宽度和多样化连接能带来性能增益,但这些连接的无约束性质会导致信号发散。这种破坏损害了跨层信号能量的守恒,引发训练不稳定性并阻碍深度网络的可扩展性。为解决这些挑战,本文引入了流形约束超连接(mHC),一个将残差连接空间投影到特定流形上的通用框架。通过使用 Sinkhorn-Knopp 算法对残差映射强制执行双随机约束,mHC 将信号传播转化为特征的凸组合。实证结果证实,mHC 有效恢复了恒等映射特性,实现了稳定的大规模训练,并且与传统 HC 相比具有更优的可扩展性。至关重要的是,通过高效的基础设施级优化,mHC 以可忽略的计算开销带来了这些改进。

作为 HC 范式的通用扩展,mHC 为未来研究开辟了几个有前景的途径。尽管本工作使用双随机矩阵来确保稳定性,但该框架允许探索针对特定学习目标定制的多样化流形约束。本文预计,对不同几何约束的进一步研究可能会产生新的方法,以更好地优化可塑性与稳定性之间的权衡。此外,本文希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表征学习的理解,mHC将有助于解决当前的局限性,并可能为下一代基础架构的演进指明新途径。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐