DeepSeek逢节搞动作：「mHC」新架构吕明

26年元旦，DeepSeek发布新论文《mHC: Manifold-Constrained Hyper-Connections》，提出一种名流形约束超连接的新架构设计，作为一项在深层神经网络架构设计方面具有重要理论洞察与工程价值的论文。

在抽空粗读后做一些简单的记录与分享，后续有时间再尝试深入学习一下：

残差连接的本质与挑战

我们知道Residual Connection·残差链接自ResNet提出以来，已成为现代深度神经网络（尤其是Transformer架构）的核心组件。其根本优势在于Identity Mapping，即：输入信号可无损地传递至深层，从而保障梯度稳定传播，缓解梯度消失/爆炸问题。这一特性在数学上体现为：

近年来，为进一步提升模型容量与表达能力，研究者们在之前的研究中着手于扩展残差连接的宽度与连接模式，如Hyper Connections，通过引入多流残差结构与可学习的连接矩阵映射Res Mapping、Pre Mapping、Post Mapping，以增强跨层特征交互。然而，这种扩展也带来了对Identity Mapping稳定性的破坏，即：可学习矩阵的连乘可能导致信号幅度指数级放大或衰减，引发训练不稳定，严重制约其在大规模模型中的应用。

此外，HC在系统层面带来了显著的内存访问开销与通信瓶颈，进一步限制了其实际可扩展性。

从Manifold Constrained到Identity Mapping

即mHC的核心贡献在于通过“Manifold Constrained·流形约束”解决之前HC“Identity Mapping·身份映射”的稳定性问题，同时保留多流结构的表达能力。具体方法是：

1. 流形选择：双随机矩阵空间（Birkhoff多面体）

将残差连接矩阵H-Res约束为双随机矩阵·Doubly Stochastic Matrix（行和与列和均为1的非负矩阵），从而实现：

· 保范性：矩阵的谱范数 ≤ 1，避免信号进入深层网络后放大；

· 复合封闭性：双随机矩阵的乘积仍是双随机矩阵，确保多层传播后依然稳定；

· 几何解释：双随机矩阵可视为置换矩阵的凸组合，相当于对特征进行“温和混合”，既促进信息交互，又保持能量守恒；

2. 投影方法：Sinkhorn-Knopp迭代

通过Sinkhorn-Knopp算法将任意矩阵投影至双随机流形，从而在实际优化中实现约束。虽然迭代次数有限（论文中取20步），但已能足够近似双随机性，在稳定性与计算开销间取得平衡。

3. 输入输出映射的非负约束

矩阵对H-per和H-post施加Sigmoid约束，避免正负系数混合导致信号抵消，进一步增强传播稳定性。

理论创新与工程意义

1. 拓扑结构与优化动力学的统一

mHC将连接矩阵的约束问题转化为Manifold优化问题，在几何层面保障了信号传播的稳定性。这种思路本质上将神经网络架构设计与微分几何、凸优化理论联系起来，我想为未来理解网络拓扑如何影响优化动力学提供了一些新视角。

2. 系统级优化与可扩展性

· 内核融合与混合精度方面：通过重构计算图、融合算子、使用TileLang等编译优化，显著降低内存带宽压力；

· 选择性重计算：动态管理激活内存，平衡存储与计算开销；

· 通信与计算重叠：扩展DualPipe调度策略，缓解多流结构带来的流水线气泡。

这些优化使得mHC在扩展率n=4时仅带来6.7%的额外训练时间开销，具备实际部署可行性。

3. 稳定性与性能

在27B模型预训练中，mHC不仅消除了之前HC的损失突变与梯度爆炸，还在多项推理与理解任务（如BBH、DROP）上显著超越基线HC，说明其既修复了训练动态，也增强了模型表达能力。

对模型在Residual Connection结构上创新的一些启示

mHC工作提醒了我们，Residual Connection作为一种方便梯度流动的工程技巧，其背后隐含着一条保持信号完整性、控制传播动力学的结构性约束，在扩展其宽度或复杂度时，必须谨慎维持这种“保守性”，否则将破坏深层网络的优化地貌。

当前大模型的前向/反向传播严重依赖残差结构的稳定性，任何引入的变换都应满足复合下的保序性或保范性，mHC通过流形约束提供了一种可推广的设计范式，即：未来的宏观架构创新可在特定空间中搜索更广泛且多元化的连接模式，从而在结构上为模型的表达与训练稳定性带来一些不一样的视角和研究突破。

同时，我想这篇论文为Manifold-Constrained架构设计亦开启了新方向，未来我们是否可探索：

· 其他流形（如Stiefel流形、正交群）对连接矩阵的约束效果；

· 动态流形投影机制，适应不同训练阶段或网络深度；

· 将类似思想应用于注意力机制、MoE路由等模块的拓扑设计。

最后我想，mHC作为一项有效的架构改进，也是一次从几何视角重新思考神经网络拓扑的重要尝试，为下一代基础模型的稳健扩展亦提供了理论上的部分依据以及工程实现上的探索基础。

■ 新年“第一枪”：梁文锋署名论文为下一代模型铺垫（组图）

■ 梁文峰亲自改造，何恺明残差连接（组图）

■ DeepSeek元旦新论文要开启架构新篇章（组图）