DeepSeek暴力优化AI架构新智元
2026新年第一天,DeepSeek发表了梁文锋署名的重磅新论文,提出了一种名为「mHC(流形约束超连接)」的新架构,在27B参数模型上,仅增加约6.7%的训练时间开销,即可实现显著性能提升。
刚刚,DeepSeek送上2026年新年第一个王炸。
这次的创新是,mHC(流形约束超连接)新架构。
在这篇论文中,DeepSeek提出了流形约束超连接(mHC),将矩阵投影到约束流形上优化残差连接空间,从而确保稳定性,彻底颠覆了传统AI架构认知——
可以扩大残差流通道宽度(residual stream width),而在算力和内存上的代价却微乎其微。
图1: 残差连接范式示意图
继Hyper-Connections(HC)开辟「残差连接宽度可扩展」路线之后,mHC直接把这一思路推上实用化的快车道。
DeepSeek这次直击AI痛点,给同行上了一课!
值得一提的是,这次梁文锋署名,但解振达、韦毅轩、Huanqi Cao为核心贡献者,解振达为通讯作者。
DeepSeek,或敲响ResNet丧钟
这简直是为「模型优化玩家」量身打造的王牌秘方。
过去,超连接(hyper-connections)更多只是学术圈的小众尝试。
而现在,DeepSeek直接把它升级为基础架构的核心设计要素。
这也正是拥趸一直以来对DeepSeek的期待:数学上的洞察力+硬件层面的极致优化。
顶级大语言模型(LLM)中,ResNet结构或许即将被淘汰。
毕竟,残差流通道宽度一直是扩展模型的「烦人瓶颈」。
这波操作,也再次展现了DeepSeek典型的风格:对同行的温和降维打击——
你们两年时间都在打磨微结构,调整DS-MoE?挺可爱哈。
来看看我们怎么玩:把一个理论上看起来还不够成熟的高级原语,直接做实,顺手解锁游戏下一关。
他们在论文中写道:「我们的内部大规模训练实验进一步验证了mHC在大规模应用中的有效性。」
这句话在DeepSeek的原生稀疏注意力(Natively trainable Sparse Attention,NAS)那篇论文里可没有。
在27B模型的系统级基准测试结果中,新架构mHC在绝大多数基准测试中持续超越基线模型并优于HC,这证明其在大规模预训练中的有效性。
换句话说,DeepSeek信心十足,不怕同行知道自己的「杀招」。
这给了DeepSeek的铁粉Teortaxes很大信心,他有九成把握:mHC会进入DeepSeek V4。
Manifold-Constrained Hyper-Connections (mHC)
这个方法的关键目标,就是在Hyper-Connections的拓扑设计下恢复身份映射属性。这样,就可以在大规模训练与现实基础模型任务中体现实际价值。
mHC与传统残差连接和HC的根本差异在于:传统残差连接只保留简单的输入 + 输出形式(稳定但表达受限);Hyper-Connections (HC) 强化连接能力,但牺牲了稳定性与效率。
而mHC的思路是:将Hyper-Connections的参数空间约束到特定的流形(manifold)上,以恢复恒等映射结构。
这意味着该可学习映射是非扩张的,从而能够有效缓解梯度爆炸问题。
这提供了清晰的几何直观:残差映射可以被看作是若干置换的凸组合。


