DeepSeek重塑ResNet残差连接:梁文峰带队,深度学习十年迎来重大升级

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:十年一剑,DeepSeek向深度学习基石发起挑战

2026年伊始,人工智能领域迎来重磅炸弹。DeepSeek团队发布最新论文,由创始人梁文峰亲自署名,针对深度学习领域统治了十年的基础组件——残差连接(Residual Connection)进行了彻底的改造。
自2016年何恺明提出ResNet以来,残差连接(x𝑙+1 = x𝑙 + F(x𝑙))凭借其“恒等映射”的特性,解决了深层网络训练中的梯度消失问题,成为从ResNet到Transformer,再到如今风靡全球的GPT、Claude等大模型的标准配置。然而,随着模型规模向万亿参数迈进,传统残差连接的局限性逐渐显现。DeepSeek提出的mHC(mitigated Hyper-Connections)架构,不仅打破了这一沉寂十年的范式,更在提升模型性能的同时,解决了超大规模模型训练中的稳定性难题。
如需了解更多前沿AI动态,欢迎访问 AI门户

传统残差连接的危机:扩展与稳定性的博弈

残差连接的核心在于信号的无损传递。但在追求更高模型容量的今天,研究者们开始尝试扩展残差流的宽度。近期出现的Hyper-Connections(HC)将残差流从传统的C维扩展至n×C维,试图通过增加信息流通通道来增强模型的表达能力。
然而,DeepSeek团队在实验中发现,单纯的扩展带来了巨大的隐患。在27B规模的MoE模型训练中,HC架构在约12000步时会出现严重的损失激增(Loss Spike)。研究表明,由于缺乏约束,信号在层间传递时可能被放大数千倍,导致梯度范数剧烈波动。这种不稳定性成为了大模型向更深、更宽演进的致命伤。

mHC架构:引入双随机矩阵的三重保障

为了解决扩展残差连接带来的不稳定性,DeepSeek团队引入了数学上的精妙设计——将残差映射矩阵约束在Birkhoff多面体(由双随机矩阵构成的流形)上。这一改进被称为mHC,它具备三个关键特性:
  1. 范数保持:双随机矩阵的谱范数不超过1,从理论上杜绝了信号在层间被无限放大的可能,有效防止了梯度爆炸。
  1. 组合封闭:无论网络增加到多少层,多个双随机矩阵的乘积依然是双随机矩阵,确保了深层网络跨层映射的数学稳定性。
  1. 几何鲁棒性:这种设计本质上是对特征进行“凸组合”,实现了一种极为稳健的特征融合机制。
通过采用Sinkhorn-Knopp算法,DeepSeek成功将复杂的矩阵投影转化为高效的可计算过程。实验显示,mHC将信号增益从HC的3000倍降低到了1.6倍,彻底解决了训练崩坏的问题。

工程硬核优化:让创新不以速度为代价

DeepSeek不仅在理论上表现出色,其工程实现能力同样令人惊叹。扩展残差流意味着巨大的内存访问开销,为了不让模型变“慢”,团队进行了一系列深度优化:
  • 内核融合:利用TileLang框架开发了定制化的融合内核,减少了内存读写次数。
  • 计算重叠:扩展了DualPipe调度策略,通过将MLP层的特定计算在高优先级流上执行,实现了计算与通信的完美重叠。
  • 重计算策略:设计了最优的重计算块大小公式,并将其与流水线并行阶段对齐,最大化利用了硬件算力。
在n=4的扩展率下,mHC仅引入了不到7%的额外时间开销,这在追求效率的大模型训练中几乎可以忽略不计。

实验验证:全面超越基线,更稳、更强

在3B、9B和27B不同规模的MoE模型验证中,mHC展现出了极强的竞争力。在27B模型的对比中,mHC的最终损失(Loss)明显低于传统残差连接基线。
在下游任务评测中,mHC在BBH推理任务和DROP阅读理解任务上分别提升了2.1%和2.3%。更重要的是,其训练曲线极其平滑,证明了该架构在处理大规模参数时的卓越稳定性。这标志着DeepSeek在底层架构创新上已经走在了世界前列。

结语:迈向AGI的新基石

DeepSeek对残差连接的改造,是对深度学习基础理论的一次深思熟虑的升级。梁文峰及其团队证明了,即使是像残差连接这样“金科玉律”般的组件,在AI大模型时代依然有巨大的优化空间。
随着mHC架构的开源与应用,我们有理由相信,未来的大模型将变得更加深邃、稳定且高效。对于开发者和AI爱好者来说,紧跟这一波架构变革至关重要。
获取更多关于LLM、ChatGPT及AI变现的深度资讯,请关注 AI日报
Loading...

没有找到文章