将注意力旋转90°：深度解读Kimi注意力残差论文，开启AI 2.0时代

type

status

date

slug

summary

引言：马斯克罕见点赞，17岁天才少年震撼AI圈

近日，AI圈被一篇名为《ATTENTION RESIDUALS》（注意力残差）的论文刷屏了。这篇来自 Moonshot AI（Kimi）团队的科研成果不仅让埃隆·马斯克罕见地评价为“Impressive work”，更让 OpenAI 的多位创始成员感到惊叹。OpenAI 推理模型之父 Jerry Tworek 甚至直言：“深度学习 2.0 时代即将到来。”

令人惊讶的是，这篇论文的共同一作者之一陈广宇竟是一位 17 岁的中国高中生。这篇文章的核心观点非常大胆且巧妙：既然“Attention is All You Need”，那么为什么不把注意力机制“旋转 90°”，应用在神经网络的深度轴上，以此彻底解决 Transformer 架构中“祖传”的残差连接问题？本文将深入浅出地为你解读这一可能改变 LLM 发展轨迹的重大突破。

1. 传统 Transformer 的局限：标准残差的“平庸之恶”

要理解 Kimi 的成果，首先要明白目前的 大模型 遇到了什么瓶颈。主流的 LLM（如 GPT-4、Claude 等）都采用了“标准残差连接”（Standard Residual）。

简单来说，标准残差连接就像是一个“大锅饭”系统。在模型层层传递信息时，每一层都会把之前所有层的输出进行“等权求和”。这种设计的初衷是为了防止梯度消失，让深度模型能够训练下去。

然而，这种“等权”正是问题所在： * 信息稀释：随着模型越来越深，早期层（基础特征）和后期层（高阶逻辑）的贡献被完全平摊。 * 表达能力受限：模型无法根据任务需求，灵活地给某些“更关键”的层分配更高的权重。

在处理极其复杂的逻辑推理时，这种等权分配会导致模型对关键信息的提取能力达到上限。

2. 核心创新：将注意力旋转 90° 的深度革命

Kimi 团队提出的“注意力残差（ATTENTION RESIDUALS）”机制，本质上是把原本用于处理序列中 Token 关系的“注意力”，挪到了模型的“层与层”之间。

如果说传统的注意力机制是在水平方向（序列长度）上寻找重点，那么注意力残差就是在垂直方向（模型深度）上寻找重点。

全注意力残差（Full Attention Residuals）：在这种理想状态下，每一层的输入不再是前序层的简单累加，而是通过注意力机制计算得出的加权和。这意味着，模型可以自主决定：在这一层，我应该多参考第 5 层的特征，还是第 10 层的逻辑。

形象类比：就像学习数学，标准残差是把小学到大学的知识点平均分配来解题；而注意力残差则会根据题目难度，自动把 80% 的权重给高等数学，20% 给高中数学，从而大幅提升解题效率和准确率。

这种设计从根本上解决了重要信息被稀释的问题，让 人工智能 能够更精准地调用不同深度的表征。

3. 工程化的权衡：分块注意力残差（Block Attention）

虽然“全注意力残差”在理论上近乎完美，但在实际的大规模训练中，它会带来恐怖的内存和通信开销。为了让这项技术能够真正落地，Kimi 团队提出了“分块注意力残差（Block Attention Residuals）”。

他们将模型的 L 个层划分为 N 个块（Block）。在块内部保持高效运算，在块之间引入注意力权重。 * 块内聚合：减少了需要频繁存取的激活值数量。 * 块间注意力：确保了模型依然拥有跨层调度的灵活性。

实验证明，当分块数设置为 8 时，这种机制能以极低的额外开销，达到接近全注意力残差的性能。这种在科研理想与工程现实之间的平衡，正是该论文被 openai 大佬们高度评价的原因之一。

4. 深度轴上的“自由度”：矩阵半可分秩的奥秘

论文中引入了一个数学概念——半可分秩（Semi-separable Rank）。这可以被理解为模型在深度轴上信息聚合的“自由度”。

标准残差：权重固定为 1，半可分秩仅为 1，灵活性最低。

Full Attention：每一层都有独立权重，达到满秩，灵活性最高。

Block Attention：介于两者之间，在效率与表达能力之间取得了最优解。

这种数学上的优雅定义，证明了“旋转 90°”后的注意力机制，实际上是在物理层面拓宽了模型的认知上限。这对于未来处理超长上下文、复杂多轮交互的 AI资讯 智能体（Agent）具有至关重要的意义。

结论：迈向智能体的中枢系统

目前的模型正在从简单的“对话机器人”向处理复杂任务的“智能体中枢”演进。无论是终端执行、工具调用还是复杂的 GUI 交互，都要求模型具备极强的上下文理解和长链条逻辑处理能力。

Kimi 团队的这项成果告诉我们，Transformer 架构远未达到极限。通过重新思考层间连接方式，我们可以让模型在不显著增加计算量的情况下，获得质的飞跃。

如果你想了解更多关于 AGI、提示词 优化以及最新的 AI新闻，欢迎访问 AI门户，获取最前沿的深度深度解读与 AI日报。

这场关于“注意力”的革命才刚刚开始，深度学习 2.0 的大门已经缓缓开启。