超越DeepSeek MLA！MLRA架构引领长文本革命，解码提速2.8倍

type

status

date

slug

summary

引言：长文本时代的推理瓶颈

随着大语言模型（LLM）在检索增强生成（RAG）、多步思维链（CoT）推理以及超长上下文对话中的广泛应用，处理长文本的能力已成为衡量模型性能的核心指标。然而，传统的自回归生成模式正面临严重的“显存墙”挑战。在处理百万级Token时，模型往往受限于显存带宽（Memory-bound）而非计算能力。

为了解决这一痛点，DeepSeek提出的多头潜在注意力（MLA）曾引起轰动，但其在张量并行（TP）上的局限性也逐渐显现。近日，由宾夕法尼亚州立大学、卡内基梅隆大学等多所顶尖院校研究人员提出的 MLRA (Multi-Head Low-Rank Attention) 架构正式亮相 ICLR'26。这一新架构不仅继承了MLA的压缩优势，更通过创新的块分解技术实现了最高2.8倍的解码加速，支持百万级Token的极速推理。了解更多前沿AI资讯，请访问 AI门户。

从MLA到MLRA：打破张量并行的枷锁

在过去的一段时间里，为了降低KV缓存（KV Cache）的开销，业界尝试了多种方案。从分组查询注意力（GQA）到多查询注意力（MQA），再到DeepSeek-V2中惊艳众人的MLA。MLA通过低秩压缩将KV缓存存入一个“潜在头”中，极大地节省了显存。

然而，MLA在工程落地时存在一个致命缺陷：其KV潜在向量在逻辑上是一个不可分割的整体。这意味着在进行推理时，KV缓存无法在多个GPU之间进行有效的张量并行切分。这导致如SGLang等主流推理框架只能被迫采用数据并行（DP）模式，造成了严重的显存冗余和通信瓶颈。

MLRA的出现正是为了彻底解决这一问题。它从代数视角出发，将原本庞大的矩阵运算拆解为四个独立的小块运算，从而在物理层面实现了KV缓存的彻底解耦。

MLRA的核心黑科技：块分解与求和顺序外移

MLRA之所以能实现性能的跨越式提升，核心在于其独特的“块分解”（Block Decomposition）机制。研究人员将原本4倍维度的KV潜在向量划分为四个相等的子块，并相应地切割权重矩阵。

传统的MLA逻辑是“先投影求和，再进行注意力计算”，这导致了计算过程的耦合。而MLRA则巧妙地利用了线性代数的特性，将求和顺序外移：对每一个子块独立进行投影和注意力计算，最后再将四个独立分支的结果进行汇总。

这种设计带来了三大工程优势： 1. 天然支持张量并行：4个分支可以完美分配到4个或8个GPU上，实现高效的TP解码。 2. 极低的缓存读取量：在4路张量并行下，单设备的KV缓存读取量仅为MLA的三分之一。 3. 硬件适配性更强：MLRA不依赖于特定的硬件架构（如NVIDIA Hopper），在多种GPU上都能保持高效运行。

性能实测：全方位超越行业标杆

在针对Llama-3架构的对比实验中，MLRA展现出了碾压级的实力。研究团队使用了来自FineWeb-Edu的近千亿Token进行从零训练，结果显示：

模型质量更优：MLRA-4在Wikipedia、C4等七个主流数据集上的平均困惑度（Perplexity）均优于MLA，证明了多分支结构对模型表达能力的增强。

推理速度飙升：在单块H100上测试，MLRA-4的解码速度稳定保持在MLA的2.8倍左右。在处理128K到2M的超长上下文时，加速效果尤为显著。

吞吐量领先：得益于高效的4路张量并行，MLRA-4在批量解码吞吐量上全面超越了GQA和MLA，尤其在长文本场景下，显存利用率达到了新高度。

这些数据表明，MLRA不仅是一个理论上的创新，更是一个具备极高实用价值的大模型优化方案。

展望未来：百万Token推理的普及化

MLRA的成功不仅是算法的胜利，更是对人工智能底层架构的一次深刻重构。它证明了通过巧妙的数学变换，可以在不牺牲模型精度的情况下，大幅提升硬件的利用效率。

对于开发者和企业而言，MLRA提供了一套完整的开源生态，包括训练代码、预训练权重以及基于FlashAttention-3的高性能内核。这意味着在不久的将来，处理百万级上下文的LLM应用将变得更加廉价和高效。

随着AGI进程的加速，长文本处理能力将成为AI助手的标配。MLRA的出现，无疑为这一目标的实现按下了快进键。获取更多关于Prompt优化、AI变现及AI日报的深度内容，欢迎持续关注 AI新闻门户。

结论

MLRA通过对KV缓存的革命性重构，成功解决了MLA在并行计算上的短板。它不仅在解码速度上实现了2.8倍的飞跃，更在模型质量和可扩展性上树立了新的标杆。在追求更长、更强、更快的人工智能道路上，MLRA无疑是当前最具潜力的架构之一。无论是科研人员还是工程技术人员，都值得深入研究这一新架构带来的技术红利。