超越DeepSeek MLA!MLRA架构引领长文本革命,解码提速2.8倍
type
status
date
slug
summary
tags
category
icon
password
网址

引言:长文本时代的推理瓶颈
随着大语言模型(LLM)在检索增强生成(RAG)、多步思维链(CoT)推理以及超长上下文对话中的广泛应用,处理长文本的能力已成为衡量模型性能的核心指标。然而,传统的自回归生成模式正面临严重的“显存墙”挑战。在处理百万级Token时,模型往往受限于显存带宽(Memory-bound)而非计算能力。
为了解决这一痛点,DeepSeek提出的多头潜在注意力(MLA)曾引起轰动,但其在张量并行(TP)上的局限性也逐渐显现。近日,由宾夕法尼亚州立大学、卡内基梅隆大学等多所顶尖院校研究人员提出的 MLRA (Multi-Head Low-Rank Attention) 架构正式亮相 ICLR'26。这一新架构不仅继承了MLA的压缩优势,更通过创新的块分解技术实现了最高2.8倍的解码加速,支持百万级Token的极速推理。了解更多前沿AI资讯,请访问 AI门户。
从MLA到MLRA:打破张量并行的枷锁
在过去的一段时间里,为了降低KV缓存(KV Cache)的开销,业界尝试了多种方案。从分组查询注意力(GQA)到多查询注意力(MQA),再到DeepSeek-V2中惊艳众人的MLA。MLA通过低秩压缩将KV缓存存入一个“潜在头”中,极大地节省了显存。
然而,MLA在工程落地时存在一个致命缺陷:其KV潜在向量在逻辑上是一个不可分割的整体。这意味着在进行推理时,KV缓存无法在多个GPU之间进行有效的张量并行切分。这导致如SGLang等主流推理框架只能被迫采用数据并行(DP)模式,造成了严重的显存冗余和通信瓶颈。
MLRA的出现正是为了彻底解决这一问题。它从代数视角出发,将原本庞大的矩阵运算拆解为四个独立的小块运算,从而在物理层面实现了KV缓存的彻底解耦。
MLRA的核心黑科技:块分解与求和顺序外移
MLRA之所以能实现性能的跨越式提升,核心在于其独特的“块分解”(Block Decomposition)机制。研究人员将原本4倍维度的KV潜在向量划分为四个相等的子块,并相应地切割权重矩阵。
传统的MLA逻辑是“先投影求和,再进行注意力计算”,这导致了计算过程的耦合。而MLRA则巧妙地利用了线性代数的特性,将求和顺序外移:对每一个子块独立进行投影和注意力计算,最后再将四个独立分支的结果进行汇总。
这种设计带来了三大工程优势:
1. 天然支持张量并行:4个分支可以完美分配到4个或8个GPU上,实现高效的TP解码。
2. 极低的缓存读取量:在4路张量并行下,单设备的KV缓存读取量仅为MLA的三分之一。
3. 硬件适配性更强:MLRA不依赖于特定的硬件架构(如NVIDIA Hopper),在多种GPU上都能保持高效运行。
性能实测:全方位超越行业标杆
在针对Llama-3架构的对比实验中,MLRA展现出了碾压级的实力。研究团队使用了来自FineWeb-Edu的近千亿Token进行从零训练,结果显示:
- 模型质量更优:MLRA-4在Wikipedia、C4等七个主流数据集上的平均困惑度(Perplexity)均优于MLA,证明了多分支结构对模型表达能力的增强。
- 推理速度飙升:在单块H100上测试,MLRA-4的解码速度稳定保持在MLA的2.8倍左右。在处理128K到2M的超长上下文时,加速效果尤为显著。
- 吞吐量领先:得益于高效的4路张量并行,MLRA-4在批量解码吞吐量上全面超越了GQA和MLA,尤其在长文本场景下,显存利用率达到了新高度。
这些数据表明,MLRA不仅是一个理论上的创新,更是一个具备极高实用价值的大模型优化方案。
展望未来:百万Token推理的普及化
MLRA的成功不仅是算法的胜利,更是对人工智能底层架构的一次深刻重构。它证明了通过巧妙的数学变换,可以在不牺牲模型精度的情况下,大幅提升硬件的利用效率。
对于开发者和企业而言,MLRA提供了一套完整的开源生态,包括训练代码、预训练权重以及基于FlashAttention-3的高性能内核。这意味着在不久的将来,处理百万级上下文的LLM应用将变得更加廉价和高效。
随着AGI进程的加速,长文本处理能力将成为AI助手的标配。MLRA的出现,无疑为这一目标的实现按下了快进键。获取更多关于Prompt优化、AI变现及AI日报的深度内容,欢迎持续关注 AI新闻门户。
结论
MLRA通过对KV缓存的革命性重构,成功解决了MLA在并行计算上的短板。它不仅在解码速度上实现了2.8倍的飞跃,更在模型质量和可扩展性上树立了新的标杆。在追求更长、更强、更快的人工智能道路上,MLRA无疑是当前最具潜力的架构之一。无论是科研人员还是工程技术人员,都值得深入研究这一新架构带来的技术红利。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)