dInfer框架发布:蚂蚁集团重塑LLM推理,速度狂飙10倍 | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
近年来,以 ChatGPTClaude 为代表的自回归(AR)大模型无疑是人工智能领域的明星,它们逐字生成文本的方式虽然强大,但也带来了难以逾越的“串行瓶颈”,即推理速度受限于逐词生成的机制。然而,一种全新的范式——扩散语言模型(dLLM)——正悄然崛起,它理论上具备并行生成、全局视野的巨大潜力。但长期以来,理论的丰满遭遇了现实的骨感,其推理效率一直未能兑现。
现在,这一困境被彻底打破。蚂蚁集团近日正式开源了业界首个高性能扩散语言模型推理框架 dInfer。它如同一把钥匙,释放了 dLLM 被禁锢的潜能,在基准测试中实现了超过10倍的推理速度提升,甚至在延迟敏感的单批次场景下,其性能也首次超越了高度优化的主流AR模型。这不仅是技术的突破,更预示着 LLM 领域可能迎来新的变革。想要获取更多前沿的 AI资讯 和深度解读,欢迎访问AI门户网站 https://aigc.bar

扩散模型的“理论翅膀”与“现实枷锁”

要理解 dInfer 的革命性,首先要明白扩散语言模型(dLLM)是什么。不同于 AR 模型像写句子一样一个词一个词地往后吐,dLLM 的工作方式更像是修复一幅模糊的画。它从一串随机的噪声开始,通过多步“去噪”过程,逐步恢复出清晰、完整的文本序列。
这种模式天然具备三大理论优势:
  • 高度并行:模型可以在一次迭代中,同时预测和修正序列中的所有词元(token),潜力巨大。
  • 全局视野:每一步决策都基于对整个序列的上下文理解,而非仅仅依赖已生成的部分。
  • 结构灵活:更适合处理代码生成、多模态等需要复杂结构和长程依赖的任务。
然而,理想很美好,现实却充满挑战。dLLM 的高效推理主要面临三大“枷锁”: 1. 巨大的计算开销:其双向注意力机制导致每次迭代都需重算所有 token 的 KV 值,使得 AR 模型中成熟的 KV 缓存技术形同虚设。 2. 低效的解码策略:如何在保证生成质量的前提下,一次性并行解码更多的 token,一直是个难题。 3. 迭代信息浪费:传统方法在每轮迭代中只利用置信度最高的 token,大量有价值的概率分布信息被直接丢弃。
这些瓶颈使得 dLLM 的并行优势沦为“纸上谈兵”,其实际推理速度甚至远不如 AR 模型。

dInfer:算法与系统协同的“破局者”

为了彻底打破这些枷锁,蚂蚁集团推出了 dInfer——一个专为 dLLM 设计的、算法与系统深度协同的高性能推理框架。它通过模块化的设计,系统性地集成了多项创新优化。

削减计算成本:邻近KV缓存刷新

dInfer 的第一个妙招是让 KV 缓存机制在 dLLM 上“复活”。它基于“语义局部性”原理,即一个词的更新,对其邻近词的影响最大。因此,在每次迭代时,dInfer 只选择性地重新计算当前解码区块及其邻近一小片区域的 KV 值,而让远处的缓存保持不变。这好比修改文档中的一句话,你只需检查上下文是否通顺,而无需重读整篇文章。这种策略在计算开销和生成质量之间取得了精妙的平衡。

系统级压榨:让前向运算追上AR模型

在解决了 KV 缓存问题后,dInfer 通过一系列硬核的系统优化,将 dLLM 的单次迭代速度提升到了极致,使其能与在 vLLM 等顶级框架上运行的 AR 模型相媲美:
  • 多卡并行:结合张量并行(TP)与专家并行(EP),即使在小批量(batch size=1)场景下也能榨干 GPU 算力。
  • 编译优化:通过 torch.compile 进行内核融合,消除框架开销。
  • 消除迭代气泡:利用循环展开(Loop Unrolling)技术,让 GPU 持续工作,消除迭代间的空闲等待。
  • 智能早停:在生成结束符(EOS)后,智能地跳过后续无意义的计算。

解码的艺术:dInfer如何实现并行与效率

仅仅让单步迭代变快还不够,dInfer 的核心突破在于其创新的并行解码算法,它能在不牺牲质量的前提下,最大化每一步的生成效率。
  • 层级解码 (Hierarchical Decoding):借鉴“分治”思想,该算法将待解码的序列不断递归地一分为二,并优先在每个子区域的中心位置解码 token。这种方式自然地拉开了新生 token 间的距离,减少了它们之间的语义干扰,以近似对数级的复杂度高效完成多点并行生成。
  • 信用解码 (Credit Decoding):在多轮迭代中,有些正确的 token 可能很早就被模型稳定预测,但因单次置信度不足而反复重算。dInfer 为此引入“累积信用”机制,一个长期被稳定预测的 token,即使当前置信度稍低,也能凭借高累积信用被“破格”解码,从而避免了大量冗余计算。
  • 迭代平滑 (Iteration Smoothing):传统 dLLM 每轮只用一个“最优”结果,dInfer 则选择“我全都要”。它将未解码位置的概率分布信息进行加权,并作为先验知识融入下一轮迭代,极大地丰富了上下文信息,使单次迭代解码的 token 数量平均提升了 30-40%。

里程碑式飞跃:实测数据见证性能巅峰

在配备 8 块 NVIDIA H800 GPU 的节点上,dInfer 的性能表现堪称惊艳:
  • 10倍性能提升:与先前的 dLLM 推理方案 Fast-dLLM 相比,dInfer 在模型效果持平的情况下,平均推理速度实现了 10.7倍 的巨大提升。
  • 超越自回归:与在业界顶尖框架 vLLM 上运行的、性能相当的 AR 模型相比,dInfer 的平均推理速度是其 2.5倍
  • 突破推理极速:在代码生成任务 HumanEval 上,dInfer 在单批次推理中创造了 1011 tokens/秒 的惊人纪录。这是开源社区首次见证,扩散语言模型在延迟敏感场景下,速度显著超越高度优化的自回归模型。

共建AI新生态:dInfer的开源意义与未来

dInfer 的诞生,其意义远超一个工具的发布。它雄辩地证明了,扩散语言模型的效率潜力并非空中楼阁,而是可以通过系统性的创新工程来兑现的。这为 AGI 的探索开辟了一条极具竞争力的新路径。
目前,dInfer 已全面开源,蚂蚁集团希望它能成为研究者的标准试验场和开发者的加速引擎,助力社区将强大的 dLLM 轻松部署到实际应用中。这标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步。
人工智能 的浪潮奔涌不息,每一次技术范式的突破都可能孕育出新的应用生态。dInfer 的出现,无疑为 大模型 的未来增添了更多想象空间。关注 https://aigc.bar,我们将持续为您带来最新的 AI新闻 和深度技术解读,与您共同见证 AI 新时代的到来。
Loading...

没有找到文章