百亿独角兽Thinking Machines揭秘:LLM回答不一致的终极解决方案

type
status
date
slug
summary
tags
category
icon
password
网址

引言

你是否曾遇到过这样的困惑:向ChatGPT或其它大模型提出完全相同的问题,即使将采样温度(temperature)设置为0,得到的答案也可能不尽相同?这一“非确定性”问题长期以来被认为是人工智能领域一个难以捉摸的幽灵,阻碍了科学研究的可复现性,也为模型训练带来了诸多挑战。
近日,成立仅7个月、估值已达百亿美金的AI独角兽公司Thinking Machines Lab首次公开发声,发布万字长文,直指LLM推理非确定性的真正元凶,并给出了切实可行的解决方案。这篇重磅AI资讯不仅破除了业界的普遍误解,更为未来LLM的开发和应用指明了方向。

破除迷思:非确定性的真正元凶

长期以来,业界普遍将LLM的非确定性归咎于所谓的“并发+浮点数”假说。该假说认为,GPU在进行大规模并行计算时,由于浮点数运算不满足结合律(即 (a+b)+c ≠ a+(b+c)),不同计算核心完成任务的顺序差异会导致最终结果出现微小偏差,积少成多,最终影响输出。
然而,Thinking Machines的研究指出,这个假说并不能解释全部现象。一个简单的反例是:在GPU上对同一数据重复运行相同的矩阵乘法,结果总是逐位相等的。既然同样涉及浮点数和并发计算,为什么这里没有出现非确定性呢?
经过深入探究,他们揭示了问题的真正根源:kernel(计算核心)缺乏批处理不变性(batch-processing invariance)
简单来说,当推理服务为了提升效率,将多个不同的用户请求(batch)合并在一起处理时,batch的大小和组合会发生动态变化。这种变化导致了底层计算(尤其是在注意力机制等包含归约操作的环节)的执行路径和顺序不同,从而引入了数值上的不一致。真正的元凶并非原子操作的竞争,而是批次大小变化

解决方案:实现“批处理不变性”的三大关键

为了攻克这一难题,Thinking Machines提出了一套系统性的解决方案,核心思想是在三个关键的计算操作中强制实现“批处理不变性”,确保无论批次如何组合,计算过程都保持一致。
  1. 批处理不变的RMSNorm:通过采用“数据并行”策略,将每个批处理元素分配给单个核心处理,可以保证归约操作完全在核心内部完成,避免了跨核心通信和顺序依赖,从而轻松实现不变性。
  1. 批处理不变的矩阵乘法:与RMSNorm类似,矩阵乘法也可以通过数据并行实现。更关键的一步是,编译一个固定的kernel配置并将其用于所有形状的计算。虽然这可能会带来约20%的性能损失,但相比于获得完全确定性的巨大收益,这种代价在大模型推理场景中是完全可以接受的。
  1. 批处理不变的注意力机制:这是最具挑战性的一环。FlashAttention等高效注意力机制在处理KV缓存时,其归约策略会依赖于当前处理的token数量,这直接破坏了批处理不变性。Thinking Machines的创新之处在于,将策略从“固定分割数量”转变为“固定每个分割的大小”。通过这种方式,无论一次处理多少个查询token,归约的顺序和方式都保持恒定,从而根除了非确定性的来源。

实验为证:从理论到实践的飞跃

为了验证方案的有效性,Thinking Machines基于vLLM框架进行了实验。他们使用Qwen大模型,在温度为0的情况下,对同一个提示词(Prompt)“Tell me about Richard Feynman”采样生成1000次。
结果令人震惊: * 在标准模式下:模型生成了80个不同的答案。尽管大部分内容相似,但在第103个token处开始出现分歧。 * 启用批处理不变kernel后:1000次生成的结果完全相同,逐位相等。
这一实验有力地证明了该方案的有效性。同时,性能测试表明,虽然优化尚未完善,但性能下降在可控范围内,证明了该技术在实际应用中的可行性。

深远影响:迈向真正的同策略强化学习

解决推理的非确定性问题,其意义远不止于获得可复现的结果。它对人工智能的训练,尤其是强化学习(RL),具有革命性的影响。
在RL中,有“同策略(on-policy)”和“异策略(off-policy)”之分。同策略要求用于学习的策略和用于采样的策略必须完全一致。然而,由于训练和推理之间存在的微小数值差异,当前的所谓“同策略RL”实际上都变成了“异策略RL”,这会影响训练的稳定性和效率。
通过实现确定性推理,我们可以确保采样器和训练器在数值上逐位一致,从而实现真正的同策略RL。实验数据显示,在这种模式下,策略的KL散度始终为0,训练过程平稳顺畅,避免了传统方法中可能出现的奖励崩塌现象。这对于训练更强大、更可控的AGI系统至关重要,也为探索更高效的AI变现路径奠定了坚实的基础。

结论

Thinking Machines的这项研究工作,体现了“万事怕认真”的极致工程师精神。他们没有满足于“差不多就行”的现状,而是深入底层,定位并解决了长期困扰AI社区的顽疾。这不仅为构建更可靠、更可信的大模型提供了清晰的技术路线图,也激励着所有从业者去真正理解和掌控自己手中的系统。
未来,随着这项技术的普及,我们可以期待一个更加稳定和可预测的人工智能时代。想要获取更多前沿的AI日报和深度解读,可以访问AI门户网站 https://aigc.bar 持续关注最新动态。
Loading...

没有找到文章