揭秘估值840亿的Thinking Machines：OpenAI前CTO首秀，攻克LLM推理难题 | AI资讯

type

status

date

slug

summary

引言

在人工智能（AI）的浪潮之巅，一家尚未发布任何产品、却已获得120亿美元（约合840亿人民币）估值的初创公司——Thinking Machines，无疑是整个行业关注的焦点。这家由OpenAI前CTO Mira Murati领衔的“AI梦之队”，终于发布了他们的第一份研究成果，直指一个困扰业界已久的根本性难题：大语言模型（LLM）推理过程中的不确定性。本文将深入解读这份万字长文，剖析Thinking Machines如何从根源上解决LLM每次输出结果都可能不同的问题，并探讨其背后的深远影响。对于希望紧跟AI前沿、获取最新AI新闻和大模型技术动态的读者，可以访问AI门户网站 https://aigc.bar 获取更多深度内容。

AI梦之队登场：Thinking Machines是谁？

在深入技术细节之前，我们有必要了解一下Thinking Machines为何能吸引如此巨大的资本和人才。这家公司的阵容堪称豪华，核心成员几乎都来自OpenAI，是塑造了当今LLM格局的关键人物。

创始人兼CEO Mira Murati：前OpenAI CTO，主导了GPT-3、GPT-4等划时代产品的开发。

联合创始人兼首席科学家 John Schulman：强化学习领域的泰斗，PPO算法的提出者，也是ChatGPT研发工作的核心主导者。

CTO Barret Zoph：前OpenAI副总裁，负责ChatGPT的后训练工作。

联合创始人 Andrew Tulloch：前Meta资深研究员，后加入OpenAI参与GPT-4o系列项目，为了创办Thinking Machines，拒绝了高达6年15亿美元的天价薪酬。

此外，团队还吸引了GPT开山之作的作者Alec Radford、前OpenAI首席研究官Bob McGrew以及前安全团队负责人翁荔等顶尖人才。可以说，这是一支从OpenAI“复刻”出来的精英团队。

凭借这样的人才储备，Thinking Machines在今年6月完成了创纪录的20亿美元种子轮融资，估值飙升至120亿美元。他们致敬“连接主义”，将首款旗舰产品命名为“Connection Machine”，并承诺与研究社区保持开放共享，这与日趋封闭的OpenAI形成了鲜明对比。

直击核心：为何大模型的回答每次都不同？

我们都曾有过这样的经历：向ChatGPT或类似的LLM提出完全相同的问题，却可能得到不一样的答案。即便将“温度”（temperature）参数设为0，理论上模型应输出概率最高的词元，但结果的“不确定性”依然存在。

过去，人们普遍将此归咎于“浮点非结合性”——即在计算机中 (a+b)+c 不一定等于 a+(b+c)，加上GPU的并行计算顺序差异，导致了微小的数值偏差。

然而，Thinking Machines的研究指出，这并非问题的全部真相。他们发现，真正的罪魁祸首是LLM推理缺乏“批次不变性”（batch invariance）。

具体来说，问题出在以下两个环节：

动态批处理（Dynamic Batching）：在实际部署中，为了提升效率，AI服务器会根据实时请求量动态地将多个用户请求打包成一个“批次”（batch）进行处理。批次的大小是不断变化的。

计算顺序改变：现有的GPU计算内核（如矩阵乘法、RMSNorm等）在处理不同大小的批次时，其内部的计算顺序或并行策略会发生改变。

误差放大：浮点运算的非结合性导致这些不同的计算顺序产生了微小的数值偏差。这些微小的偏差在Transformer模型的多层网络中被逐层迭代和放大，最终导致即使是相同的输入，在不同大小的批次中处理时，也会输出截然不同的结果。

简单来说，你的提问结果，会受到与你同时提问的其他用户数量的影响，这严重破坏了推理结果的一致性和可复现性。

技术深潜：Thinking Machines的“确定性推理”解决方案

为了解决这一难题，Thinking Machines提出了一套创新的解决方案，目标是让LLM推理的核心操作——RMSNorm、矩阵乘法和注意力机制——都具备“批次不变性”。

实现RMSNorm的批次不变性：关键在于固定归约（reduction）操作的顺序。他们设计了一种方法，为每个批次元素分配一个固定的计算核心，确保无论批次大小如何，归约操作总是在单个核心内以相同的方式完成，从而保证结果一致。

实现矩阵乘法的批次不变性：矩阵乘法同样会因批次大小变化而调整并行策略。Thinking Machines的对策是为所有可能的输入形状编译一个统一的内核配置，强制GPU使用相同的计算路径，避免策略切换。尽管这会带来约20%的性能损失，但他们认为为了获得确定性，这是可以接受的。

实现注意力机制的批次不变性：注意力机制更为复杂，因为它涉及多维度的归约和前缀缓存（prefix caching）等优化。解决方案是通过精心设计KV缓存的存储布局，并固定KV维度的拆分块大小，确保无论序列如何处理，其归约顺序都保持恒定，不受批次大小影响。

通过对这些底层计算内核的重构，Thinking Machines从根本上消除了因批次大小变化而引入的随机性。

实践出真知：实验结果与应用价值

理论的突破最终需要实践来检验。Thinking Machines通过三组实验，有力地证明了其方法的有效性。

确定性验证：研究人员使用Qwen大模型生成1000次相同内容。在标准内核下，产生了80个不同的结果；而在使用Thinking Machines的批次不变性内核后，1000次生成的结果完全相同，完美实现了确定性推理。

性能验证：虽然确定性推理会带来一定的性能开销，但实验表明，其性能损失在可接受的范围内，完全具备在真实生产环境中部署的价值。

在线强化学习（RL）应用：这是最能体现其价值的场景。传统的在线RL训练，由于推理和训练之间的数值差异，很容易退化为需要复杂校正的“离线”策略，导致训练不稳定甚至崩溃。而确定性推理则实现了真正的在线策略RL，训练过程全程稳定，KL散度始终为0，无需任何离线校正。这对于需要模型进行实时决策和学习的复杂应用（如机器人、游戏AI）是巨大的福音。

结论

Thinking Machines的首秀没有让我们失望。他们没有急于发布一个更大的模型，而是选择深入人工智能的基础设施层面，解决了一个长期被忽视但至关重要的根本性问题。实现LLM推理的确定性，不仅能提升模型的可靠性和可复现性，更为调试、安全审计以及在线强化学习等前沿应用铺平了道路。

这支由OpenAI前核心成员组成的“AI梦之队”，正以其深厚的技术洞察力和对开放研究的承诺，向世界展示着他们对AGI未来的独特构想。随着其首款产品“Connection Machine”的临近，我们有理由期待他们将为AI领域带来更多颠覆性的创新。

对于关注人工智能前沿、希望深入了解LLM和大模型最新动态的读者，欢迎访问AI门户 https://aigc.bar，获取更多一手AI资讯和深度分析。