微软重磅发布:大模型测试时扩展(TTS)终极指南与推理实战配方

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在大模型(LLM)的发展历程中,如果说预训练(Pre-training)是一场比拼数据规模和算力储备的“军备竞赛”,那么测试时扩展(Test-time scaling, TTS)则更像是一场在推理阶段进行的精细化“即时战略游戏”。
随着AGI(通用人工智能)研究的深入,业界的共识逐渐从单纯的模型参数扩张,转向了如何让模型在回答问题前“多想一会儿”。这种在推理阶段动态分配更多计算资源的策略,被认为能显著提升模型的智商。然而,如何让大模型有效地“多想”?是让它反复修改答案,还是让多个模型实例投票?
为了解答这个问题,微软近期发布了一项里程碑式的研究——《The Art of Scaling Test-Time Compute for Large Language Models》。这项研究涵盖了从 7B 到 235B 参数量的 8 个开源 LLM,生成了超过 300 亿个 token,打破了“一种策略通吃”的幻想,并为我们提供了一份珍贵的AI推理实战指南。本文将结合AIGC.bar的最新AI资讯,深入解读这份终极指南。

测试时扩展(TTS):大模型推理的新战场

测试时扩展的核心理念在于:通过在推理阶段投入更多的计算量,换取更好的输出质量。这听起来像是“免费的午餐”,但实际操作极其复杂。目前的TTS策略主要分为三大类:
  1. 并行扩展策略:通过聚合多个独立采样的推理路径来提升性能。最典型的就是“多数投票”(Majority Voting)或 Self-consistency,即让模型生成多个答案,选择出现频率最高的那个。
  1. 序列扩展策略:通过迭代式的修正、重启或回溯来扩展推理深度。例如思维链(CoT)及其变体,鼓励模型进行自我反思和修正。
  1. 混合扩展策略:结合上述两者,甚至引入“元调度器”来动态选择策略。
微软的研究指出,虽然每种方法都有其适用场景,但并没有哪一种策略是普遍最佳的。这对于关注人工智能落地的开发者来说,意味着必须根据具体情况量体裁衣。

颠覆认知:束搜索(Beam Search)的滑铁卢

研究中最令人震惊的发现之一,是对经典算法“束搜索”(Beam Search)的重新评估。在传统的自然语言处理任务中,束搜索通常能提升生成质量。然而,在大模型的推理任务中,研究人员观察到了明显的“逆扩展”(inverse-scaling)现象。
对于像 R1 和 QwQ-32B 这样的模型,一旦束大小(Beam Size, N)超过 2,准确率不仅没有提升,反而像坐过山车一样急剧下降。这意味着,盲目增加束搜索的宽度,不仅浪费了宝贵的 token 和算力,反而会引入更多的噪音和错误。
这一发现提醒我们在进行AI变现或应用开发时,切勿盲目迷信传统算法,必须针对 LLM 的特性进行测试。

模型的两种性格:短视界 vs 长视界

这项研究最核心的贡献,在于揭示了推理路径长度与质量之间的相关性,并将LLM清晰地划分为两大阵营:
1. 短视界模型(Short-horizon Models) 代表成员包括 R1、QwQ-32B 等。这类模型的特征非常鲜明:更短的推理路径往往意味着更高的正确率。如果它们开始长篇大论,很可能是在“胡言乱语”或者陷入了无效循环。对于这类模型,强制其进行长思维链推理反而适得其反。
2. 长视界模型(Long-horizon Models) 代表成员包括 Qwen3-32B、GPT-OSS-120B 等。这类模型表现得更为“世故”和适应性强。在处理简单问题时,它们倾向于短路径;而在面对困难问题时,它们则偏好较长的路径,确实在利用额外的计算步骤进行有效推理。
理解这种“模型性格”的差异,是优化提示词(Prompt)和设计推理系统的关键。

终极配方:如何为你的模型选择最佳策略?

基于海量的实验数据,微软团队总结出了一套极具操作性的“决策矩阵”。无论你是AI日报的忠实读者,还是在一线奋斗的算法工程师,这份配方都价值连城。
场景一:如果你使用的是“短视界模型”
  • 策略核心:不要让它想太久,依靠“群众的智慧”。
  • 低预算时:使用 FFS(最先完成搜索),设定 k=1。即采样 N 个答案,直接挑最短的那个。简单粗暴且有效。
  • 高预算时:使用 FFS,设定 k=N。这实际上等同于多数投票(MV@N)。既然模型倾向于短路径,而短路径通常是正确的,那么通过大量采样并投票,能最大化准确率。
场景二:如果你使用的是“长视界模型”
  • 策略核心:根据问题难度动态调整。
  • 面对高难度问题:模型倾向于长路径。此时,在保持高计算预算的情况下,使用大 N 的多数投票(MV@N)依然是最佳选择。
  • 面对低难度问题:模型偏好短路径。此时,设定 N=k 的多数投票依然稳健。
结论:尽管模型类型和任务难度千差万别,但最终的“配方”却殊途同归——多数投票(MV@N) 及其变体往往是性价比最高的选择。特别是对于“短视界”模型,从大量的快速回答中筛选共识,远比强迫它深思熟虑要有效得多。

总结与展望

微软的这项研究为LLM的推理能力“祛魅”,它告诉我们测试时扩展并不是简单地堆砌算力。在OpenAIClaude等巨头不断推高模型能力的今天,理解模型的内在属性变得尤为重要。
对于AI新闻关注者和开发者而言,这份研究提供了一个清晰的指引:在算力昂贵的当下,不要盲目追求复杂的推理策略。下一次,当你准备让你的模型“再想一下”时,不妨先判断它是“短视界”还是“长视界”,然后查查这份配方。
更多关于人工智能ChatGPT大模型的前沿资讯和深度解读,请持续关注 AIGC.bar,这里汇聚了最新的AI门户信息,助你在AI变现的道路上快人一步。
Loading...

没有找到文章