微软重磅发布：大模型测试时扩展(TTS)终极指南与推理实战配方

type

status

date

slug

summary

测试时扩展的核心理念在于：通过在推理阶段投入更多的计算量，换取更好的输出质量。这听起来像是“免费的午餐”，但实际操作极其复杂。目前的TTS策略主要分为三大类：

并行扩展策略：通过聚合多个独立采样的推理路径来提升性能。最典型的就是“多数投票”（Majority Voting）或 Self-consistency，即让模型生成多个答案，选择出现频率最高的那个。

微软的研究指出，虽然每种方法都有其适用场景，但并没有哪一种策略是普遍最佳的。这对于关注人工智能落地的开发者来说，意味着必须根据具体情况量体裁衣。

研究中最令人震惊的发现之一，是对经典算法“束搜索”（Beam Search）的重新评估。在传统的自然语言处理任务中，束搜索通常能提升生成质量。然而，在大模型的推理任务中，研究人员观察到了明显的“逆扩展”（inverse-scaling）现象。

对于像 R1 和 QwQ-32B 这样的模型，一旦束大小（Beam Size, N）超过 2，准确率不仅没有提升，反而像坐过山车一样急剧下降。这意味着，盲目增加束搜索的宽度，不仅浪费了宝贵的 token 和算力，反而会引入更多的噪音和错误。

这一发现提醒我们在进行AI变现或应用开发时，切勿盲目迷信传统算法，必须针对 LLM 的特性进行测试。

这项研究最核心的贡献，在于揭示了推理路径长度与质量之间的相关性，并将LLM清晰地划分为两大阵营：

1. 短视界模型（Short-horizon Models） 代表成员包括 R1、QwQ-32B 等。这类模型的特征非常鲜明：更短的推理路径往往意味着更高的正确率。如果它们开始长篇大论，很可能是在“胡言乱语”或者陷入了无效循环。对于这类模型，强制其进行长思维链推理反而适得其反。

2. 长视界模型（Long-horizon Models） 代表成员包括 Qwen3-32B、GPT-OSS-120B 等。这类模型表现得更为“世故”和适应性强。在处理简单问题时，它们倾向于短路径；而在面对困难问题时，它们则偏好较长的路径，确实在利用额外的计算步骤进行有效推理。

理解这种“模型性格”的差异，是优化提示词（Prompt）和设计推理系统的关键。

基于海量的实验数据，微软团队总结出了一套极具操作性的“决策矩阵”。无论你是AI日报的忠实读者，还是在一线奋斗的算法工程师，这份配方都价值连城。

场景一：如果你使用的是“短视界模型”

高预算时：使用 FFS，设定 k=N。这实际上等同于多数投票（MV@N）。既然模型倾向于短路径，而短路径通常是正确的，那么通过大量采样并投票，能最大化准确率。

场景二：如果你使用的是“长视界模型”

结论：尽管模型类型和任务难度千差万别，但最终的“配方”却殊途同归——多数投票（MV@N） 及其变体往往是性价比最高的选择。特别是对于“短视界”模型，从大量的快速回答中筛选共识，远比强迫它深思熟虑要有效得多。

微软的这项研究为LLM的推理能力“祛魅”，它告诉我们测试时扩展并不是简单地堆砌算力。在OpenAI和Claude等巨头不断推高模型能力的今天，理解模型的内在属性变得尤为重要。

对于AI新闻关注者和开发者而言，这份研究提供了一个清晰的指引：在算力昂贵的当下，不要盲目追求复杂的推理策略。下一次，当你准备让你的模型“再想一下”时，不妨先判断它是“短视界”还是“长视界”，然后查查这份配方。

更多关于人工智能、ChatGPT、大模型的前沿资讯和深度解读，请持续关注 AIGC.bar，这里汇聚了最新的AI门户信息，助你在AI变现的道路上快人一步。