后训练RL已死？MIT新算法RandOpt挑战传统思维，揭秘预训练模型的“神经丛林”效应 | AI资讯

type

status

date

slug

summary

传统后训练的困境与RandOpt的横空出世

长期以来，后训练被视为赋予模型“灵魂”的过程。无论是 RLHF 还是进化策略，其核心都在于通过反复的迭代、梯度计算和参数微调，在广阔的权重空间中寻找那极少数能提升性能的“最优解”。这种方法不仅计算成本高昂，且对超参数极其敏感。

MIT 的研究者们提出了一种名为 RandOpt 的新算法，它以一种近乎“粗暴”的简单方式挑战了这种复杂性。RandOpt 不需要梯度下降，不需要学习率调整，甚至不需要迭代。它仅仅通过在预训练权重上添加单步的高斯噪声，并对生成的多个模型副本进行集成，就在数学推理、代码生成等任务上达到了媲美甚至超越 PPO 的性能。这一发现让许多 大模型 开发者开始重新审视：我们是否过度复杂化了后训练过程？

揭秘“神经丛林”：预训练权重周围的宝藏

为什么简单的随机扰动就能起作用？这源于论文提出的一个核心概念——“神经丛林”（Neural Thickets）。

研究发现，随着模型规模的增大，预训练模型在权重空间中不再是孤立的“点”，而是被一层密集的、具备特定任务能力的“专家”所包围。

小模型的大海捞针机制：对于参数量较小的模型，高质量的解决方案在权重空间中极其稀疏。想要找到它们，必须依赖梯度下降等结构化搜索，这就像是在沙漠中寻找一根针。

大模型的神经丛林机制：当模型规模达到一定程度（如 1.5B 以上）并经过海量多任务数据预训练后，其初始权重周围会自发涌现出大量“任务专家”。这些专家可能擅长数学、可能擅长代码，它们密集地分布在预训练权重的邻域内。

这意味着，对于强大的 LLM 而言，提升性能的关键可能不再是“创造”新能力，而是如何从这片生机勃勃的“丛林”中“筛选”出已有的专家。

RandOpt 算法：单步、无梯度、极致并行的极简主义

RandOpt 的操作流程极具颠覆性，其时间复杂度仅为 O(1)，远低于传统方法的 O(T)。其核心步骤如下：

随机采样：从标准高斯分布中生成 N 个随机噪声，直接加到基础模型的权重上，产生 N 个略有差异的模型副本。

性能评估：在一个极小的验证集上运行这些副本，筛选出表现最好的 Top-K 个模型。

推理集成：在实际使用时，让这 K 个模型同时生成答案，通过多数投票等集成机制得出最终结果。

这种方法完全避开了序列化的梯度更新，可以在大规模 GPU 集群上实现极致的并行化。在 AI新闻 报道的实验案例中，使用 200 个 GPU 训练一个 7B 规模的模型，仅需 3.2 分钟即可完成传统后训练需要数小时甚至数天才能达到的效果。

实验结果：RandOpt 真的能取代强化学习吗？

在针对 Qwen、Llama 和 OLMo 等主流 人工智能 模型的测试中，RandOpt 展示了惊人的潜力。在数学推理（GSM8K）和代码生成（MBPP）等复杂任务中，RandOpt 的表现不仅稳健，甚至在消耗相同算力的情况下优于传统的 PPO 和 GRPO。

更深入的错误归因分析显示，RandOpt 带来的提升并非仅仅是“格式微调”。数据显示，有相当比例的提升来源于“推理丛林”，即随机扰动后的模型确实能够修正基础模型原本错误的逻辑。

此外，RandOpt 的应用范围不仅限于文本。在视觉语言模型（VLM）和文本生成图像模型（如 SDXL）中，研究者同样观察到了“色彩丛林”等现象，证明了这种参数空间规律的普遍性。

后训练的本质是“学习”还是“选择”？

RandOpt 的成功引发了 AGI 研究界对后训练本质的深度思考。如果随机采样和集成就能达到极佳效果，那么后训练可能更像是一个“专家筛选”过程。

为了解决集成模型推理成本高的问题，研究者还提出了一种蒸馏方案：利用 RandOpt 筛选出的专家模型生成高质量数据，再对基础模型进行少量的监督微调（SFT）。实验证明，这种“RandOpt + 蒸馏”的组合，能以极低的成本获得单体高性能模型。

虽然目前 RandOpt 在处理极细粒度的对齐任务上是否具有同样的泛化性仍有待观察，但它无疑为 LLM 的高效开发开辟了新路径。对于关注 AI变现 和模型落地的开发者来说，这种极简、高效的优化手段极具吸引力。

如果你想了解更多关于 大模型 的前沿技术深度解析、Prompt 优化技巧或最新的 AI日报 资讯，欢迎访问 AI门户，获取最及时的 人工智能 行业动态与技术干货。在 AI 浪潮中，保持对底层的深刻理解，才能更好地把握 AGI 的未来。

总结而言，RandOpt 并非真的宣告了强化学习的死亡，而是揭示了预训练赋予模型的巨大潜能。它提醒我们，有时候通往卓越性能的道路，可能比我们想象的要简单得多。