后训练RL已死?MIT新算法RandOpt挑战传统思维,揭秘预训练模型的“神经丛林”效应 | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在人工智能领域,传统的认知一直认为,大语言模型(LLM)在预训练完成后,必须经过复杂的后训练阶段——如强化学习(PPO、GRPO)或指令微调(SFT)——才能真正具备解决特定任务的能力。然而,MIT CSAIL 研究人员 Yulu Gan 和 Phillip Isola 近期发布的一篇论文《Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights》彻底颠覆了这一观念。这项工作不仅获得了知名学者谢赛宁的转发,更在 AI资讯 圈引发了关于“强化学习是否已死”的激烈讨论。

传统后训练的困境与RandOpt的横空出世

长期以来,后训练被视为赋予模型“灵魂”的过程。无论是 RLHF 还是进化策略,其核心都在于通过反复的迭代、梯度计算和参数微调,在广阔的权重空间中寻找那极少数能提升性能的“最优解”。这种方法不仅计算成本高昂,且对超参数极其敏感。
MIT 的研究者们提出了一种名为 RandOpt 的新算法,它以一种近乎“粗暴”的简单方式挑战了这种复杂性。RandOpt 不需要梯度下降,不需要学习率调整,甚至不需要迭代。它仅仅通过在预训练权重上添加单步的高斯噪声,并对生成的多个模型副本进行集成,就在数学推理、代码生成等任务上达到了媲美甚至超越 PPO 的性能。这一发现让许多 大模型 开发者开始重新审视:我们是否过度复杂化了后训练过程?

揭秘“神经丛林”:预训练权重周围的宝藏

为什么简单的随机扰动就能起作用?这源于论文提出的一个核心概念——“神经丛林”(Neural Thickets)
研究发现,随着模型规模的增大,预训练模型在权重空间中不再是孤立的“点”,而是被一层密集的、具备特定任务能力的“专家”所包围。
  • 小模型的大海捞针机制:对于参数量较小的模型,高质量的解决方案在权重空间中极其稀疏。想要找到它们,必须依赖梯度下降等结构化搜索,这就像是在沙漠中寻找一根针。
  • 大模型的神经丛林机制:当模型规模达到一定程度(如 1.5B 以上)并经过海量多任务数据预训练后,其初始权重周围会自发涌现出大量“任务专家”。这些专家可能擅长数学、可能擅长代码,它们密集地分布在预训练权重的邻域内。
这意味着,对于强大的 LLM 而言,提升性能的关键可能不再是“创造”新能力,而是如何从这片生机勃勃的“丛林”中“筛选”出已有的专家。

RandOpt 算法:单步、无梯度、极致并行的极简主义

RandOpt 的操作流程极具颠覆性,其时间复杂度仅为 O(1),远低于传统方法的 O(T)。其核心步骤如下:
  1. 随机采样:从标准高斯分布中生成 N 个随机噪声,直接加到基础模型的权重上,产生 N 个略有差异的模型副本。
  1. 性能评估:在一个极小的验证集上运行这些副本,筛选出表现最好的 Top-K 个模型。
  1. 推理集成:在实际使用时,让这 K 个模型同时生成答案,通过多数投票等集成机制得出最终结果。
这种方法完全避开了序列化的梯度更新,可以在大规模 GPU 集群上实现极致的并行化。在 AI新闻 报道的实验案例中,使用 200 个 GPU 训练一个 7B 规模的模型,仅需 3.2 分钟即可完成传统后训练需要数小时甚至数天才能达到的效果。

实验结果:RandOpt 真的能取代强化学习吗?

在针对 Qwen、Llama 和 OLMo 等主流 人工智能 模型的测试中,RandOpt 展示了惊人的潜力。在数学推理(GSM8K)和代码生成(MBPP)等复杂任务中,RandOpt 的表现不仅稳健,甚至在消耗相同算力的情况下优于传统的 PPO 和 GRPO。
更深入的错误归因分析显示,RandOpt 带来的提升并非仅仅是“格式微调”。数据显示,有相当比例的提升来源于“推理丛林”,即随机扰动后的模型确实能够修正基础模型原本错误的逻辑。
此外,RandOpt 的应用范围不仅限于文本。在视觉语言模型(VLM)和文本生成图像模型(如 SDXL)中,研究者同样观察到了“色彩丛林”等现象,证明了这种参数空间规律的普遍性。

后训练的本质是“学习”还是“选择”?

RandOpt 的成功引发了 AGI 研究界对后训练本质的深度思考。如果随机采样和集成就能达到极佳效果,那么后训练可能更像是一个“专家筛选”过程。
为了解决集成模型推理成本高的问题,研究者还提出了一种蒸馏方案:利用 RandOpt 筛选出的专家模型生成高质量数据,再对基础模型进行少量的监督微调(SFT)。实验证明,这种“RandOpt + 蒸馏”的组合,能以极低的成本获得单体高性能模型。
虽然目前 RandOpt 在处理极细粒度的对齐任务上是否具有同样的泛化性仍有待观察,但它无疑为 LLM 的高效开发开辟了新路径。对于关注 AI变现 和模型落地的开发者来说,这种极简、高效的优化手段极具吸引力。
如果你想了解更多关于 大模型 的前沿技术深度解析、Prompt 优化技巧或最新的 AI日报 资讯,欢迎访问 AI门户,获取最及时的 人工智能 行业动态与技术干货。在 AI 浪潮中,保持对底层的深刻理解,才能更好地把握 AGI 的未来。
总结而言,RandOpt 并非真的宣告了强化学习的死亡,而是揭示了预训练赋予模型的巨大潜能。它提醒我们,有时候通往卓越性能的道路,可能比我们想象的要简单得多。
Loading...

没有找到文章