颠覆传统RL:CMU发布MaxRL最大似然强化学习
type
status
date
slug
summary
tags
category
icon
password
网址
在大模型(LLM)飞速发展的今天,从复杂的代码生成到精密的数学推理,强化学习(Reinforcement Learning, RL)几乎成为了提升模型性能的“必杀技”。无论是OpenAI的O1系列还是DeepSeek的R1,其背后的核心驱动力都离不开RL的加持。然而,直觉上我们认为RL是在教模型“怎么做是对的”,但一项来自CMU、清华大学等顶尖机构的最新研究却泼了一盆冷水:我们现在广泛使用的强化学习,可能根本就没有在优化我们真正想要的目标。
这就引出了一个颠覆性的发现:传统RL仅仅是最大似然(Maximum Likelihood)目标的一阶近似。基于此,研究团队提出了最大似然强化学习(MaxRL),这不仅是对理论的修正,更是通往AGI道路上的一次重要算法升级。作为关注前沿AI资讯和大模型技术的平台,AI门户将带您深入解读这一可能改变未来训练范式的新技术。
传统强化学习的“隐形天花板”
在当前的AI开发实践中,只要遇到反馈是二值的(对或错)、过程不可微的任务,开发者往往默认选择强化学习。这种范式支撑了LLM推理能力的巨大飞跃。从直觉上看,我们希望模型最大化生成“正确答案”的概率,这在统计学上等价于经典的最大似然估计。
然而,研究人员通过严格的数学分析发现,现有的基于期望奖励的强化学习算法,实际上并没有真正最大化“模型生成正确答案的概率”。相反,它们优化的是一个与真实最大似然存在系统性偏差的替代目标。具体来说,最大似然目标可以展开为一系列项,而标准RL只优化了其中的“一阶项”。
这一发现解释了一个令许多人工智能研究者困惑的现象:为什么强化学习在训练初期效果显著,但越到后期,性能提升就越发困难?原因就在于,我们一直在优化的目标,距离真正的“最优解”还差得很远。
MaxRL:重新定义优化目标
为了解决这个问题,研究团队提出了最大似然强化学习(MaxRL)。这不仅仅是一个新算法,更是一种全新的视角:将基于正确性的强化学习,重新刻画为一个潜变量生成的最大似然问题。
MaxRL的核心创新在于提出了一族以“计算量”为索引的目标函数。传统的RL是这个函数族中的最低阶形式(T=1),而随着计算资源的增加,MaxRL允许我们通过引入更高阶的项(基于pass@k事件的Maclaurin展开),逐步逼近真正的最大似然目标(T→∞)。
简单来说,MaxRL提供了一个原则性的框架:允许开发者通过增加训练时的采样计算量(Rollout),来换取对优化目标更精准的逼近。这意味着,算力的增加不再仅仅是降低梯度估计的噪声,而是直接改善了我们正在优化的目标本身。
简单的策略,惊人的效率
虽然理论听起来很复杂,但MaxRL的实现逻辑却意外地优雅。研究指出,最大似然目标的梯度,在数学上等价于“仅对成功轨迹的梯度进行平均”。
这一洞见极大地简化了算法设计。MaxRL采用了一种简单的On-policy估计器:从策略分布中采样,但只利用那些成功的轨迹来更新模型。这种方法使得模型能够随着采样数量的增加,自然地从传统RL的近似目标过渡到更精确的最大似然目标。
在实际的大模型训练实验中,MaxRL展现出了令人惊讶的效率。与目前流行的GRPO(Group Relative Policy Optimization)等方法相比,MaxRL在相同的训练步数下性能提升更快。特别是在测试阶段的Scaling效率上,MaxRL最高可实现20倍的提升。
实验数据背后的意义
在迷宫任务和多种推理任务的对比实验中,随着训练Rollout的增加,传统方法(如RLOO和GRPO)的性能改进往往很快趋于平缓,这表明额外的采样仅仅是在降低方差。而MaxRL则不同,随着计算量的增加,其损失函数持续下降,推动模型不断逼近更优的解。
这表明,MaxRL在性能与计算效率的权衡上,优于现有的强化学习方法。即使在反馈存在噪声的环境下,MaxRL依然保持了稳健的优势。对于致力于AI变现或追求极致模型性能的开发者来说,这意味着更少的训练资源可以换来更强的模型能力。
结论与展望
MaxRL的提出,不仅揭示了传统强化学习的局限性,更为AGI的探索指明了一个新方向:通过计算量的扩张来逼近理论上的最优目标。它证明了在不可微、基于采样的学习问题中,我们完全可以做得比传统RL更好。
随着大模型技术的不断演进,像MaxRL这样能够有效利用算力、从根本上改进优化目标的算法,或许才是通往通用智能的长期答案。如果您希望获取更多关于AI新闻、提示词技巧以及ChatGPT等工具的深度分析,请持续关注AI门户,我们将为您带来全球最新的AI资讯与技术解读。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)