πRL框架问世:强化学习赋能机器人,成功率飙升40%

type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)浪潮席卷全球的今天,具身智能(Embodied AI)正成为连接虚拟世界与物理现实的关键桥梁。其中,基于流匹配的视觉-语言-动作(VLA)大模型,如π0和π0.5,因其能够生成平滑、高维的连续动作,在复杂机器人操控任务中展现出巨大潜力。然而,这些模型的发展长期受制于对大规模、高质量人工演示数据的重度依赖,这无疑是昂贵且耗时的。
为了打破这一瓶颈,一个由清华、北大、CMU等顶尖机构联合推出的开创性框架——πRL应运而生。它首次成功地将在线强化学习(RL)应用于流匹配VLA模型,不仅解决了关键技术难题,更在多项测试中取得了惊人的性能提升。这不仅是技术的突破,更是推动AI从数字世界走向物理世界的重要一步。想要了解更多前沿的AI资讯和技术动态,可以访问AI门户网站 https://aigc.bar。

核心挑战:为何流匹配模型难以拥抱强化学习?

强化学习允许智能体通过与环境的真实交互来自我学习和进化,是减少数据依赖、提升模型性能上限的理想途径。然而,将其应用于流匹配VLA模型却面临一个核心障碍。
主流的策略梯度强化学习算法(如PPO)在更新策略时,需要计算模型输出动作的“对数似然”(log-likelihood)。简单来说,就是要知道模型以多大的概率选择了某个特定动作。但流匹配模型通过一个迭代去噪的确定性过程生成动作,这个过程就像一个黑箱,导致其输出动作的概率难以直接计算。这个技术难题使得强化学习的强大能力一直未能有效赋能这类先进的VLA模型。

πRL的破局之道:Flow-Noise与Flow-SDE双剑合璧

πRL框架巧妙地提出了两条并行的技术路线——Flow-NoiseFlow-SDE,成功攻克了上述难题,为流匹配模型打开了强化学习的大门。
  • Flow-Noise:注入随机性,让概率可计算
  • 核心思想:通过引入一个可学习的噪声网络,在去噪的每一步都注入微小的、可控的随机噪声。
  • 实现方式:这一操作将原本确定性的去噪过程转变为一个随机马尔可夫过程。因为每一步注入的噪声都是已知的,整个动作序列(从初始噪声到最终动作)的联合概率就变得可以精确计算。
  • 最终效果:有了精确的对数似然,就可以直接应用PPO等标准策略梯度算法进行高效优化。
  • Flow-SDE:构建双层决策,让优化更直接
  • 核心思想:将描述去噪过程的常微分方程(ODE)转化为一个等效的随机微分方程(SDE),从而在策略中引入随机性。
  • 实现方式:该方法构建了一个巧妙的“双层马尔可夫决策过程(MDP)”。外层是智能体与环境的交互,内层是SDE的去噪过程。策略优化的目标不再是直接输出动作,而是输出驱动SDE去噪的速度场。
  • 最终效果:通过优化速度场,同样可以应用策略梯度方法。为了提升训练效率,πRL还采用了混合采样策略,大部分时间使用确定性ODE进行快速决策,小部分时间使用SDE进行探索。
此外,πRL还针对不同模型架构(π0和π0.5)设计了两种高效的Actor-Critic结构(Action Expert Critic和VLM Critic),进一步保证了训练的稳定性和最终性能。

惊人成果:从仿真到大规模任务的全面胜利

πRL的有效性在多个业界公认的测试平台上得到了充分验证,其结果令人瞩目。
  • LIBERO基准测试:在少样本(few-shot)场景下,经过πRL微调后:
  • π0模型的平均成功率从 57.6% 飙升至 97.6%
  • π0.5模型的平均成功率从 77.1% 提升至 98.3%
  • 这一成绩甚至超越了使用全部数据进行监督学习(SFT)训练的模型,充分证明了强化学习在提升性能上限方面的巨大优势。在长时序任务上,单样本(one-shot)微调的性能更是从43.9%提升到了惊人的94.0%。
  • ManiSkill大规模多任务验证:为了测试框架的扩展能力,研究团队构建了包含4,352种抓取-放置组合的复杂任务集。结果显示:
  • πRL帮助π0和π0.5模型的成功率实现了超过 40% 的绝对涨幅,最终成功率分别超过78%和90%。
  • 在专门设计的域随机化环境中(改变指令、物体、纹理等),πRL同样显著提升了模型的泛化能力,使其能更好地适应新环境。
更重要的是,实验发现经强化学习微调的模型不仅更“聪明”,犯错更少,完成任务的平均步数也显著减少,效率逼近专家水平。

未来展望:从仿真迈向现实

πRL框架的开源为具身智能和机器人领域的研究者提供了强大的新工具。它成功地证明了在线强化学习是解锁流匹配VLA大模型潜力的关键钥匙。
未来,该框架将接入更多仿真环境,对强化学习带来的泛化增益进行更深入的分析,并最终推动其在真实物理机器人上的部署。这一系列进展预示着,一个能够通过与环境交互不断学习、自我进化的机器人时代正加速到来。
对于关注AI大模型LLM最新动态的开发者和爱好者来说,πRL的成功无疑是一个激动人心的信号。它展示了不同AI技术的融合如何催生出强大的新能力。想持续追踪类似ChatGPTClaude等模型的底层技术突破和前沿应用,欢迎访问专业的AI门户 https://aigc.bar,获取每日更新的AI日报和深度分析。
Loading...

没有找到文章