复旦首创世界模型RL闭环,ProphRL超越π0.5引领具身智能 | AINEWS

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在通往AGI(通用人工智能)的道路上,具身智能(Embodied AI)一直被视为连接数字世界与物理世界的关键桥梁。近年来,Vision–Language–Action(VLA)策略模型逐渐成为机器人操作的主流技术路径。然而,现有的技术往往受限于昂贵的训练成本和泛化能力的不足。
近期,复旦大学研究团队提出了一项突破性成果——ProphRL框架,首创了「世界模型+具身训练+强化学习」的闭环方案。该方案不仅超越了π0.5等前沿模型,更通过在“想象空间”中的低成本试错,为大模型驱动的机器人落地提供了全新思路。如果您关注AI资讯大模型AGI的最新动态,欢迎访问 AIGC.BAR 获取更多深度解读。

具身智能的困境:模仿学习与传统RL的瓶颈

当前的VLA模型大多依赖于模仿学习(Imitation Learning)。简单来说,就是机器人通过“背诵”人类的示范轨迹来学习操作。这种方法虽然在训练分布内表现尚可,但一旦环境发生微小变化,或者任务流程变长,误差就会累积,导致任务失败。模型只学会了“像不像”,却没学会“对不对”。
为了解决这一问题,强化学习(RL)本应是最佳选择,因为它直接优化任务成功率。然而,在真实机器人上进行在线RL训练面临着巨大的挑战: * 成本高昂:硬件磨损大,且无法大规模并行。 * 效率低下:需要大量人工重置环境和干预,迭代速度慢。 * 仿真局限:传统的物理引擎(如MuJoCo)难以兼顾视觉逼真度和物体多样性,难以模拟布料折叠等复杂物理现象。
复旦团队正是看到了这一痛点,提出了ProphRL框架,旨在通过数据驱动的世界模型来替代昂贵的真实世界交互。

核心突破:Prophet世界模型——机器人的“想象空间”

ProphRL框架的核心在于构建了一个名为Prophet的大规模预训练世界模型。Prophet不仅是一个简单的视频生成器,它更像是一个“面向真实环境”的视频级模拟器。
Prophet利用视频扩散模型架构,接受机器人的历史帧、参考帧以及未来的动作序列作为输入,输出符合物理规律的未来操作视频。为了让这个“梦境”足够真实,研究团队在包括AgiBot、DROID、LIBERO等大规模异构数据上进行了统一预训练。
这意味着,机器人可以在Prophet构建的虚拟世界中进行“脑补”训练。哪怕面对新场景或新物体,只需百余条真实轨迹进行少样本微调,Prophet就能快速适配。这种基于大模型技术的生成能力,让机器人在无需接触真实物体的情况下,就能预演操作结果,极大地降低了训练门槛。

算法创新:FA-GRPO与FlowScale

在拥有了逼真的模拟环境后,如何高效地训练策略成为关键。针对VLA策略中常见的流式动作头(Flow-based action head),复旦团队量身定制了两大算法创新:
  1. Flow-Action-GRPO (FA-GRPO):传统的RL算法往往将流式生成的每一步都视为独立动作,导致训练不稳定。FA-GRPO则在动作层面构造PPO比例,重新组织梯度信号,使得长时序控制下的信用分配更贴近真实反馈。
  1. FlowScale:这是一种利用噪声调度的机制。它适度放大高噪声的早期步骤权重,抑制低噪声后期步骤的梯度,从而平衡各步骤对整体梯度的贡献,显著提升了训练的稳定性。
结合Prophet提供的长视野预测,机器人策略可以在虚拟环境中反复利用这两个算法进行试错和优化,形成“在想象中学,在现实中用”的高效闭环。

闭环验证:从视觉语言奖励到真机实战

为了实现全自动化的训练闭环,ProphRL还引入了基于视觉-语言模型(VLM)的奖励机制。研究团队利用Qwen系列大模型(如Qwen2.5-VL)作为“裁判”,直接根据生成的视频和任务文本判断任务是否成功。这种无需人工标注的奖励机制,进一步加速了人工智能在具身场景的自我进化。
实验结果令人振奋: * 模拟基准:在多个公开基准上,ProphRL为VLA-adapter、OpenVLA等模型带来了5–17%的成功率提升。 * 真机实验:在刚体抓取、柔性物体拉取等复杂真实任务中,ProphRL相比纯监督微调,平均成功率大幅提升了24–30%
与Nvidia的Cosmos或上海智元的Genie-envisioner相比,Prophet在生成质量和动作一致性上也展现出了超越同行的水准。

总结与展望

复旦团队的ProphRL框架证明了“世界模型 + 强化学习”是解决具身智能落地难题的可行路径。它打破了传统模仿学习的局限,利用生成式AI的能力构建物理一致的模拟环境,让机器人在虚拟中探索,在现实中精通。
随着LLM和视频生成技术的不断进步,未来的机器人将具备更强的泛化能力和鲁棒性,能够适应更加复杂多变的非结构化环境。这一研究不仅是技术上的突破,也为AI变现在工业自动化、家庭服务等领域的应用铺平了道路。
更多关于人工智能ChatGPTClaudeAI新闻的深度报道,请持续关注 AIGC.BAR,我们致力于为您提供最前沿的AI资讯提示词技巧。
Loading...

没有找到文章