NovaFlow:AI机器人看片自学,开启零样本操控新纪元 | AIGC.bar

type
status
date
slug
summary
tags
category
icon
password
网址

引言:打破机器人学习的数据枷锁

人工智能(AI)的浪潮之巅,构建能够像人一样“举一反三”,在陌生环境中自主完成任务的通用机器人,一直是科学家们梦寐以求的目标。然而,这条通往通用人工智能(AGI)的道路上,横亘着一座难以逾越的大山——数据瓶颈。传统的视觉-语言-动作(VLA)模型,虽然理论上潜力巨大,却极度依赖海量的、与特定机器人相关的训练数据。与ChatGPTClaudeLLM(大模型)可以轻松享用互联网规模的文本数据不同,采集机器人的物理交互数据成本高昂、效率低下,严重制约了其泛化能力的提升。
面对这一困境,我们不禁要问:有没有一种方法能让机器人摆脱对“亲身实践”数据的依赖,像人类一样通过观察来学习新技能?近期,来自布朗大学与机器人与人工智能研究所的团队给出了一个颠覆性的答案——NovaFlow框架。这一创新方法巧妙地绕开了数据采集的难题,让机器人通过“观看”由AI视频大模型生成的“教学视频”来自学成才,成功实现了零样本(Zero-Shot)复杂操控。这一突破性进展,无疑为AI领域注入了新的活力,更多前沿AI资讯与深度解读,欢迎访问AI门户网站 https://aigc.bar 获取。

核心思想:从“观看”到“行动”的范式革命

传统机器人学习范式,无论是模仿学习还是强化学习,都陷入了效率与泛化性的两难。NovaFlow的核心洞见在于,它彻底解耦了“任务理解”与“底层控制”这两个环节。研究人员认为,在海量互联网视频上训练出来的现代视频生成大模型,其内部已经蕴含了关于世界运作方式的丰富“常识性”物理知识。
例如,对于一个“把杯子挂到架子上”的Prompt(提示词),AI视频模型能够生成一段视觉上合乎逻辑的演示视频。这意味着关于物体如何移动、空间关系如何变化的知识,已经被模型所掌握。NovaFlow要做的,就是将这些知识“翻译”成机器人能够理解并执行的语言。
为了实现这种“翻译”,NovaFlow引入了一个关键的中间表征:可执行3D对象流(Actionable 3D Object Flow)。这本质上是目标物体在三维空间中运动轨迹的点云集合。它只关心“物体应该如何运动”,而完全忽略“是谁或什么在驱动这个运动”。这种以物体为中心的设计,是NovaFlow能够跨越不同机器人形态(无论是机械臂还是四足机器人),实现强大泛化能力的关键所在。

NovaFlow工作流拆解:两步实现“看片”到操控

NovaFlow的整个工作流程优雅地分为两个核心模块:动作流生成器(Flow Generator)动作流执行器(Flow Executor)

第一步:动作流生成器 - 将视频“翻译”成3D动作蓝图

这个模块的目标是全自动地将用户的自然语言指令(例如一个Prompt:“打开抽屉”)和一张场景照片,转化为目标物体的3D运动轨迹。
  1. 视频生成:首先,系统调用先进的AI视频生成模型,根据初始图像和文本指令,生成一段几秒钟的任务演示短片。
  1. 2D到3D提升:生成的视频是2D像素,而机器人操作在3D世界。NovaFlow利用单目深度估计算法为视频的每一帧赋予深度信息,并使用初始场景的真实深度数据进行校准,从而将2D视频“提升”为3D视频。
  1. 3D点追踪:在3D视频的基础上,使用点追踪模型,精确捕捉视频中每一个像素点在三维空间中的运动轨迹。
  1. 对象分割与提取:为了只关注目标物体,系统采用开放词汇的分割模型(如Grounded-SAM2)识别并“抠出”指令中提到的物体(如抽屉)。最终,只保留属于该物体的运动轨迹,就得到了纯净的“可执行3D对象流”。
为了应对大模型可能出现的“幻觉”(生成不符合物理规律的内容),NovaFlow还设计了一个巧妙的筛选机制:并行生成多个候选视频流,再利用一个强大的视觉语言模型(VLM)进行评估,选出最合理、最符合指令意图的动作流用于执行。

第二步:动作流执行器 - 将3D蓝图转化为机器人动作

拿到3D动作流这份“蓝图”后,执行器负责将其转化为机器人可以精确执行的物理动作。它针对不同类型的物体,采取了不同的策略:
  • 对于刚性或铰接物体(如杯子、抽屉):这类物体的运动可以用简单的旋转和平移来描述。执行器通过分析动作流,计算出物体在每个时间点的6D位姿(三维位置+三维姿态),然后规划出机械臂末端的抓取和移动轨迹,生成平滑且无碰撞的动作指令。
  • 对于可变形物体(如绳子):绳子这类物体的形态变化复杂,无法用简单的刚体变换描述。此时,密集的3D动作流就成了一个理想的追踪目标。执行器会采用模型预测控制(MPC)等高级规划算法,利用物理模型预测绳子的动态变化,并持续优化机器人的动作,使其操作下的绳子状态无限逼近动作流定义的理想状态。

实验验证:超越模仿学习的惊人表现

NovaFlow的理论听起来令人兴奋,但实际效果如何?研究团队在Franka机械臂和波士顿动力Spot四足机器人上进行了广泛的真实世界测试,任务涵盖了刚性物体(挂杯子)、铰接物体(开抽屉)和可变形物体(拉直绳子)等多种场景。
实验结果极为亮眼:
  • 全面超越同类零样本方法:与其它同样无需示教数据的方法相比,NovaFlow在所有任务上的成功率都遥遥领先。这主要归功于其精确的3D动作表征,避免了依赖2D光流所带来的三维感知缺失和长期一致性问题。
  • 性能优于需要数据的模仿学习:最令人震惊的是,NovaFlow这个零样本方法的表现,甚至超过了为每个任务使用10个乃至30个真实示教数据专门训练的模仿学习模型。这强有力地证明,从生成模型中提取的“常识”知识,其价值和潜力巨大,完全有能力替代昂贵且稀缺的真实机器人数据。

挑战与未来:通往通用机器人(AGI)的下一步

尽管NovaFlow取得了里程碑式的成功,但它也揭示了当前技术的局限。分析表明,大多数失败案例并非出在“任务理解”阶段,而是发生在物理执行的“最后一公里”,例如抓取姿态不准或意外的物理扰动。这暴露了当前开环(open-loop)规划系统的脆弱性——一旦计划制定,就无法根据实时反馈进行调整。
未来的关键研究方向将是开发闭环反馈系统。通过让机器人实时感知环境变化,动态地调整或重新规划动作流,系统将能更好地应对现实世界的不确定性,变得更加鲁棒。
总而言之,NovaFlow为机器人学习领域提出了一个革命性的、无需示教的框架。它通过创造性地利用AI视频大模型作为“常识知识库”,成功地展示了在没有特定机器人数据的情况下,实现通用、泛化操作的可能性。这或许是我们朝着能够真正“思考”和“行动”的通用机器人(AGI)迈出的关键一步。想持续追踪AI领域的最新突破和AI变现的无限可能,请锁定 https://aigc.bar,获取每日AI日报和深度分析。
Loading...

没有找到文章