NUS邵林团队提出Goal-VLA:生成式大模型化身世界模型,引领零样本机器人操作新范式 | AINEWS

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:具身智能的泛化难题与新曙光

在人工智能(AI)与机器人学交叉的具身智能领域,如何让机器人具备像人类一样的泛化能力,始终是科研人员攻坚的核心。传统的视觉-语言-动作(VLA)模型,无论是依赖海量数据的端到端架构,还是缺乏几何精度的分层模型,在面对陌生场景时往往显得力不从心。
近日,来自新加坡国立大学(NUS)计算机学院的邵林团队带来了一项突破性研究——Goal-VLA。该研究已被机器人领域顶级会议 ICRA 2026 接收。Goal-VLA 的核心创新在于将图像生成式大模型(VLM)转化为“以物体为中心的世界模型”,在完全无需任务特定微调和成对动作数据的情况下,实现了强大的零样本机器人操作能力。这一成果不仅为大模型赋能物理世界提供了新思路,也为 AGI 在机器人领域的落地迈出了坚实一步。更多前沿 AI资讯,欢迎访问 AINEWS 门户

解耦范式:以物体目标状态为桥梁

Goal-VLA 成功的关键在于其独特的解耦式分层框架。邵林团队深刻洞察到,传统的“智能体中心”模型过度耦合了机器人的运动学特征,导致模型难以跨平台迁移。
相比之下,Goal-VLA 采用了一种“以物体为中心”的策略。它将高层的语义推理与底层的动作控制彻底分离,使用“物体目标状态”作为两者之间的接口。简单来说,高层模型负责“想象”物体完成任务后的样子,而底层策略则负责将现实调整为“想象”中的样子。这种设计使得系统仅需用户的自然语言指令和单视角 RGB-D 图像即可运行,无需预先建模或扫描环境,极大地提升了系统的灵活性。

核心机制:合成-反思(Reflection-through-Synthesis)

为了确保生成的目标图像既符合语义逻辑又具备物理可行性,Goal-VLA 引入了一套精妙的执行流程,主要分为三个阶段:
  1. 目标状态推理:系统利用文本大模型优化用户的简短指令,转化为丰富的 提示词 (Prompt)。随后,图像生成式 VLM(如 Gemini 2.5 Flash-image)生成候选目标图像。为了修正可能存在的物理错误,团队提出了“合成-反思”机制:利用 Grounded SAM 分割目标物体并将其叠加在原始场景中,由 Reflector VLM 进行视觉审查。如果不合格,则反馈修改意见重新生成。
  1. 空间基准计算:如何将 2D 图像转化为 3D 指令?Goal-VLA 提取像素级语义特征进行匹配,并结合 Depth Anything V2 估计的深度信息,将 2D 像素提升为 3D 点云。通过 Umeyama 算法,精确计算出物体在空间中的旋转和平移矩阵。
  1. 底层策略执行:在获取物体变换矩阵后,底层策略模块负责采样无碰撞的抓取位姿,并驱动运动规划器生成轨迹,最终完成物理任务。
这种通过 大模型 进行“视觉模拟”并自我纠错的路径,显著降低了对标注数据的依赖,是 人工智能 迈向自主学习的重要尝试。

实验验证:从仿真到现实的全方位领先

在严格的零样本设定下,Goal-VLA 展示了令人惊叹的性能。在 RLBench 仿真环境的 8 个复杂任务中,Goal-VLA 实现了 59.9% 的平均成功率。作为对比,传统的端到端模型如 OpenVLA 和 Pi0 在未微调的情况下几乎无法完成任务。
在真实世界实验中,研究团队使用 UFACTORY X-ARM 7 机械臂测试了包括“番茄入锅”、“桌面清扫”、“精确称重”等极具挑战性的任务。实验结果显示,Goal-VLA 达到了 60% 的平均成功率。这证明了该框架不仅能理解复杂的语义关系(如“包含”、“工具使用”),还能提供高精度的空间指导。
消融实验进一步证实,完整的“合成-反思”机制将基础成功率从 40.0% 提升至 88.8%(3 次迭代),充分体现了视觉反馈在具身智能任务中的必要性。

展望未来:AGI 与物理世界的深度融合

Goal-VLA 的提出,标志着生成式大模型不再仅仅是文字或图像的生产者,而是成为了能够感知、推理并指导物理行为的“世界模型”。这种解耦的架构为未来的机器人研究提供了一个通用模版:高层模型负责逻辑与目标设定,底层模块负责精准执行。
随着 LLM 和多模态技术的不断演进,我们有理由相信,未来的机器人将不再局限于工厂流水线,而是能走进千家万户,处理各种未曾预见的复杂任务。邵林团队的这一贡献,无疑为 AI日报 增添了浓墨重彩的一笔。
想要获取更多关于 openaichatGPTclaude 等大模型的最新动态,以及探索 AI变现 的更多可能,请持续关注 AINEWS,我们为您提供最专业的 AI新闻 与技术深度解读。

总结

Goal-VLA 通过引入图像生成式 VLM 作为核心,巧妙地解决了机器人操作中的零样本泛化难题。其“以物体为中心”的视角和“合成-反思”的闭环机制,为具身智能领域注入了新的活力。在未来,这种无需海量动作数据即可实现复杂操作的技术,将极大加速机器人技术的普及与应用。
Loading...

没有找到文章