NUS邵林团队提出Goal-VLA：生成式大模型化身世界模型，引领零样本机器人操作新范式 | AINEWS

type

status

date

slug

summary

引言：具身智能的泛化难题与新曙光

在人工智能（AI）与机器人学交叉的具身智能领域，如何让机器人具备像人类一样的泛化能力，始终是科研人员攻坚的核心。传统的视觉-语言-动作（VLA）模型，无论是依赖海量数据的端到端架构，还是缺乏几何精度的分层模型，在面对陌生场景时往往显得力不从心。

近日，来自新加坡国立大学（NUS）计算机学院的邵林团队带来了一项突破性研究——Goal-VLA。该研究已被机器人领域顶级会议 ICRA 2026 接收。Goal-VLA 的核心创新在于将图像生成式大模型（VLM）转化为“以物体为中心的世界模型”，在完全无需任务特定微调和成对动作数据的情况下，实现了强大的零样本机器人操作能力。这一成果不仅为大模型赋能物理世界提供了新思路，也为 AGI 在机器人领域的落地迈出了坚实一步。更多前沿 AI资讯，欢迎访问 AINEWS 门户。

解耦范式：以物体目标状态为桥梁

Goal-VLA 成功的关键在于其独特的解耦式分层框架。邵林团队深刻洞察到，传统的“智能体中心”模型过度耦合了机器人的运动学特征，导致模型难以跨平台迁移。

相比之下，Goal-VLA 采用了一种“以物体为中心”的策略。它将高层的语义推理与底层的动作控制彻底分离，使用“物体目标状态”作为两者之间的接口。简单来说，高层模型负责“想象”物体完成任务后的样子，而底层策略则负责将现实调整为“想象”中的样子。这种设计使得系统仅需用户的自然语言指令和单视角 RGB-D 图像即可运行，无需预先建模或扫描环境，极大地提升了系统的灵活性。

核心机制：合成-反思（Reflection-through-Synthesis）

为了确保生成的目标图像既符合语义逻辑又具备物理可行性，Goal-VLA 引入了一套精妙的执行流程，主要分为三个阶段：

目标状态推理：系统利用文本大模型优化用户的简短指令，转化为丰富的 提示词 (Prompt)。随后，图像生成式 VLM（如 Gemini 2.5 Flash-image）生成候选目标图像。为了修正可能存在的物理错误，团队提出了“合成-反思”机制：利用 Grounded SAM 分割目标物体并将其叠加在原始场景中，由 Reflector VLM 进行视觉审查。如果不合格，则反馈修改意见重新生成。

空间基准计算：如何将 2D 图像转化为 3D 指令？Goal-VLA 提取像素级语义特征进行匹配，并结合 Depth Anything V2 估计的深度信息，将 2D 像素提升为 3D 点云。通过 Umeyama 算法，精确计算出物体在空间中的旋转和平移矩阵。

底层策略执行：在获取物体变换矩阵后，底层策略模块负责采样无碰撞的抓取位姿，并驱动运动规划器生成轨迹，最终完成物理任务。

这种通过 大模型 进行“视觉模拟”并自我纠错的路径，显著降低了对标注数据的依赖，是 人工智能 迈向自主学习的重要尝试。

实验验证：从仿真到现实的全方位领先

在严格的零样本设定下，Goal-VLA 展示了令人惊叹的性能。在 RLBench 仿真环境的 8 个复杂任务中，Goal-VLA 实现了 59.9% 的平均成功率。作为对比，传统的端到端模型如 OpenVLA 和 Pi0 在未微调的情况下几乎无法完成任务。

在真实世界实验中，研究团队使用 UFACTORY X-ARM 7 机械臂测试了包括“番茄入锅”、“桌面清扫”、“精确称重”等极具挑战性的任务。实验结果显示，Goal-VLA 达到了 60% 的平均成功率。这证明了该框架不仅能理解复杂的语义关系（如“包含”、“工具使用”），还能提供高精度的空间指导。

消融实验进一步证实，完整的“合成-反思”机制将基础成功率从 40.0% 提升至 88.8%（3 次迭代），充分体现了视觉反馈在具身智能任务中的必要性。

展望未来：AGI 与物理世界的深度融合

Goal-VLA 的提出，标志着生成式大模型不再仅仅是文字或图像的生产者，而是成为了能够感知、推理并指导物理行为的“世界模型”。这种解耦的架构为未来的机器人研究提供了一个通用模版：高层模型负责逻辑与目标设定，底层模块负责精准执行。

随着 LLM 和多模态技术的不断演进，我们有理由相信，未来的机器人将不再局限于工厂流水线，而是能走进千家万户，处理各种未曾预见的复杂任务。邵林团队的这一贡献，无疑为 AI日报 增添了浓墨重彩的一笔。

想要获取更多关于 openai、chatGPT、claude 等大模型的最新动态，以及探索 AI变现 的更多可能，请持续关注 AINEWS，我们为您提供最专业的 AI新闻 与技术深度解读。

总结

Goal-VLA 通过引入图像生成式 VLM 作为核心，巧妙地解决了机器人操作中的零样本泛化难题。其“以物体为中心”的视角和“合成-反思”的闭环机制，为具身智能领域注入了新的活力。在未来，这种无需海量动作数据即可实现复杂操作的技术，将极大加速机器人技术的普及与应用。