VLA-OS解密:机器人为何“听懂”却“做不对”?NUS最新研究揭示AGI新路径 | AIGC.bar AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址

引言:机器人智能的“最后一公里”难题

为什么一个能流畅对话的人工智能模型,在指挥机器人时却常常“翻车”?机器人似乎能听懂“把桌上的苹果放进篮子”,但实际动作却可能是一连串的困惑与错误。语言大模型(LLM)指挥机器人,真的是通向通用人工智能(AGI)的最优解吗?
这个“听懂”与“做对”之间的鸿沟,是当前机器人领域面临的核心挑战。近期,新加坡国立大学邵林团队发表的突破性研究 VLA-OS,如同一把手术刀,首次系统性地解构和剖析了视觉-语言-动作(Vision-Language-Action, VLA)模型在任务规划和推理中的内部机制,为解决这一难题提供了清晰的路线图。这项工作不仅为研究者提供了宝贵的实验平台,更为下一代通用机器人的研发指明了方向。

机器人研究的“盲人摸象”困境与VLA-OS的破局

近年来,端到端的VLA模型展现了惊人的潜力,它们试图直接从图像和语言输入映射到机器人动作,完全依赖数据驱动的模仿学习。然而,高质量的机器人训练数据远比LLM的文本数据稀缺,这使得模型难以处理复杂、长时序的任务。
为了解决这个问题,研究者们尝试为VLA模型引入“任务规划”模块,主要形成了三大技术流派:
  1. 纯动作VLA (ActionOnly-VLA):最纯粹的端到端范式,直接将视觉和语言输入映射到动作输出,简单粗暴但对数据量要求极高。
  1. 集成式VLA (Integrated-VLA):在一个统一的模型内部同时进行任务规划和策略学习。例如,模型在学习“开抽屉”的动作时,也学习把它分解为“接近柜子”、“找到拉手”、“拉开”等子任务。
  1. 分层式VLA (Hierarchical-VLA):采用“领导-员工”模式。一个上层模型(如VLM)负责高级规划(“做什么”),生成简单的指令;一个下层模型负责具体执行(“怎么做”),二者各司其职,没有梯度回传。
尽管这些方法都取得了不错的成果,但它们在模型架构、训练数据、规划方式上千差万别,使得整个领域陷入了“盲人摸象”的困境——我们无法确定性能提升究竟源于哪个部分。正如最新的AI新闻所报道,厘清这些因素对于推动技术发展至关重要。
VLA-OS正是为了打破这一困境而生。它通过控制变量法,搭建了一个“乐高式”的模块化实验平台,旨在统一其他所有因素,专注于回答两个核心问题: * 我们该用哪种“表征”来进行任务规划?(语言、视觉还是目标图像?) * 我们该用哪种“范式”来进行任务规划?(集成式还是分层式?)

搭建公平擂台:VLA-OS的统一架构与数据集

为了实现公平对比,VLA-OS团队首先着手统一了实验的“基础设施”,确保所有对比实验都在同一起跑线上。
首先,构建了统一的模型家族。 团队基于Qwen 2.5 大模型,构建了从0.5B到7B参数量不等的VLM模型,并配备了统一的视觉编码器和训练流程。这确保了模型底座的一致性。
其次,构建了统一的、多样化的训练数据集。 团队整理并标注了六个主流的机器人操作数据集,涵盖了2D/3D视觉、仿真/真实世界、单臂/双臂、刚性/柔性物体等多种复杂场景。这个包含约10,000条轨迹的庞大数据集,为模型提供了丰富且一致的学习材料。
最关键的是,设计了统一的任务规划“语言”(表征)。 团队为所有数据标注了三种标准化的规划表征:
  • 语言规划 (Language Planning):将任务分解为人类可读的自然语言步骤,如PLAN: 1. Approach the cabinet. 2. Locate the top drawer...
  • 视觉规划 (Visual Planning):将规划信息“扎根”于图像中,用空间坐标来表示物体的边界框、机械臂的运动轨迹、以及物体可交互区域(affordance)。这是一种更接近机器视觉的“语言”。
  • 目标图像规划 (Goal-Image Planning):直接将未来的某个关键帧图像作为规划目标,让模型自己去理解并达成这个视觉状态。
通过这个精巧设计的实验平台,VLA-OS得以对不同的规划表征和模型范式进行一场前所未有的“公平对决”。

实验揭秘:视觉表征与分层范式的崛起

经过在6个测试基准上进行的超百次实验,VLA-OS得出了一系列颠覆性的发现,其中最核心的结论指向了两个明确的方向:视觉规划的优越性分层范式的巨大潜力

发现一:视觉规划远胜语言规划

实验结果明确显示,基于视觉的规划表征(视觉规划和目标图像规划)在性能上显著优于语言规划。这不仅体现在更高的任务成功率上,更重要的是,它们具有更快的推理速度和更低的训练成本。
为什么会这样?语言规划虽然直观,但它对模型来说是一种“间接”信息。模型需要先理解长篇大论的文本,再将其与视觉场景对应,最后转化为动作,这个链条过长,容易产生误差累积。而视觉规划直接在图像空间中定义目标和路径,信息更直接、更“接地气”,也更容易被底层的动作策略所理解和执行。

发现二:分层范式(Hierarchical-VLA)展现最强潜力

在模型范式的对决中,分层式VLA展现出了最强的综合能力,尤其是在泛化性方面
  • 规划更准:将规划模块和执行模块解耦,避免了集成式模型中可能出现的梯度冲突,使得上层规划模型可以更专注于“思考”,从而做出更准确的决策。
  • 泛化更强:在面对新任务或环境扰动时,分层模型的表现最为稳健。一个好的规划器可以为各种新情况制定出合理的子任务,而执行器只需要专注于完成这些相对简单的子任务即可。
  • 组合更优:当需要同时使用多种规划表征(如结合视觉和语言)时,分层范式的性能远超集成式范式,展现出更好的协同效应。

发现三:任务规划确实能提升性能,但需用对方法

实验同样证实,无论是集成式还是分层式,引入任务规划的VLA模型均显著优于简单的纯动作VLA模型。这说明“先思考再行动”的模式是正确的。
一个有趣的发现是,对于集成式模型,将任务规划作为一种“隐式”的辅助训练目标,效果要好于让模型在推理时“显式”地输出完整规划。强制输出长篇规划反而可能因为规划过程的微小错误而被放大,导致最终任务失败。

迈向通用机器人AGI:VLA-OS的启示与未来

VLA-OS的研究,如同一盏明灯,为迷雾中的机器人AGI探索之路照亮了前行的方向。它用严谨的实验告诉我们:
  1. 未来已来,视觉当先:机器人的“思考”方式可能与人类不同。依赖于扎根在物理世界中的视觉和空间表征,而非抽象的语言,可能是构建高效、鲁棒机器人智能的关键。
  1. 分而治之,大道至简:分层的、各司其职的模块化架构,在处理复杂问题时展现出比“大一统”模型更强的稳定性和泛化能力。这为我们设计更复杂的智能体提供了宝贵的架构参考。
这项工作不仅为学术界提供了一个宝贵的开源工具集,也为工业界开发下一代通用机器人提供了清晰的设计指南。它标志着机器人研究从“炼丹式”的经验尝试,迈向了更加科学、系统化的新阶段。
想要获取更多关于AI大模型AGI的最新AI资讯和深度解读,欢迎访问AI门户网站 AIGC.bar,与我们一同见证人工智能的未来。
Loading...

没有找到文章