北大ManualVLA深度解读:首个“生成-理解-动作”一体化模型如何重塑具身智能 | AINEWS
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能与机器人技术融合的浪潮中,具身智能(Embodied AI)正迎来关键突破。长期以来,机器人虽然在简单的抓取或移动任务上表现尚可,但一旦面对类似“乐高积木拼搭”或“复杂物体重排”这种需要长时序规划与精细操作结合的任务,往往显得力不从心。传统的方案要么过于依赖人工预设的规则,要么在“大脑”规划与“手脚”执行之间存在割裂。
近期,北京大学、香港中文大学与至简动力团队联合发布了 ManualVLA,这标志着具身智能领域的一个重要里程碑。作为首个长程“生成–理解–动作”一体化模型,ManualVLA 不仅打破了传统分层级联的局限,更创造性地让机器人学会了“自己写说明书,再照着做”。本文将深入解读这一创新模型的核心机制及其对未来 AI 发展的深远影响。
具身智能的痛点:长程任务中的“脑手不协调”
在深入 ManualVLA 之前,我们需要理解当前 大模型 在机器人领域面临的核心挑战。视觉–语言–动作(VLA)模型虽然展现了通用的场景理解能力,但在处理长周期任务时存在两个难以调和的矛盾:
- 终态对齐的精准度:任务往往有一个严格定义的最终状态(比如乐高拼好的特定形状),模型必须在漫长的操作序列中始终保持对这个目标的“记忆”和执行精度。
- 规划与控制的断层:现有的主流方法(如 π0 等端到端模型)往往难以兼顾高层的宏观规划(先拿哪块积木)和底层的微观控制(手爪移动多少毫米)。分层方法虽然试图解决这个问题,但往往依赖人工制作的演示或说明书,导致系统难以泛化,部署成本极高。
简而言之,机器人要么“想得好但做不到”,要么“做得好但不知道下一步该干嘛”。ManualVLA 正是为了解决这种“脑手不协调”而生。
ManualVLA 的核心突破:MoT 架构与一体化协同
ManualVLA 的最大创新在于它摒弃了将“大脑”和“小脑”分开设计的传统思路,而是构建了一个基于 Mixture-of-Transformers (MoT) 的统一基础模型。在这个架构下,“规划专家”和“动作专家”不再是两个独立的个体,而是同一个大脑中的不同功能区,实现了多模态生成与动作执行的紧密协同。
这种架构设计的精妙之处在于:
- 统一的 VLA 模型:ManualVLA 将 Janus-Pro 1B 拓展到 MoT 架构,使得模型既能像 LLM 一样理解语言和图像,又能像运动控制器一样输出精确的动作指令。
- 闭环协作:系统不再是一次性规划完所有步骤,而是采用“生成-执行-再生成”的闭环模式。规划专家生成一步操作的“说明书”,动作专家执行完毕后,系统感知新状态,再生成下一步说明书。这种逐步推进的方式,将复杂的长时序任务拆解成了可控的短阶段。
ManualCoT:让机器人拥有“思维链”
如果说 MoT 架构是 ManualVLA 的骨架,那么 ManualCoT(Manual Chain-of-Thought) 机制就是它的灵魂。这是一种显式与隐式相结合的推理机制,极大地增强了机器人对任务的理解和执行能力。
ManualCoT 通过两条路径同时作用于动作生成:
- 显式路径(看得见的指引):规划专家会生成一张“提示图”,直接在当前视野中用类似荧光笔的方式圈出目标位置(Visual Prompt)。这就像老师手把手教学生:“看这里,把这块积木放到这个圈里。”动作专家直接利用这一视觉输入进行操作。
- 隐式路径(潜意识的引导):除了看得见的图像,规划专家生成的文字描述、坐标信息以及对未来的预测(子目标图像),都会转化为内部特征(Attention mask),通过注意力机制“喂”给动作专家。这相当于在机器人的潜意识里不断强化:“我现在要做什么,做完之后世界应该变成什么样。”
消融实验的数据强有力地证明了这一点:只有当显式提示和隐式引导结合时,机器人在长任务中的成功率才能达到最佳。
数据生成的艺术:数字孪生与三阶段训练
为了训练这样一个复杂的 人工智能 系统,研究团队设计了一套精妙的三阶段训练流程,解决了高质量数据稀缺的问题。
- 第一阶段:动作基础。利用互联网机器人数据集,让模型先学会基本的抓取、搬运和放置技能,打好“基本功”。
- 第二阶段:虚拟演练。这是最关键的一步。团队利用基于三维高斯表示(3D Gaussian Splatting)的数字孪生工具,在虚拟空间中重建了乐高积木和桌面物体。在虚拟世界里,系统可以不知疲倦地进行成千上万次随机排列组合,自动生成带有精确标注的“说明书”数据。这种合成数据极大地降低了训练成本。
- 第三阶段:真机实战。最后,在真实的双臂机器人平台上采集少量专家示范轨迹,进行联合微调(Fine-tuning),让模型适应物理世界的摩擦、光照等真实因素。
实验表现:超越 SOTA 的实战能力
ManualVLA 的实力并非停留在论文上,在真机实验和仿真环境中都表现出了显著优势。
在现实世界的 2D/3D 乐高组装和物体重排任务中,ManualVLA 的平均成功率比当前最强的分层基线方法高出约 32%。特别是在长序列任务中,随着步骤增加,基线模型的性能往往大幅下降,而 ManualVLA 凭借其强大的 ManualCoT 策略,依然能保持稳定的高成功率。
在 RLBench 仿真测试中,它也以 70% 的平均成功率超越了 SOTA 方法 π0 的 63%。这证明了“自己生成说明书”这一范式在通用原子任务上的有效性。
总结与展望
ManualVLA 的发布,不仅是一个新模型的诞生,更是具身智能领域的一次思维范式转换。它证明了将高层规划与底层控制统一在一个模型中,并通过显隐结合的思维链进行引导,是解决长程复杂任务的有效路径。
随着 AGI(通用人工智能)研究的深入,像 ManualVLA 这样具备自主规划、自我指导能力的模型,将是未来智能机器人走进家庭、工厂的关键。它让我们看到了机器人不再只是执行指令的机械臂,而是能够理解世界、规划未来并精准行动的智能体。
想要了解更多关于 AI、大模型 以及前沿科技资讯,请持续关注 AINEWS。我们将为您带来最及时、最深度的行业报道。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)