北大EvoVLA具身智能突破:消除机器人幻觉,长序列任务成功率暴涨

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
具身智能(Embodied AI)正处于技术爆发的前夜,从谷歌的RT-X到开源社区的OpenVLA,通才机器人策略正在展现出惊人的潜力。然而,随着任务复杂度的提升,现有的视觉语言动作(VLA)模型暴露出了一个致命的短板——“幻觉”。
在涉及数十个步骤的长程操作任务中,机器人经常会出现“明明没做完,却以为自己做完了”的尴尬局面。针对这一痛点,北京大学研究团队提出了一种全新的自监督VLA框架——EvoVLA。这项研究不仅在学术界引起了轰动,更是AI资讯领域关注的焦点。本文将深入解读EvoVLA如何通过“AI教AI”的方式,解决机器人的“白日梦”问题,推动AGI在实体世界的落地。更多前沿AI新闻大模型动态,欢迎访问 AIGC.BAR

机器人的“高分低能”与阶段性幻觉

在长序列任务(如搭建复杂的积木桥)中,现有的VLA模型经常陷入一种被称为“阶段性幻觉”(Stage Hallucination)的状态。简单来说,只要机械臂移动到了目标附近,即便方块滑落、没对齐或者根本没夹住,基于视觉语言模型(VLM)的评估系统往往会因为视觉上的相似性,给出一个很高的预测分数。
这种现象导致机器人自信地跳过当前步骤进入下一阶段,最终导致整个任务崩溃。这就好比一个学生只写了“解:”字,就以为自己做完了整道大题。为了解决这个问题,EvoVLA应运而生,它在OpenVLA-OFT架构之上,引入了自监督强化学习(SSRL)闭环,旨在让模型在“自省”中进化。

阶段对齐奖励(SAR):打造AI的“错题集”

EvoVLA解决幻觉问题的核心杀手锏是“阶段对齐奖励”(SAR)。传统的奖励函数往往过于稀疏(只有成功或失败),或者基于像素变化,容易被背景干扰。EvoVLA创造性地利用强大的LLM(如Gemini)作为“严厉的老师”,构建了一套精细的数据引擎。
为了防止模型“走捷径”,研究团队引入了三元组对比学习,特别是构建了“硬负样本”(Hard Negative)。 * 正样本:任务完成的准确描述。 * 硬负样本:这是关键,描述那些“差一点就成功”的状态,例如“夹爪在目标附近但未接触”。
通过这种方式,模型被迫去学习区分“真正完成”和“看起来像完成”,从而获得密集的、语义一致的内在奖励信号。这种利用大模型生成“错题集”来反哺策略学习的方法,是人工智能自我进化范式的一次重要尝试。

基于姿态的物体探索(POE):告别无效的视觉噪点

除了判断对错,机器人还需要有探索未知的好奇心。然而,传统的内在好奇心奖励通常基于像素预测误差。在复杂的机器人场景中,光照变化或背景噪点都会带来巨大的预测误差,导致机器人去探索无意义的视觉噪声。
EvoVLA提出了POE(Pose-Based Object Exploration),训练了一个轻量级的世界模型,不再预测图像像素,而是预测相对几何姿态。这意味着机器人的好奇心被引导去探索“如何改变物体与夹爪的相对位置”,而非“图像像素变了多少”。这使得探索过程极其高效,专注于操作任务本身的几何结构,体现了AI在物理世界感知层面的深度优化。

长程记忆与SOTA级性能提升

面对几十步的操作,机器人很容易“捡了芝麻丢了西瓜”。EvoVLA并没有简单地压缩历史,而是采用了一种基于注意力的上下文选择机制。它从历史库中检索最相关的Token,并通过门控机制融合到当前状态中。这就像人类在做复杂任务时,只回忆那些对当下决策有用的关键步骤。
实验结果显示,EvoVLA在仿真环境和真机上均取得了SOTA级的提升: 1. 成功率暴涨:平均成功率达到69.2%,相比最强基准OpenVLA-OFT提升了10.2%。 2. 幻觉消除:阶段幻觉率从38.5%大幅降至14.8%。 3. Sim2Real泛化:在真实机器人AIRBOT-Play上,EvoVLA展示了极强的泛化能力,平均成功率达到54.6%。

结语

EvoVLA的出现,为解决VLA模型在长程任务中的可靠性问题提供了一个优雅的解法。它证明了更好的奖励设计、更本质的探索机制以及更聪明的记忆,可以让大模型在具身智能领域走得更远。这种“自我进化”的范式,或许正是通往通用机器人自主学习的关键一步。
随着技术的不断迭代,我们有理由相信,具备更高认知能力的机器人将很快走进我们的生活。想要获取更多关于AI变现Prompt技巧以及最新的AI日报,请持续关注 AIGC.BAR,这里有最全面的AI门户信息助您把握未来趋势。
Loading...

没有找到文章