EgoAgent:AI新范式,统一感知行动预测迈向AGI | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址

引言:让AI像我们一样学习

人类是如何学习的?我们并非被动地观看世界的图片,而是在与环境的持续互动中,形成对世界的理解。我们看到一个飞来的球(感知),会下意识地伸出手臂(行动),并预判球的落点(预测)。这三者是一个密不可分的整体。然而,长期以来,人工智能(AI)的发展却将它们割裂。如今,这一壁垒正被打破。来自浙江大学、香港中文大学等顶尖研究机构的学者们在ICCV 2025上提出了一个名为EgoAgent的颠覆性模型,它首次将感知、行动和预测三大核心能力融为一体,为大模型的发展乃至通用人工智能(AGI)的实现,描绘了一条全新的、更接近人类认知本质的道路。

灵感溯源:从“具身认知”到统一AI模型

EgoAgent的核心思想源于认知科学中的两大理论:具身认知(Embodied Cognition)共同编码理论(Common Coding Theory)。这些理论认为,我们的感知系统和动作系统并非独立运作,而是在一个共享的表征空间中相互影响、共同演化。简单来说,我们的“所见”塑造了我们的“所为”,而“所为”又反过来改变了我们的“所见”。
传统的AI模型,包括许多强大的LLM,往往将这些任务分开处理:一个模型负责看懂图像(感知),另一个模型负责生成动作(控制),还有一个模型负责推演未来(预测)。这种“分而治之”的策略虽然在特定任务上取得了成功,但却失去了它们之间至关重要的协同效应。EgoAgent正是要纠正这一点,它旨在构建一个统一的智能体,能够从第一人称视角出发,像人类一样在与世界的动态交互中,同时学习这三项核心技能。

技术核心:JEAP架构如何实现“三位一体”?

为了实现这一宏大目标,研究团队设计了一个名为JEAP(Joint Embedding-Action-Prediction)的创新架构。该架构在一个统一的Transformer框架内,通过精巧的设计实现了感知、行动、预测的联合学习,真正做到了“1+1+1 > 3”。
其核心机制可以概括为以下几点:
  • “状态-动作”交错式联合预测:模型不再孤立地处理视频帧(状态)或动作数据,而是将它们编码成一个交错的序列,如“状态1-动作1-状态2-动作2...”。通过这种方式,模型能够在一个时间流中同时学习到“感知如何引发动作”以及“动作如何改变世界”这两种关键的因果关系。
  • “预言家”与“观察者”的协同机制:EgoAgent内部设有两个协作分支。预测器(Predictor)像一个学生,根据过去的信息努力预测未来的世界状态和身体动作。而观察者(Observer)则像一位掌握了标准答案的老师,它直接编码未来的真实信息,为预测器的学习提供监督信号。这种类似Teacher-Student的框架,让模型不仅能在时间维度上进行自监督学习,还能在静态图像上进行对比学习,从而强化了视觉表征的稳定性和一致性。
  • 在语义空间中学习:与一些试图在像素层面重建未来的模型不同,EgoAgent在更高维、更抽象的语义嵌入空间中进行预测和学习。这更符合人类的认知方式——我们预测未来时,想到的是“球会落下”,而不是球在下一帧中每一个像素的具体颜色。这种方法极大地提升了模型的效率和预测性能。

性能卓越:EgoAgent在三大任务中的突破

EgoAgent的联合学习范式带来了惊人的性能提升,在三个关键任务上均取得了业界领先(SOTA)的成果。
  1. 第一视角世界状态预测:在预测未来世界状态的任务中,EgoAgent展现了超凡的能力。相较于最新的第一视角视觉表征模型DoRA,一个3亿参数的EgoAgent在Top1准确率上实现了12.86%的惊人提升。这表明它不仅能看懂图像,更能深刻理解动作与环境之间的时序因果,从而做出更精准的预判。
  1. 三维人体动作预测:根据第一人称视角和历史动作,EgoAgent能够生成连贯、逼真的未来三维人体运动。在定量评估中,其预测误差(MPJPE)低于包括Diffusion Policy在内的专用模型,展现了其对人体运动学的深刻建模能力,即使是预测视频中不可见的身体部位,也保持了高准确度。
  1. 视觉表征与迁移学习:联合学习范式催生了更强大、更通用的视觉表征。在ImageNet-1K图像分类任务上,EgoAgent-1B的性能超越了DoRA。更关键的是,在TriFinger机器人操作模拟器中,EgoAgent仅用少量演示数据微调后,就在抓取和移动方块等具身操作任务中取得了最高的成功率。这充分证明,一个懂得“行动”的AI,能学到更具“可操作性”的视觉理解,这对于具身智能的发展至关重要。
消融实验进一步证实,这三项任务缺一不可。移除任何一项,其他任务的性能都会下降,这有力地证明了联合学习产生的正向协同效应。

结论:迈向更完整的AI智能体

EgoAgent的出现,不仅仅是一个新模型的发布,它更代表了一种AI学习范式的转变——从被动观察到主动交互,从任务分离到能力统一。这为人工智能的未来发展指明了方向。
这项技术在机器人、AR/VR、智能可穿戴设备等领域拥有广阔的应用前景,有望让机器以更自然、更智能的方式与物理世界互动。它让我们离那个能够像人一样感知、思考、行动和预测的AGI梦想,又近了一步。
想要获取更多前沿的AI资讯和深度解读,敬请关注AI门户网站 https://aigc.bar,每日更新最新的AI日报大模型动态。
Loading...

没有找到文章