AI视觉革命:ObjectRelator打通第一/第三人称视角,引领具身智能新浪潮,深入了解AI新闻资讯就上aigc.bar
type
status
date
slug
summary
tags
category
icon
password
网址
引言:打破视角的次元壁
在人工智能(AI)的宏伟蓝图中,让机器像人一样理解和与物理世界互动,即具身智能,始终是核心追求。人类在学习一项技能时,如观看烹饪教程,能自如地在第三人称的演示视角(Exo)和自己动手的第一人称视角(Ego)之间切换。然而,这种跨视角的“通感”能力,长期以来却是AI难以逾越的鸿沟。
近日,由INSAIT、复旦大学等顶尖机构联合提出的ObjectRelator框架,在这一关键领域取得了突破性进展。该研究不仅让AI首次精准匹配不同视角下的同一物体,更在跨视角视觉理解任务上达到了新的SOTA(State-of-the-Art)水平,其相关论文已被计算机视觉顶级会议ICCV 2025接收为Highlight。这不仅是一次技术的飞跃,更预示着机器人学习、虚拟现实(VR)交互等领域即将迎来新的变革。想获取更多前沿的AI资讯,可以访问AI门户网站
https://aigc.bar
。跨视角理解:具身智能的“最后一公里”
第一人称(Ego)与第三人称(Exo)视角各有优劣,二者之间的不兼容性构成了当前人工智能发展的一大瓶颈。
- 第一人称视角(Ego-view):提供了沉浸式的体验,能捕捉到主体与环境交互的丰富细节。例如,在机器人抓取任务中,Ego视角能清晰地展现机械臂与物体的相对位置和姿态。但其缺点也同样明显:视野狭窄、画面抖动剧烈,难以提供场景的全局信息。
- 第三人称视角(Exo-view):拥有广阔的视野和稳定的画面,能完整呈现主体在环境中的位置、动作的整体流程和时空关系。然而,在这种视角下,目标物体通常尺寸较小,细节模糊,交互的精细之处容易丢失。
如何让AI像人一样,在观看Exo视角的演示后,能准确地在自己的Ego视角下复现操作?这需要在物体层面上建立两个视角间的精确对应关系。这正是ObjectRelator试图解决的核心难题,也是打通具身智能“最后一公里”的关键所在。
现有方法的困境:为何SAM也无能为力?
尽管近年来涌现了如SAM(Segment Anything Model)等强大的图像分割大模型,但它们大多被设计用于处理单一图像或单一视角,面对跨视角物体分割任务时显得力不从心。
即便是少数能处理双视角输入的模型(如PSALM),在真实的Ego-Exo场景中也面临两大严峻挑战:
- 复杂的背景干扰:真实世界场景充满了与目标物体在形状、颜色上高度相似的干扰物。例如,在复杂的厨房环境中,模型很容易将一把银色刀具误识别为水龙头或其他金属制品。仅依赖视觉特征进行匹配,极易导致混淆和失败。
- 显著的视觉变换:同一个物体在两个视角下的外观可能天差地别。在Exo视角中可能只是一个小点,到了Ego视角下则占据大半个屏幕。姿态、光照、遮挡的巨大差异,使得物体的视觉特征发生剧烈变化,这对模型的鲁棒性提出了极高的要求。
ObjectRelator的核心创新:语言与视觉的“通感”
为了攻克上述难题,ObjectRelator创造性地引入了两大核心模块,赋予了AI前所未有的跨视角理解能力。
多模态条件融合 (MCFuse):让AI不仅“看懂”还“听懂”
ObjectRelator的第一个创举是将语言描述引入跨视角分割任务。它不再让模型单纯地“看形状”,而是让它“懂语义”。具体来说,MCFuse模块利用预训练的视觉语言模型(如LLaVA)为需要查询的物体生成一句简短的文本描述,例如“一把黑色的剪刀”。
这句描述作为一种强大的语义先验知识,与视觉特征进行深度融合。通过交叉注意力机制和动态权重调整,模型能够将注意力集中在符合“黑色剪刀”这一语义描述的物体上,从而有效过滤掉背景中形状相似但语义错误的干扰物。这标志着LLM的能力正被深度整合到计算机视觉任务中,实现更高级的智能。
跨视角对象对齐 (XObjAlign):塑造“视角不变”的火眼金睛
为了解决物体在不同视角下的外观剧变问题,ObjectRelator提出了XObjAlign模块,采用了一种巧妙的自监督对齐策略。在训练过程中,模型被要求同时提取同一物体在Ego和Exo视角下的特征,并通过一个一致性损失函数(consistency loss)来“拉近”这两个特征表示的距离。
这意味着,模型被强制学习一种“视角不变”的内在表示。无论物体从哪个角度被观察,模型都能将其映射到特征空间中的相似位置。这种能力使得ObjectRelator在面对剧烈的视角变化时,依然能保持稳定、准确的识别能力,极大地提升了模型的泛化性和鲁棒性。
SOTA性能与强大泛化力:实验数据见真章
ObjectRelator在两大权威跨视角数据集Ego-Exo4D和HANDAL-X上进行了全面验证,结果令人瞩目。
- 性能卓越:在Ego→Exo和Exo→Ego的双向任务中,ObjectRelator的性能均显著超越了包括PSALM在内的所有基线模型,关键指标IoU提升高达5.1%,稳居SOTA地位。
- 泛化能力强:更令人印象深刻的是其强大的泛化能力。在一个数据集(如Ego-Exo4D)上训练好的模型,无需任何微调,直接在全新的场景(如HANDAL-X)下进行零样本测试,其性能远超那些在传统大数据集(如COCO)上训练的模型。这充分证明,ObjectRelator学到的是一种可迁移的、通用的跨视角理解能力,而非对特定场景的死记硬背。
结语:从“看见”到“理解”,开启AI交互新纪元
ObjectRelator的出现,不仅仅是计算机视觉领域的一项技术突破,它更像是为具身智能机器人装上了一双能够“感同身受”的眼睛。通过巧妙地融合语言的语义力量和视觉的表征学习,它成功打通了第一人称与第三人称视角之间的壁垒。
这项工作为机器人模仿学习、人机协作、增强现实等前沿应用开辟了全新的可能性。未来,我们或许能看到机器人通过观看人类视频,就能快速学会复杂的家务劳动;VR/AR设备也能更精准地理解用户的意图,提供前所未有的沉浸式交互体验。
人工智能的边界正在被不断拓宽。要持续关注这类激动人心的AI新闻和大模型的最新进展,欢迎访问一站式AI信息与服务平台
https://aigc.bar
,获取最快、最全的行业动态。Loading...