Reality Proxy:AI眼镜隔空取物,浙大校友开启人机交互新纪元 | AI新闻

type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)浪潮席卷全球的今天,我们与数字世界的交互方式正经历着前所未有的变革。从键盘鼠标到触摸屏,再到语音助手,每一次进化都让我们离“无缝”体验更近一步。然而,当我们将目光投向混合现实(XR)领域,一个核心挑战始终存在:如何精准、直观地与现实世界中的物体进行数字交互?现在,一项名为Reality Proxy的突破性技术给出了答案,它让AI眼镜拥有了“隔空取物”的能力,而该研究团队中,又有浙大校友的身影。这不仅是一条引人注目的AI新闻,更预示着人机交互(HCI)新纪元的到来。

什么是Reality Proxy?颠覆传统交互的“现实代理”

想象一下,你戴着一副AR眼镜,想要选中远处书架上的一本书,或者控制一群无人机。传统的交互方式,如“光线投射”(ray-casting),往往因为目标过小、视线晃动或手部轻微颤抖而导致选择失败,体验十分笨拙。
Reality Proxy(现实代理)技术彻底改变了这一现状。它并非直接让你去“瞄准”物理实体,而是创建了一个现实物体的抽象数字表示——即“代理”。当你需要与某个物体交互时,系统会自动捕捉你视野范围内的物体,并将它们的“代理”以一种易于操作的形式呈现在你的手边。
简单来说,选中这个代理,就等同于选中了它所代表的真实物体。这种“移花接木”的巧妙设计,彻底摆脱了物理距离、物体大小和操作精度的限制,让交互变得如呼吸般自然。这是人工智能在理解和重构物理空间方面迈出的重要一步,也是迈向“贾维斯”式智能助手的坚实一步。

工作原理:三步实现“心灵手巧”的精准操控

Reality Proxy的魔力源于其背后一套精心设计、逻辑严谨的工作流程,主要分为三个核心步骤:
1. 激活代理:智能捕捉场景结构 当用户做出一个简单的手势(如捏合),系统会立即启动,利用AI场景理解能力,分析用户视线范围内的所有物体及其层级和语义关系。它会默认将用户最可能关注的目标物体,连同其周边的相关物体,一并抽象为交互代理。
2. 生成代理:保留空间关系的数字分身 系统会将上一步捕捉到的场景结构,转化为用户可直接操作的代理对象。这些代理(例如,一系列固定大小的3D矩形)会保留彼此间的相对空间关系,整齐地排列在用户手部附近。这种设计使用户无需费力寻找,就能对眼前世界的布局一目了然。
3. 与代理交互:聚焦现实,无缝反馈 为了让用户的注意力始终聚焦于现实世界,而非手边的数字菜单,Reality Proxy采用了双重反馈机制。当你选中一个代理时,不仅代理本身会高亮,其对应的真实世界物体也会被即时高亮显示。此外,代理们采用了“延迟跟随”机制,它们会平滑地跟随你的手部移动,但又不会对轻微抖动产生反应,确保了操作的稳定与舒适。

不止于选中:探索Reality Proxy的七大“超能力”

Reality Proxy的强大之处远不止于简单的“选中”。它提供了一套丰富的复合交互功能,将人机交互的想象力提升到了新的高度,这些功能是未来AGI应用的雏形:
  1. 浏览预览:手指在代理上轻轻滑过,就能快速预览多本书籍的内容摘要或多个设备的关键信息,无需逐一拿起。
  1. 多对象刷选:用双手捏合,像画框一样在空中划定一个区域,即可瞬间选中框内所有代理对应的现实物体,实现高效的批量操作。
  1. 按属性过滤:长按一个物体的代理,系统会弹出其属性面板(如颜色、材质、品牌)。点击“红色”这个属性代理,现实世界中所有红色的杯子都会被同时选中。
  1. 借助物理表面交互:将代理“放”在真实的桌面上,这张桌子就变成了一块巨大的触摸板。你可以用拖动、缩放等熟悉的手势,在桌面上操控整个场景的物体。
  1. 语义分组:双击一个代理,系统会自动将所有具有相同属性的物体(如同类书籍、同品牌电器)归为一组,方便统一管理。
  1. 空间缩放分组:通过双手的缩放手势,你可以在宏观与微观之间自由穿梭。比如,从查看整栋建筑的布局,瞬间“zoom in”到某一层某个房间的内部细节。
  1. 自定义分组:在空中画一个虚拟的立方体“容器”,然后将任意选中的代理“扔”进去,即可创建自定义分组,方便进行整体操作,如计算一组商品的总价。

应用场景与未来展望:从书房到星辰大海

这项技术的应用前景极为广阔。在日常生活中,你可以在厨房里精准控制微波炉的某个特定部件;在办公室里快速筛选出所需文件。在大型建筑中,它可以成为强大的导航和信息交互工具。在更前沿的领域,如控制动态的无人机集群,Reality Proxy也展示了出色的性能。
研究团队对12名经验丰富的XR开发者进行了评估,结果显示该系统在实用性、易学性和易用性方面获得了普遍好评。参与者认为,它不仅极大地提升了交互效率,减少了身体疲劳,更对行动不便或视力不佳的用户极为友好。
当然,任何前沿技术都有其成长空间,如新手学习曲线和代理定位精度等问题,仍有待大模型和算法的进一步优化。但毫无疑问,Reality Proxy为我们描绘了一幅激动人心的未来图景:一个物理世界与数字信息完全融合,人类通过意图和简单的手势就能与万物高效交互的时代。
想要持续追踪这类改变世界的AI资讯和技术突破吗?敬请关注像 AIGC导航 (aigc.bar) 这样的AI门户网站,获取最新、最前沿的AI日报和深度分析,与飞速发展的人工智能时代保持同步。
Loading...

没有找到文章