阿里达摩院开源RynnBrain:3B参数性能超72B,具身智能迎来时空记忆
type
status
date
slug
summary
tags
category
icon
password
网址

引言:具身智能的“健忘症”难题
你是否想象过,斥巨资买回家的全能家务机器人,在帮你拿药的途中,仅仅因为转了个身,就对着桌上的可乐陷入沉思,最后却抓起了遥控器?这种“智商欠费”的尴尬现状,是当前具身智能机器人面临的普遍痛点。
传统的视觉语言模型(VLM)大多是“缸中之脑”,它们虽然阅遍了互联网上的图文数据,却从未真正理解物理世界的深度、连续性与因果关系。由于缺乏对三维空间的感知,机器人无法像人类一样建立空间坐标系,导致它们“转身就忘”。针对这一难题,阿里达摩院正式开源了 RynnBrain 具身大脑基础模型,旨在为机器人装上一个真正理解“时”与“空”的大脑。
欲了解更多前沿 AI资讯 和 AI新闻,请访问 AIGC.BAR。
极致效率:3B激活参数性能超越72B
RynnBrain 的核心优势在于其“小而美”的架构设计。作为业界首个采用MoE(混合专家)架构的具身基础模型,RynnBrain-30B-A3B 展现了令人惊叹的效率:虽然总参数量较大,但推理时仅需 3B 的激活参数,其性能却全面超越了拥有 72B 规模的当前最大具身模型 Pelican-VL。
对于对算力和功耗极其敏感的机器人端侧设备而言,更小的激活参数意味着更快的响应速度和更低的硬件成本。此外,达摩院自研的 RynnScale 架构对训练速度进行了深度优化,使训练效率提升至200%。这种高效的迭代能力,让 RynnBrain 能够快速进化,为 AGI 走进物理世界奠定了坚实的算力基础。
首创时空记忆:赋予机器人“全局回溯”能力
为什么 RynnBrain 能解决“转身就忘”的问题?关键在于它拥有的“时空记忆”能力。
- 多维度表征:传统的 LLM 处理视频时往往是离散的帧,而 RynnBrain 在完整的历史记忆中构建了一个涵盖空间、位置、事件与轨迹的表征。
- 长程任务处理:在执行如“洗菜并放进冰箱”这类复杂任务时,即使机器人转身离开水池,它的“大脑”依然清晰记得水池的方位和菜品的具体位置。
- 任务断点续传:即使任务中途被干扰或需要绕路,RynnBrain 也能准确找回之前的任务节点,确保执行的连续性。
这种能力让机器人从单纯的视觉识别,进化到了具备物理常识的“空间思考者”。
物理空间推理:文本与定位的深度解耦
RynnBrain 采用了一种创新的“文本与空间定位交错”的推理策略。在处理指令时,它不仅生成语言判断,还会同步输出对应的空间坐标、轨迹和点集。
例如,当接收到“拿苹果”的指令时,模型的推理过程是:首先走向[坐标A:桌子],然后精准对准[坐标B:苹果],并自动避开[点集C:障碍物]。这种将推理结果与物理世界坐标强制绑定的方式,大幅降低了具身任务中常见的“幻觉”问题。
为了训练这种能力,达摩院投入了超过2000万对高质量语料,并特别生成了100万对“自我为中心”的OCR数据,让机器人能看懂药瓶标签、门牌号等现实细节。这标志着 大模型 在具身认知领域的又一次重大突破。
开源生态:打破具身智能的研发门槛
达摩院此次不仅开源了模型,还配套开放了完整的推理训练代码及 RynnBrain-Bench 评测基准。这一举措旨在系统性地修复具身认知的断层:
- 降低研发门槛:开发者无需重复造轮子,可直接利用 RynnBrain 提供的物理常识作为基础设施。
- 统一系统认知:使导航、规划与操作模块在统一的表征下达成一致,实现信息的无损流转。
- 驱动行业协作:通过统一的评测标尺,推动 人工智能 行业在具身智能领域的良性竞争。
结论:通往真实物理世界的大门
具身智能的未来不在于堆砌参数,而在于机器人能否丝滑、可靠地与物理世界交互。RynnBrain 的出现,通过分层架构(大脑负责规划,小脑负责执行)为行业提供了一个可落地的标准范式。
随着 RynnBrain 的开源,一个百花齐放的具身智能生态正在开启。我们期待看到更多开发者基于这一基座,创造出真正能走进千家万户、不翻车的全能机器人。
获取更多关于 Prompt 优化、AI变现 及 LLM 的深度解析,欢迎持续关注 AIGC.BAR,掌握一手 AI日报 动态。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)