灵初智能Psi-R2:10万小时人类数据重塑具身智能新范式

type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能领域,具身智能(Embodied AI)正处于从“实验室演示”向“工业化应用”转型的关键十字路口。长期以来,行业内普遍认为机器人训练需要依赖昂贵的真机遥操作数据,但这一路径在追求大规模落地时显得效率低下且成本高昂。近期,灵初智能发布的Psi-R2与Psi-W0模型,凭借近10万小时的人类操作数据,在MolmoSpaces基准评测中登顶,为行业提供了一种全新的破局思路。

具身智能的数据困局与人类数据红利

具身智能与大语言模型(LLM)不同,它缺乏互联网式的海量现成数据。传统方案过度依赖真机数据,导致数据采集慢、节拍不真实,难以适应复杂的真实场景。灵初智能敏锐地捕捉到了这一痛点,将目光投向了人类每天完成的高频、精细操作数据。
这些数据天然携带了真实物理世界的节拍与操作逻辑,是机器人学习复杂任务的“黄金矿藏”。灵初智能通过自研的MobiDex数采平台及高精度感知硬件,弥补了人手与机械手之间的运动学差异(Embodiment Gap),成功将大规模人类数据转化为机器人可理解的知识底座。想要获取更多全球领先的AI资讯,欢迎访问 AI门户

拒绝过度对齐:raw data in, raw data out

在模型设计上,灵初智能走了一条务实的路线。他们发现,在处理长程、精细任务时,强行进行图像修补或特征空间对齐往往会成为性能瓶颈,甚至抹平了人和机器人在物理交互上的必要差异。
因此,Psi-R2采取了更为简洁的架构:只做必要的输入输出维度对齐,将原始人类关节数据直接映射至机器人,确保模型能够学习到真实的物理交互细节。这种“raw data in, raw data out”的策略,使得模型在面对复杂环境时展现出了极强的泛化能力。

系统协同:Psi-R2与Psi-W0的飞轮效应

灵初智能的成功并非依赖单一模型,而是构建了一套完整的系统协同方案:
  • Psi-R2:作为策略模型,负责从大规模人类数据中学习任务知识,通过图像与语言输入预测动作轨迹。
  • Psi-W0:担任世界模型角色,不仅预测未来视频,更通过引入约30%的失败数据,建模反事实和试错空间,成为评估与打磨策略的“训练场”。
  • 强化学习闭环:通过将人类示范轨迹送入Psi-W0进行模拟,并在机器人动力学约束下进行小步修正,实现了数据飞轮的持续运转。
这种系统性的设计,确保了机器人能够从“学会怎么做”进化到“理解为什么会失败”,极大提升了作业的稳定性和良率。

从论文到工业现场的跨越

技术的先进性最终需由落地场景来检验。灵初智能通过DiT Caching、Torch Compile等工程优化,将单次推理时间压至100毫秒以内,这为机器人在工厂、仓储等实时性要求极高的场景中部署铺平了道路。
在MolmoSpaces这一全球具身智能权威基准平台上,Psi-R2以46.4的Oracle Success Rate排名第一,超越了多项国际知名模型。这一成绩不仅证明了灵初智能自主研发路线的竞争力,更标志着具身智能行业开始进入一个更加公开、可量化的评价时代。
总结而言,灵初智能通过Psi-R2证明了,具身智能的下一阶段竞争不再是谁能做出更炫酷的demo,而是谁能率先将人类数据、世界模型与强化学习连成一条持续增长的曲线。随着AGI时代的到来,这种基于真实人类经验的规模化路径,或将成为机器人走向通用化的必经之路。欲了解更多大模型、人工智能最新动态,请关注 AIGC.BAR
Loading...

没有找到文章