灵初智能Psi-R2：10万小时人类数据重塑具身智能新范式

type

status

date

slug

summary

具身智能的数据困局与人类数据红利

具身智能与大语言模型（LLM）不同，它缺乏互联网式的海量现成数据。传统方案过度依赖真机数据，导致数据采集慢、节拍不真实，难以适应复杂的真实场景。灵初智能敏锐地捕捉到了这一痛点，将目光投向了人类每天完成的高频、精细操作数据。

这些数据天然携带了真实物理世界的节拍与操作逻辑，是机器人学习复杂任务的“黄金矿藏”。灵初智能通过自研的MobiDex数采平台及高精度感知硬件，弥补了人手与机械手之间的运动学差异（Embodiment Gap），成功将大规模人类数据转化为机器人可理解的知识底座。想要获取更多全球领先的AI资讯，欢迎访问 AI门户。

拒绝过度对齐：raw data in, raw data out

在模型设计上，灵初智能走了一条务实的路线。他们发现，在处理长程、精细任务时，强行进行图像修补或特征空间对齐往往会成为性能瓶颈，甚至抹平了人和机器人在物理交互上的必要差异。

因此，Psi-R2采取了更为简洁的架构：只做必要的输入输出维度对齐，将原始人类关节数据直接映射至机器人，确保模型能够学习到真实的物理交互细节。这种“raw data in, raw data out”的策略，使得模型在面对复杂环境时展现出了极强的泛化能力。

系统协同：Psi-R2与Psi-W0的飞轮效应

灵初智能的成功并非依赖单一模型，而是构建了一套完整的系统协同方案：

Psi-R2：作为策略模型，负责从大规模人类数据中学习任务知识，通过图像与语言输入预测动作轨迹。

Psi-W0：担任世界模型角色，不仅预测未来视频，更通过引入约30%的失败数据，建模反事实和试错空间，成为评估与打磨策略的“训练场”。

强化学习闭环：通过将人类示范轨迹送入Psi-W0进行模拟，并在机器人动力学约束下进行小步修正，实现了数据飞轮的持续运转。

这种系统性的设计，确保了机器人能够从“学会怎么做”进化到“理解为什么会失败”，极大提升了作业的稳定性和良率。

从论文到工业现场的跨越

技术的先进性最终需由落地场景来检验。灵初智能通过DiT Caching、Torch Compile等工程优化，将单次推理时间压至100毫秒以内，这为机器人在工厂、仓储等实时性要求极高的场景中部署铺平了道路。

在MolmoSpaces这一全球具身智能权威基准平台上，Psi-R2以46.4的Oracle Success Rate排名第一，超越了多项国际知名模型。这一成绩不仅证明了灵初智能自主研发路线的竞争力，更标志着具身智能行业开始进入一个更加公开、可量化的评价时代。

总结而言，灵初智能通过Psi-R2证明了，具身智能的下一阶段竞争不再是谁能做出更炫酷的demo，而是谁能率先将人类数据、世界模型与强化学习连成一条持续增长的曲线。随着AGI时代的到来，这种基于真实人类经验的规模化路径，或将成为机器人走向通用化的必经之路。欲了解更多大模型、人工智能最新动态，请关注 AIGC.BAR。