Ψ₀基座模型开源：超越GR00T的人形机器人大模型，最新AI资讯

type

status

date

slug

summary

告别盲目堆砌数据：Ψ₀的高效数据解耦策略

在当前的人工智能与机器人研究中，主流策略往往依赖于海量的遥操作数据。然而，采集高质量的机器人真机数据成本极高。为了降低成本，许多研究者尝试将人类第一视角视频（Egocentric human videos）与少量机器人数据混合训练。

但Ψ₀的研究团队敏锐地发现：简单粗暴地将人类数据与机器人数据混合，会迫使大模型同时学习两种分布差异巨大的数据，反而削弱了模型的学习效率。这就好比让一个初学者同时学习两门完全不同的外语，极易产生混淆。

为此，Ψ₀提出了一套定制化的遥操作框架，将上半身姿态、灵巧手与行走控制进行“解耦”。通过PICO头显、手腕追踪器和MANUS数据手套，操作者可以单人完成全身控制，有效规避了传统VR追踪中的遮挡问题。这意味着，Ψ₀仅需80条高质量的真机遥操作数据，就能快速掌握复杂的新技能，彻底打破了传统模型对海量真机数据的依赖。

经典三阶段训练范式：从人类先验到精准控制

为了最大化不同类型数据的价值，Ψ₀采用了一种极具启发性的三阶段训练配方（Training Recipe），这为整个LLM和具身智能领域提供了新的范本：

预训练阶段（提取先验知识）：模型首先在约829小时的人类第一视角视频（EgoDex）上进行自回归预训练。这一步的目的不是为了精准控制，而是让视觉语言模型（VLM）学习高层次的视觉理解与动作语义，建立起对物理世界的常识。

后训练阶段（多模态动作专家）：在冻结VLM参数后，Ψ₀引入了基于流匹配（Flow Matching）的多模态扩散动作专家（MM-DiT）。利用跨任务的真实人形机器人数据，模型学会了如何将高层的语义理解转化为精确的关节控制。

微调阶段（快速适应）：最后，在针对特定任务收集的极少量真机数据上进行微调。这使得模型能够在保持通用能力的同时，快速适应如“倒水”、“推车”等具体场景。

大脑与小脑的完美协同：三大系统架构解析

在模型架构上，Ψ₀同样秉持着“解耦”的哲学，将复杂的全身控制任务拆解为三个各司其职的子系统：

System-2（视觉语言大脑）：以Qwen3-VL-2B-Instruct为基座，负责高维度的视觉场景理解和语言指令解析。这就像是我们日常使用chatGPT或claude时，输入一段提示词（Prompt），大脑需要先理解任务的意图。

System-1（多模态扩散动作专家）：在接收到大脑的指令后，这个约5亿参数的MM-DiT模块负责生成具体的动作片段（Action Chunk）。它能高效融合视觉、语言和动作特征。

System-0（强化学习运动控制器）：负责底层的稳定执行。上半身的动作直接下发，而下半身的移动指令则交由基于强化学习的控制器，转化为精准的腿部和腰部关节运动。

实时动作分块（RTC）：丝滑执行复杂任务的秘密

对于人形机器人而言，哪怕是几百毫秒的推理延迟，都会导致动作卡顿或剧烈抖动。随着模型参数量的激增，这一问题愈发凸显。

为了实现一倍速的丝滑控制，Ψ₀在训练阶段创新性地引入了实时动作分块（RTC）机制。在预测未来动作时，模型会将上一段已经提交执行的动作作为条件输入。同时，在训练中模拟真实的推理延迟，随机屏蔽部分扩散噪声。这种机制使得Ψ₀在执行拧水龙头、擦碗、叠碗等精细操作时，动作连贯自然，彻底告别了传统机器人“走走停停”的僵硬感。

拥抱具身智能的未来与AI变现新机遇

在八项涵盖抓取、推物、全身协调的真实场景评测中，Ψ₀以压倒性的优势证明了自己。其平均成功率不仅超越了现有的基线方法，更是在训练数据量不到对手十分之一的情况下，击败了由NVIDIA支持的GR00T-N1.6。

Ψ₀的开源不仅是技术上的胜利，更是对“Scaling Law”在机器人领域应用的一次深刻反思：有效的发展不是盲目堆砌数据，而是用合适的数据、以正确的架构进行训练。这为未来的AI变现提供了全新的思路——通过低成本、高效率的基座模型，加速人形机器人在工业制造、家庭服务等场景的商业化落地。

在这个AI技术日新月异的时代，无论是关注openai的最新动向，还是探索通用人工智能的边界，获取一手的高质量信息至关重要。想要获取更多前沿的AI资讯、浏览最新的AI日报以及探索前沿科技的新路径，欢迎持续关注领先的AI门户 AIGC.BAR。我们将与您一起，见证通用机器人迈向更加开放、充满可能性的未来。