Ψ₀基座模型开源:超越GR00T的人形机器人大模型,最新AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址

在每天海量的AI资讯和AI新闻中,具身智能(Embodied AI)无疑是通向AGI(通用人工智能)的关键拼图。当我们看惯了机器人在舞台上翻跟头、跳舞后,一个直击灵魂的问题浮现:机器人究竟何时能真正走进千家万户,像人类一样处理琐碎的日常家务?
近日,南加州大学Psi-Lab联合NVIDIA与WorldEngine,正式开源了迈向通用人形机器人的基座模型——Ψ₀(读作:赛零)。该模型在长程移动操作任务的成功率上,平均领先NVIDIA最新开源模型GR00T N1.6超过40%。作为一家关注前沿科技的AI门户,我们今天将深度拆解Ψ₀的核心技术创新,看看它是如何利用极少量真机数据,实现人形机器人领域的重大突破。
告别盲目堆砌数据:Ψ₀的高效数据解耦策略
在当前的人工智能与机器人研究中,主流策略往往依赖于海量的遥操作数据。然而,采集高质量的机器人真机数据成本极高。为了降低成本,许多研究者尝试将人类第一视角视频(Egocentric human videos)与少量机器人数据混合训练。
但Ψ₀的研究团队敏锐地发现:简单粗暴地将人类数据与机器人数据混合,会迫使大模型同时学习两种分布差异巨大的数据,反而削弱了模型的学习效率。这就好比让一个初学者同时学习两门完全不同的外语,极易产生混淆。
为此,Ψ₀提出了一套定制化的遥操作框架,将上半身姿态、灵巧手与行走控制进行“解耦”。通过PICO头显、手腕追踪器和MANUS数据手套,操作者可以单人完成全身控制,有效规避了传统VR追踪中的遮挡问题。这意味着,Ψ₀仅需80条高质量的真机遥操作数据,就能快速掌握复杂的新技能,彻底打破了传统模型对海量真机数据的依赖。
经典三阶段训练范式:从人类先验到精准控制
为了最大化不同类型数据的价值,Ψ₀采用了一种极具启发性的三阶段训练配方(Training Recipe),这为整个LLM和具身智能领域提供了新的范本:
- 预训练阶段(提取先验知识):模型首先在约829小时的人类第一视角视频(EgoDex)上进行自回归预训练。这一步的目的不是为了精准控制,而是让视觉语言模型(VLM)学习高层次的视觉理解与动作语义,建立起对物理世界的常识。
- 后训练阶段(多模态动作专家):在冻结VLM参数后,Ψ₀引入了基于流匹配(Flow Matching)的多模态扩散动作专家(MM-DiT)。利用跨任务的真实人形机器人数据,模型学会了如何将高层的语义理解转化为精确的关节控制。
- 微调阶段(快速适应):最后,在针对特定任务收集的极少量真机数据上进行微调。这使得模型能够在保持通用能力的同时,快速适应如“倒水”、“推车”等具体场景。
大脑与小脑的完美协同:三大系统架构解析
在模型架构上,Ψ₀同样秉持着“解耦”的哲学,将复杂的全身控制任务拆解为三个各司其职的子系统:
- System-2(视觉语言大脑):以Qwen3-VL-2B-Instruct为基座,负责高维度的视觉场景理解和语言指令解析。这就像是我们日常使用chatGPT或claude时,输入一段提示词(Prompt),大脑需要先理解任务的意图。
- System-1(多模态扩散动作专家):在接收到大脑的指令后,这个约5亿参数的MM-DiT模块负责生成具体的动作片段(Action Chunk)。它能高效融合视觉、语言和动作特征。
- System-0(强化学习运动控制器):负责底层的稳定执行。上半身的动作直接下发,而下半身的移动指令则交由基于强化学习的控制器,转化为精准的腿部和腰部关节运动。
实时动作分块(RTC):丝滑执行复杂任务的秘密
对于人形机器人而言,哪怕是几百毫秒的推理延迟,都会导致动作卡顿或剧烈抖动。随着模型参数量的激增,这一问题愈发凸显。
为了实现一倍速的丝滑控制,Ψ₀在训练阶段创新性地引入了实时动作分块(RTC)机制。在预测未来动作时,模型会将上一段已经提交执行的动作作为条件输入。同时,在训练中模拟真实的推理延迟,随机屏蔽部分扩散噪声。这种机制使得Ψ₀在执行拧水龙头、擦碗、叠碗等精细操作时,动作连贯自然,彻底告别了传统机器人“走走停停”的僵硬感。
拥抱具身智能的未来与AI变现新机遇
在八项涵盖抓取、推物、全身协调的真实场景评测中,Ψ₀以压倒性的优势证明了自己。其平均成功率不仅超越了现有的基线方法,更是在训练数据量不到对手十分之一的情况下,击败了由NVIDIA支持的GR00T-N1.6。
Ψ₀的开源不仅是技术上的胜利,更是对“Scaling Law”在机器人领域应用的一次深刻反思:有效的发展不是盲目堆砌数据,而是用合适的数据、以正确的架构进行训练。这为未来的AI变现提供了全新的思路——通过低成本、高效率的基座模型,加速人形机器人在工业制造、家庭服务等场景的商业化落地。
在这个AI技术日新月异的时代,无论是关注openai的最新动向,还是探索通用人工智能的边界,获取一手的高质量信息至关重要。想要获取更多前沿的AI资讯、浏览最新的AI日报以及探索前沿科技的新路径,欢迎持续关注领先的AI门户 AIGC.BAR。我们将与您一起,见证通用机器人迈向更加开放、充满可能性的未来。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)