NVIDIA刘明宇揭秘Cosmos：物理AI的“黑客帝国”与未来

type

status

date

slug

summary

从生成式AI到物理AI：AI进化的新阶段

刘明宇指出，AI的演进历程清晰可见：从最初的生成式AI，到当前的智能体AI，再到即将到来的物理AI。生成式AI的成功，如ChatGPT等大型语言模型，得益于互联网上积累的海量数字数据。这些数据构成了训练强大模型的基石。智能体AI则进一步利用数字工具，让AI能够编程、操作云服务，甚至辅助解决复杂问题，其成功在于找到了大规模生成数字工具使用数据的方法。

然而，当AI要进入物理世界，控制真实的车辆、机器人乃至类人机器人时，我们面临着一个巨大的“鸡生蛋、蛋生鸡”难题：缺乏足够多的物理世界数据来训练强大的模型，而没有强大的模型，又难以广泛部署机器人以收集数据。NVIDIA Cosmos的使命，正是要打破这个数据困局，加速物理AI开发者的进展，为人工智能的下一个飞跃奠定基础。

Cosmos：为机器人构建一个“黑客帝国”

NVIDIA Cosmos项目的核心愿景，是为机器人打造一个如同电影《黑客帝国》般的虚拟训练环境。在这个环境中，机器人可以在被部署到真实世界之前，安全、高效地学习各种技能，进行大量的交互和训练。Cosmos的终极形态是一个面向Physical AI的生成式训练设施，其输入是智能体、环境和任务，输出则是一个更强大的智能体——一个具备在真实环境中完成任务能力的智能体。

这个“黑客帝国”的运作方式是，通过算力来“换取”数据。它利用世界模型吸收互联网规模的非机器人视角数据，理解物理世界的动态。然后，结合NVIDIA Newton等物理引擎，生成更贴近机器人视角的合成数据。最终，通过少量的机器人真实数据将“观察”与“动作”连接起来，形成一个完整的训练闭环。这使得机器人能够在虚拟环境中进行数据增强，学习在各种不同环境和任务中泛化的能力，极大地加速了机器人能力的提升。这无疑是AI门户和AI新闻中值得关注的重大进展。

理解与生成：Cosmos的核心能力

要构建这样一个强大的生成式训练设施，世界模型必须具备两大基础能力：

理解与推理能力（Reason）：Cosmos需要能够判断智能体是否真正完成了任务。它通过分析最终状态和任务要求，生成奖励值来指导策略更新。Cosmos Reason 2便是专注于物理世界理解的模型，能接收视频输入和文本提示，通过视觉语言模型架构分析视频内容，甚至能在生成答案前进行“思考”。它在开放式视觉语言模型基准上表现卓越，可用于风险分析、自动驾驶视频理解等场景，是NVIDIA内部多个物理AI项目的骨干模型。

预测或生成能力（Predict）：Cosmos必须能够模拟未来。给定当前状态和任务，世界模型能预测智能体将采取的动作，并根据这些动作模拟新的状态，从而推演任务的进展和最终结果。Cosmos Predict 2是一个视频预测模型，能根据当前帧和文本提示预测未来，支持多种预测模式和多视角扩展，同样能作为更高层机器人模型的骨干。

刘明宇强调，理解能力和预测能力是构建终极Cosmos的基石。它们不仅能作为独立的工具，帮助开发者进行视频分析和合成数据生成，还能结合用于策略评估（policy evaluation），在虚拟世界中预先评估策略模型的质量，避免在真实世界中直接测试的低效和风险。一个同时具备强理解与生成能力的模型，本身也能成为策略模型的良好起点。

Cosmos模型家族与落地场景

当前的Cosmos项目由四大核心部分组成：模型（models）、脚本（scripts）、框架（frameworks）和蓝图（blueprints），旨在全面赋能物理AI开发者。

Cosmos Reason 2：专注于物理世界理解，已在多个开放式视觉语言模型基准上排名第一，广泛应用于自动驾驶、工业检测等领域。

Cosmos Predict 2：视频预测模型，能够预测未来状态，支持扩散方案和后训练，为策略评估和模型基规划提供了强大工具。

Cosmos Transfer 2.5：将控制输入转换为照片级真实感视频输出，支持深度、边缘、分割等多种控制信号，可用于多视角生成和物理引擎渲染结果的真实感增强，对策略训练和数据增强至关重要。

特别值得一提的是，通过微调Cosmos Predict 2，NVIDIA还提出了Cosmos Policy。这个机器人策略模型不仅能预测未来图像，还能预测机器人动作和价值。它在LIBERO和RoboCasa等仿真基准上取得了最先进的表现，在真实世界中也展现出强大的能力，能根据语言指令完成抓取、放置、折叠衣物、高精度操作等复杂任务。通过模型基规划（model-based planning），Cosmos Policy能在预测未来状态并评估其价值的基础上，选择最优动作，显著提升在困难任务中的成功率。

后训练与定制化：普惠物理AI开发者

NVIDIA深刻理解到，不同机器人形态和传感器配置的差异巨大。因此，Cosmos从构思之初就将后训练（post-training）视为整个体系中至关重要的一环。NVIDIA提供了预训练好的Cosmos骨干模型和配套的后训练脚本，让开发者能够根据各自机器人的具体形态（embodiment）进行微调，实现最佳性能。这种开放和可定制化的策略，使得Cosmos能够成为广大物理AI开发者都能依赖的强大基础骨干模型，推动人工智能在物理世界的广泛应用。

Cosmos的累计下载量已达数百万级，其落地场景正在从自动驾驶扩展到手术模拟等更广阔的领域。NVIDIA正通过Cosmos，加速物理AI的发展，为构建一个由智能体驱动、与物理世界深度融合的未来奠定基础。这是大模型技术在现实世界应用的一个典范，也是AI领域迈向AGI（通用人工智能）的关键一步。更多关于AI、LLM和Prompt的最新动态，请持续关注 https://aigc.bar。