NVIDIA刘明宇揭秘Cosmos:物理AI的“黑客帝国”与未来

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在人工智能飞速发展的今天,我们正站在一个关键的转折点。从文本生成到图像创造,生成式AI已经深刻改变了我们与数字世界的交互方式。然而,当AI的触角开始延伸到物理世界,挑战与机遇并存。NVIDIA生成式AI研究负责人刘明宇在GTC 2026的演讲中,为我们描绘了一个令人振奋的未来蓝图——Cosmos项目,一个旨在为机器人打造“黑客帝国”的宏大愿景。这不仅是技术上的突破,更是人工智能(AI)新闻领域的一大亮点,预示着物理AI时代的全面到来。更多AI、AGI、LLM、大模型相关资讯,请访问 https://aigc.bar

从生成式AI到物理AI:AI进化的新阶段

刘明宇指出,AI的演进历程清晰可见:从最初的生成式AI,到当前的智能体AI,再到即将到来的物理AI。生成式AI的成功,如ChatGPT等大型语言模型,得益于互联网上积累的海量数字数据。这些数据构成了训练强大模型的基石。智能体AI则进一步利用数字工具,让AI能够编程、操作云服务,甚至辅助解决复杂问题,其成功在于找到了大规模生成数字工具使用数据的方法。
然而,当AI要进入物理世界,控制真实的车辆、机器人乃至类人机器人时,我们面临着一个巨大的“鸡生蛋、蛋生鸡”难题:缺乏足够多的物理世界数据来训练强大的模型,而没有强大的模型,又难以广泛部署机器人以收集数据。NVIDIA Cosmos的使命,正是要打破这个数据困局,加速物理AI开发者的进展,为人工智能的下一个飞跃奠定基础。

Cosmos:为机器人构建一个“黑客帝国”

NVIDIA Cosmos项目的核心愿景,是为机器人打造一个如同电影《黑客帝国》般的虚拟训练环境。在这个环境中,机器人可以在被部署到真实世界之前,安全、高效地学习各种技能,进行大量的交互和训练。Cosmos的终极形态是一个面向Physical AI的生成式训练设施,其输入是智能体、环境和任务,输出则是一个更强大的智能体——一个具备在真实环境中完成任务能力的智能体。
这个“黑客帝国”的运作方式是,通过算力来“换取”数据。它利用世界模型吸收互联网规模的非机器人视角数据,理解物理世界的动态。然后,结合NVIDIA Newton等物理引擎,生成更贴近机器人视角的合成数据。最终,通过少量的机器人真实数据将“观察”与“动作”连接起来,形成一个完整的训练闭环。这使得机器人能够在虚拟环境中进行数据增强,学习在各种不同环境和任务中泛化的能力,极大地加速了机器人能力的提升。这无疑是AI门户和AI新闻中值得关注的重大进展。

理解与生成:Cosmos的核心能力

要构建这样一个强大的生成式训练设施,世界模型必须具备两大基础能力:
  1. 理解与推理能力(Reason):Cosmos需要能够判断智能体是否真正完成了任务。它通过分析最终状态和任务要求,生成奖励值来指导策略更新。Cosmos Reason 2便是专注于物理世界理解的模型,能接收视频输入和文本提示,通过视觉语言模型架构分析视频内容,甚至能在生成答案前进行“思考”。它在开放式视觉语言模型基准上表现卓越,可用于风险分析、自动驾驶视频理解等场景,是NVIDIA内部多个物理AI项目的骨干模型。
  1. 预测或生成能力(Predict):Cosmos必须能够模拟未来。给定当前状态和任务,世界模型能预测智能体将采取的动作,并根据这些动作模拟新的状态,从而推演任务的进展和最终结果。Cosmos Predict 2是一个视频预测模型,能根据当前帧和文本提示预测未来,支持多种预测模式和多视角扩展,同样能作为更高层机器人模型的骨干。
刘明宇强调,理解能力和预测能力是构建终极Cosmos的基石。它们不仅能作为独立的工具,帮助开发者进行视频分析和合成数据生成,还能结合用于策略评估(policy evaluation),在虚拟世界中预先评估策略模型的质量,避免在真实世界中直接测试的低效和风险。一个同时具备强理解与生成能力的模型,本身也能成为策略模型的良好起点。

Cosmos模型家族与落地场景

当前的Cosmos项目由四大核心部分组成:模型(models)、脚本(scripts)、框架(frameworks)和蓝图(blueprints),旨在全面赋能物理AI开发者。
  • Cosmos Reason 2:专注于物理世界理解,已在多个开放式视觉语言模型基准上排名第一,广泛应用于自动驾驶、工业检测等领域。
  • Cosmos Predict 2:视频预测模型,能够预测未来状态,支持扩散方案和后训练,为策略评估和模型基规划提供了强大工具。
  • Cosmos Transfer 2.5:将控制输入转换为照片级真实感视频输出,支持深度、边缘、分割等多种控制信号,可用于多视角生成和物理引擎渲染结果的真实感增强,对策略训练和数据增强至关重要。
特别值得一提的是,通过微调Cosmos Predict 2,NVIDIA还提出了Cosmos Policy。这个机器人策略模型不仅能预测未来图像,还能预测机器人动作和价值。它在LIBERO和RoboCasa等仿真基准上取得了最先进的表现,在真实世界中也展现出强大的能力,能根据语言指令完成抓取、放置、折叠衣物、高精度操作等复杂任务。通过模型基规划(model-based planning),Cosmos Policy能在预测未来状态并评估其价值的基础上,选择最优动作,显著提升在困难任务中的成功率。

后训练与定制化:普惠物理AI开发者

NVIDIA深刻理解到,不同机器人形态和传感器配置的差异巨大。因此,Cosmos从构思之初就将后训练(post-training)视为整个体系中至关重要的一环。NVIDIA提供了预训练好的Cosmos骨干模型和配套的后训练脚本,让开发者能够根据各自机器人的具体形态(embodiment)进行微调,实现最佳性能。这种开放和可定制化的策略,使得Cosmos能够成为广大物理AI开发者都能依赖的强大基础骨干模型,推动人工智能在物理世界的广泛应用。
Cosmos的累计下载量已达数百万级,其落地场景正在从自动驾驶扩展到手术模拟等更广阔的领域。NVIDIA正通过Cosmos,加速物理AI的发展,为构建一个由智能体驱动、与物理世界深度融合的未来奠定基础。这是大模型技术在现实世界应用的一个典范,也是AI领域迈向AGI(通用人工智能)的关键一步。更多关于AI、LLM和Prompt的最新动态,请持续关注 https://aigc.bar
Loading...

没有找到文章