达摩院发布世界模型评测基准:揭秘大模型真实物理硬伤
type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能日新月异的今天,Sora等视频生成模型的爆火让“世界模型”(World Model)成为AGI(通用人工智能)领域最炙手可热的概念。然而,如何客观评价一个“世界模型”是否真的理解了物理世界的运行规律,而不是仅仅学会了“画画”?
近日,达摩院联合多所顶尖高校推出了全新的视频世界模型评测基准——WorldOlympiad。有趣的是,作为发起者的达摩院,在首批公布的横评榜单中并没有急于安插自家的模型,而是将聚光灯完全留给了行业主流的8款开源与商业模型。这一举动不仅彰显了其作为评测基准的客观与公正,更像是一面“照妖镜”,精准地暴露了当前主流大模型在物理常识、三维空间感知以及长时序交互上的硬伤。
想要获取更多前沿AI资讯、LLM技术深度解析及行业动态,欢迎访问专业的AI门户 AIGC.bar。
从“唯画质”到“物理真实”:视频世界模型评测的范式转移
在过去很长一段时间里,评估一个视频生成模型好坏的标准往往是“画质是否高清”、“画面是否美观”以及“艺术风格是否强烈”。像VBench等传统主流基准,大多侧重于视觉观感,却忽略了底层的物理与空间逻辑。这就导致很多模型生成的视频虽然“一眼惊艳”,但仔细观察就会发现物体无故悬浮、重力方向错乱、甚至杯子倒水却装不满等违背物理常识的现象。
随着具身智能和机器人仿真技术的快速发展,视频世界模型已经不再仅仅是娱乐创作的工具,而是成为了机器人感知世界、进行物理交互的“模拟器”和核心底座。
如果模拟器本身的物理规则是混乱的,那么在其上训练出来的机器人进入现实世界后必将寸步难行。WorldOlympiad的诞生,正是为了打破这种“唯画质论”的局限,将评测维度从单纯的“颜值打分”升级为模型物理理解能力的“深度体检”。
WorldOlympiad三大赛道:如何给大模型做物理体检
为了全面、系统地评估模型,WorldOlympiad构建了“三大能力+三大场景”的立体评测模式。这套基准包含1000条精心标注的高质量视频数据集,并通过自动化的评测管线,实现与人类主观判断高度契合的打分(斯皮尔曼相关系数达0.95)。
其核心的三个评测赛道,直击当前大模型的底层痛点:
- 物理真实性:该赛道结合了SAM分割与大模型裁判,从力学、热学、材料特性三个方向设置了14项细分规则。例如,检测物体的重力加速度是否合理、碰撞后是否发生形变、冰块遇热是否融化等。测试结果表明,目前大多数LLM和视频模型在基础力学上表现尚可,但在涉及热学和复杂材料特性(如液体流动、燃烧)时,极易出错。
- 三维几何一致性:引入了先进的高斯泼溅(3D Gaussian Splatting)三维重建技术,从重建效果、多视角渲染和相机轨迹三个维度进行打分。这是目前全行业的最大瓶颈。许多模型在二维画面下看似正常,但一旦相机视角发生旋转,物体就会出现严重的扭曲、拉伸甚至凭空消失。
- 交互保真度:结合CLIP语义匹配,分为单片段、片段过渡和全局三层进行评测,检验模型在长时序下是否能持续遵循交互指令(如Prompt提示词的引导),以及画面在分块生成时是否能保持连贯,避免出现场景突然重置的尴尬情况。
8大主流模型横评:谁是真正的“物理高材生”?
在WorldOlympiad对8款主流模型的实测中,行业现状被清晰地呈现出来:
首先,大参数与垂直领域专项训练是提升模型物理理解的双重路径。拥有140亿参数的LingBot-World夺得综合第一,而仅有20亿参数但经过机器人相关数据专项训练的Cosmos-Predict-2.5紧随其后。这表明,中小规模的模型如果能在特定场景下进行深度优化,完全可以弥补参数量上的劣势。
其次,三维空间建模是全行业的集体短板。在三维几何一致性测试中,所有参评模型的得分普遍偏低,即便是表现较好的Hunyuan-WorldPlay,也仅仅是在视角控制上略有优势。这说明当前的扩散模型架构在从2D图像向3D空间表征的泛化上,依然存在天然的壁垒。
最后,模型在专精与泛化之间存在激烈的博弈。部分在特定机器人场景下表现优异的专用模型,一旦切换到游戏或通用实景场景,性能便会出现断崖式下跌。如何让模型兼顾专项物理推理与通用泛化能力,将是下一代大模型研发的重中之重。
物理世界模型对AGI与AI变现的启示
达摩院此次发布的WorldOlympiad,不仅为学术界提供了统一的度量衡,也为工业界的AI变现和应用落地指明了方向。
对于开发者而言,了解这些模型的物理短板,可以帮助我们在编写提示词(Prompt)或者设计AI工作流时,有针对性地规避模型的弱项。例如,在需要高精度物理反馈的仿真场景中,应优先选择经过垂直训练的轻量化模型,而不是盲目追求超大参数量的通用模型。
随着视频世界模型向着更真实、更稳定的方向演进,具身智能、自动驾驶和互动游戏等领域将迎来真正的爆发。紧跟最新的AI日报与人工智能技术前沿,才能在这场AGI变革中抢占先机。
如果您想获取更多关于大模型API直连、前沿AI新闻以及人工智能领域的深度报告,请持续关注 AIGC.bar,我们为您提供一站式的AI资讯与技术门户服务。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)