AI新范式:用“预测”治好大模型的长视频失明症

type
status
date
slug
summary
tags
category
icon
password
网址

引言

在人工智能(AI)飞速发展的今天,我们见证了像ChatGPT、Claude等大语言模型(LLM)在文本处理上的惊人能力。然而,当这些聪明的“大脑”试图理解现实世界中的长视频时,却仿佛集体患上了“失明症”。即便拥有所谓的“长上下文”能力,它们在处理超过几十分钟的视频流时,表现也急转直下。这引出了一个根本性问题:为什么更大的内存容量没有带来更强的视频理解能力?
最近,由谢赛宁领导,图灵奖得主杨立昆(Yann LeCun)、“AI教母”李飞飞(Li Fei-Fei)等顶尖学者共同参与的一项研究,为我们揭示了答案。他们提出了一个名为“空间超感知”(Spatial Supersensing)的全新范式,主张用“预测未来”来代替“暴力记忆”,从根本上改变AI感知世界的方式。这不仅是一次技术迭代,更可能是一场引领AGI发展的范式革命。想了解更多前沿的AI资讯和实用工具,欢迎访问AI导航站 https://aigc.bar

当前多模态大模型的“失明”困境

许多人认为,只要不断扩大模型的上下文窗口,就能让AI理解越来越长的视频。然而,谢赛宁团队的研究一针见血地指出,这是一种误解。当前的多模态大模型(MLLMs)在处理长视频时,面临的不是内存不足,而是认知策略的根本缺陷
他们系统性地审查了现有的视频理解基准测试,发现大量所谓的“空间推理”任务,实际上可以被模型通过文本知识的“捷径”绕过。例如,一个问题问“月球撞击地球会怎样”,模型无需理解视频画面,仅凭物理常识就能回答。这种评测无法真正检验模型对视觉空间的持续理解能力。
为了暴露这一问题,团队构建了全新的VSI-SUPER基准测试。结果是惊人的:即便是以“实时视觉输入”为卖点的商业模型,在处理10分钟视频时准确率已不足15%,当视频延长到120分钟,其表现几乎归零。这证明,当前模型依赖的“暴力记忆”策略——即试图记住每一帧的细节——在面对海量、连续的视觉信息流时,是完全无效且不可持续的。

VSI-SUPER:一把衡量真实空间智能的“新标尺”

为了真正衡量模型的视觉空间智能(Visual-Spatial Intelligence),团队精心设计了VSI-SUPER基准。它包含两大核心任务:
  • VSR(长时域视觉空间回忆):要求模型在看完长达数小时的视频后,回答关于特定物体在某个时间点的位置或状态的问题。
  • VSC(持续视觉空间计数):要求模型持续追踪视频中特定物体的数量变化,并在任意时间点给出准确答案。
这两个任务的共同特点是:时间跨度长、信息密度高、无法通过文本捷径作弊。模型必须真正“看懂”并“记住”空间中发生的一切,才能正确回答。这把“新标尺”的出现,不仅揭示了现有模型的短板,也为未来大模型的研发指明了方向。

Cambrian-S:为“空间超感知”而生的新模型

认识到问题所在后,团队着手构建解决方案——Cambrian-S模型。他们首先创建了一个包含约59万个样本的VSI-590K数据集,专门用于训练模型的空间理解能力。
经过四个阶段的精心训练,Cambrian-S-7B模型在VSI-Bench上取得了67.5%的准确率,远超其他开源模型,甚至比顶尖的商业模型Gemini-2.5-Pro高出16个百分点。这证明了针对性训练的有效性。
然而,即便如此,Cambrian-S在处理超过60分钟的超长视频时,性能同样会显著下降。这一结果恰好验证了团队的核心判断:仅仅依靠更大的模型和更多的数据,无法突破现有范式的天花板。真正的答案,在于改变模型感知世界的基本方式。

核心突破:用“预测未来”代替“暴力记忆”

这正是“空间超感知”范式最核心、最激动人心的部分——预测性感知(Predictive Sensing)
这个概念的灵感源于人类的认知机制。我们的大脑并不会被动地记录眼睛看到的所有信息。相反,它会基于过去的经验,主动预测下一秒会看到什么。只有当实际看到的内容与预测不符时——也就是产生“惊奇”(surprise)时——大脑才会投入更多认知资源去处理这些新信息。
Cambrian-S模型巧妙地实现了这一机制。它增加了一个“潜在帧预测头”,在处理视频时,不断预测下一帧画面的内容。
  • 训练时:模型学习如何做出准确的预测。
  • 推理时:预测的误差被量化为一个“惊奇度分数”。
  • 低惊奇度:如果预测准确(惊奇度低),说明画面内容在预料之中,模型只需将这些信息压缩后存入长期记忆。
  • 高惊奇度:如果预测错误(惊奇度高),说明场景发生了重要变化(如物体移动、场景切换),模型会保留更多细节,并将其视为一个关键事件。
通过这种方式,模型从一个被动的“录像机”转变为一个主动的“观察者”。它不再试图记住一切,而是智能地筛选和管理信息,用有限的计算和记忆资源,去处理无限长的视频流。实验证明,搭载了预测性感知机制的Cambrian-S,在处理超长视频时性能保持稳定,内存占用也维持恒定,完美解决了“暴力记忆”带来的瓶颈。

结论

谢赛宁、杨立昆、李飞飞等人的这项研究,为人工智能领域,特别是视频理解和多模态感知,带来了深刻的启示。它告诉我们,通往更高级别人工智能的道路,或许不在于无限堆砌算力和扩大上下文窗口,而在于学习生物智能的内在机制——高效、主动、且富有预见性。
从“暴力记忆”到“预测感知”的转变,是LLM发展中的一次重要范式跃迁。它让AI模型从一个知识渊博的“书呆子”,向一个能够真正感知和理解动态世界的智能体迈出了关键一步。未来,随着这一理念的深入发展,我们或许将迎来真正能够与我们一同体验、理解并预测这个复杂世界的AI伙伴。想要持续追踪最新的AI新闻和探索更多强大的AI工具,请收藏您的AI门户 https://aigc.bar
Loading...

没有找到文章