普林斯顿刘壮：AI架构次要，数据与记忆才是王道

type

status

date

slug

summary

category

icon

password

网址

引用量超过10万次，清华姚班校友，ConvNeXt、ImageBind、《无归一化的Transformer》……这些论文的作者——

普林斯顿大学助理教授刘壮，在学术圈是一个颇为特殊的存在——他的每一篇论文几乎都在质疑某个“理所当然”的假设。

架构真的重要吗？数据集真的足够多样吗？归一化层是必需的吗？大语言模型有世界模型吗？AI智能体能替代博士生吗？

在《信息瓶颈》的最新播客中，刘壮和主持人Ravid Shwartz-Ziv、Allen Roush展开了长达一个多小时的对谈，解答了这些问题。

刘壮给出了几个核心判断（太长不看版）：

1、架构选什么，没你想的重要。

只要把残差连接、自注意力、归一化层、线性层这四大基础做对，不管用ConvNet还是Transformer，最终都会落在同一条性能曲线上。

过去十年真正推动AI进步的，是更大程度上是数据规模和计算规模，而不只是架构创新。

2、数据集远没有我们以为的多样。

他和何恺明做了一个实验：训练神经网络来判断一张图片来自哪个数据集。

结果在三个号称“多样化”的亿级数据集上，准确率高达80% 以上——

说明这些数据集在模型眼里仍然泾渭分明，距离“无偏的全球分布”还差得远。

3、大语言模型有世界模型，但只在语言空间里。

LLM在高层次事件推理上表现出色，但视觉空间的精细世界模型我们还没有——

根本原因是视觉数据的信息密度太高，现有算力还处理不了。

而且对于超过一半的工作场景（尤其是数字化的白领工作），根本不需要视觉世界模型。

4、记忆才是当前最大的瓶颈，不是能力。

现有模型的推理能力已经足够强，真正缺的是稳定的长期记忆。

我们需要那么多智能体协作，恰恰是因为一个智能体记不住所有事情。

5、自主科研还没到位，AI替代不了研究生。

他亲自测试过让Claude Code在一两天内独立完成一个研究项目。

结论是：低层次任务还行，但提出有意思的问题、设计实验、保持方向感——这些还做不到。

整个访谈有一条隐藏的主线：我们在AI领域里奉为圭臬的很多东西，其实是历史偶然。

而真正决定成败的，往往是那些更朴素、更无聊的因素——数据、规模、记忆。

以下是量子位梳理的刘壮最新访谈，为便于理解，有部分删减和润色，并在必要的地方添加了编者注，各位enjoy~

架构没那么重要，但细节决定一切

Ravid：今天我们会聊聊你的一些论文。总体上，我们要探讨当今AI中真正重要的组成部分是什么。你的研究成果很多，我想我们可以从“哪些组件最关键”开始。

几年前，你发表了一篇关于“面向2020年代的卷积神经网络”的论文。你能先介绍一下这篇论文，然后我们再来拆解当前AI系统的各个组成部分吗？

刘壮：嗯，当然。那是一段非常有趣的经历。

这篇论文我们是在2021年写的，那时候Transformer刚刚通过视觉Transformer的引入进入了计算机视觉领域，整个视觉社区都在从传统的卷积网络切换到视觉Transformer，性能也越来越好。

在这项工作中，我们想研究：ConvNet是否真的已经丧失了竞争力？

是否有可能通过系统性地控制所有设计细节，来验证ConvNet能否被现代化、达到当时视觉Transformer的水平？

我们想搞清楚，Transformer和ConvNet之间看似存在的性能差距，究竟是源于架构本质的不同——比如用自注意力还是卷积——还是源于一些看似微小的设计细节。

最终我们发现答案是后者。

经过大量对ConvNet各组件的研究，我们最终让模型在多种任务上达到了当时最强视觉 Transformer 的水平。

这说明，无论选择ConvNet还是视觉Transformer，只要把所有细节都做对，就能在视觉任务上达到同等的前沿性能。

Ravid：你现在还相信这一点吗？你还认为架构其实并不重要吗？

刘壮：我不会这么说——总体上我倾向于认同，但我不会说架构不重要。

我的意思是，只要你把所有细节都做对，只要你对设计空间探索得足够充分，就会收敛到一个类似“帕累托前沿”的点——在精度和效率之间取得最佳平衡。

要突破这条前沿线是非常困难的。

我觉得过去这么多年，除了几年前已经成熟的那些架构之外，真正被广泛采用的架构创新其实并不多。

不过这个探索过程本身非常有趣。

最近，一些开源模型公司，比如Kimi、DeepSeek，还在不断折腾架构，比如怎么改残差连接、怎么连接不同层，我非常尊重这类工作。

事实上，学术界现在架构研究没那么活跃，部分原因是我们负担不起用足够说服力的规模来验证这些效果所需的计算资源。

但我自己还是会用学校的资源去尝试。现在有了Claude Code的帮助，我可以自己动手写代码去探索，这非常有趣。

从实用角度来看，我认为我们用什么数据训练模型，比选择什么架构更重要——前提是输入输出接口不变。

架构本质上是我们参数化函数近似器的方式，这是神经网络或深度学习最基本的功能。

只要你把几件事做对，比如用残差连接、用自注意力或其他合理的机制、在合适的位置放激活函数和前馈层，你就能非常接近甚至达到性能与效率的前沿曲线。

从实际应用的角度，我认为更重要的是：这个模型用什么数据训练的？它怎么处理上下文和记忆？

在上下文和记忆这方面，确实有一些架构工作在解决这个问题。

我觉得这才是让AI再上一个台阶最迫切需要解决的问题。

Allen：根据我的理解，你们是把ResNet逐步往类似Swin Transformer的设计方向现代化，最终得到一个能与 Transformer强力竞争的ConvNet。

在那篇论文里，哪一个消融实验最让你对“Transformer的优势究竟从何而来”改变了看法？

刘壮：哪一个？我觉得是每一个。

你看那张图，没有任何单一改动能大幅拉升性能。有些改动比其他的更有效，但没有哪一个能改变一切。

△ConvNeXt论文的Figure 2，展示了ResNet现代化的完整过程和每一步对应的性能变化

也许激活函数的使用，以及减少归一化层的数量，是让我比较感兴趣、也有明显性能提升的一个点。

但真正起作用的是把所有改动叠加在一起。

这些看似微小的组件，当我们把它们组合起来的时候，产生的性能差距，是那种通常只有把卷积换成自注意力这种大改动才能带来的效果。

所以我认为，这篇论文最大的启示是：这些小细节组合在一起，比那些看起来很核心的网络组件影响更大。

Ravid：对我来说，感觉我们是在大量尝试各种东西，有些起效了，模型就变好了。然后回过头来，我们才开始真正理解哪些组件是关键的。

你觉得我们是需要先有突破，再回头理解细节？还是说我们只需要反复试错，不需要明确的方向？

刘壮：Transformer对整个社区来说绝对是一个福音，把Transformer引入计算机视觉这件事，意义重大。

是那几年里绝对是最重要的突破之一。

但视觉Transformer还有另一个好处，就是它实现了文本和图像表示的统一。

Transformer的使用对后来的发展非常关键，比如LLaVA，这类多模态框架——用视觉编码器把图像编码成token，然后和文本 token 一起输入到下游的大语言模型里。

这是现在很多多模态模型的基本框架。

回到我们的研究，这种对细节的深入分析，我觉得更像是一堂课。它改变了我自己的认知，也改变了很多人的认知，这让我更引以为傲。

当然人们还是可以继续用ConvNet，它也有自己的优势，尤其是在纯视觉任务里：部署方便，比较容易理解，也因为操作是局部的，所以对更高分辨率和长序列有更好的支持。

两种架构只是在不同地方各有所长。

Ravid：好，架构不那么重要——你还有一篇更近的论文，证明了归一化层也不那么重要，对吗？

基本上可以用双曲正切激活函数来取代归一化层，只需要一些调整，但效果一样好。

那你觉得真正重要的核心组件是什么？而且为什么好的AI模型只是在最近五年才出现，而不是十年前？

刘壮：这是个好问题。

首先，Transformer大约是十年前提出来的，九年前吧。

所以在那之后很长一段时间里，我们基本还是沿用类似的基本框架，只有一些小改动，比如激活层、专家混合（不是每次都用）、局部注意力、滑动窗口注意力等，但核心框架和九年前论文刚出来时基本一样。

所以我的答案是：数据，以及训练时使用的计算规模。

这就像GPT-1到GPT-3的经典故事——基本上是同一个模型，用更多计算量、更多数据、更多样化的数据、更大规模的互联网数据来训练，就得到了我们现在看到的这些强大能力。

所以我会把这归因于数据，其次是算力。

我认为数据是主要因素，因为现在大多数模型训练的epoch数都不超过一个。

Allen：我注意到你的研究有一个贯穿始终的论点，就是这个领域常常把架构和训练方案混为一谈。

如果你要为今天的架构论文设定规则，在有人声称某种架构选择有价值之前，你会要求哪些控制条件？

刘壮：好，在理想世界里，我们有无限计算资源，对吧？

首先，我会要求在一定规模上验证效果，不一定是前沿模型，但至少要在70亿、300亿参数这个量级。

规模对工业界来说很重要，只有在这个规模上，大家才真的会相信你的改动有效。当然，这并不总是可行的。

其次，如果你要在较小规模上研究架构变化，我会要求首先做超参数搜索。

你不能只在一组超参数下证明新架构比旧架构好，尤其是当这组超参数是专门为这个新模型调过的。

每个模型都应该在各自最优的超参数下进行比较，最重要的超参数是学习率、衰减、优化器类型。

让我很烦的一件事是，有人甚至不去调基线模型的学习率，只调自己方法的，然后就声称有效——这是导致很多”结果无法泛化”的最常见的问题所在。

第三，我会要求这个想法或方法在不止一个数据集上得到验证，最好是在一个合理规模的数据集上。

ImageNet今天仍然适用，但理想情况下，还应该在一些小规模的大语言模型上验证，比如在FineWeb上训练。

我非常赞成在多样的数据集上验证想法，至少要在领域内常用的数据集上。这就是我会提的几个标准。

Ravid：如果一个想法是真正好的，它是否应该在不同领域、不同数据集、不同场景下都有效？

还是说有些非常好的想法只适用于非常特定的场景？

刘壮：我认为两种都同样有价值。

在第二种情况下，我希望研究者能清楚地说明，这个方法在什么特定场景下更好，仍然应该在不止一个数据集上验证。

如果你声称你的模型在长上下文音频上效果更好，你仍然可以在这个方向上用多个数据集测试。

同时要解释清楚，为什么这个方法在这个特定领域好，为什么在其他领域不好，然后从这里出发，去解决那些弱点。

这就是研究的价值所在——你不需要第一步就全面成功，那固然很好，但不是必须的。