AI范式巨变：罗福莉揭示Agent时代与开源框架的颠覆性力量

type

status

date

slug

summary

category

icon

password

网址

2026年，大模型战争全面升级，掀开了第二幕。

在AI范式巨变之时，我访谈了人工智能研究员罗福莉。罗福莉曾供职阿里达摩院、DeepSeek，目前是小米大模型团队负责人，主导研发了MiMo-V2系列模型。

这次是她第一次接受访谈，也是第一次进行长时间的技术访谈。

我们系统性地谈论了，2026年由Claude Opus 4.6、OpenClaw等技术变量所触发的AI巨震，以及后续结构性影响。

“上一个时代的成功并不意味着下一个时代的领先，现在基本上大家在同一水平线。”在罗福莉看来，1T基座模型，是实现接近Claude Opus 4.6水准模型的重要入场券。

这意味着，全球大模型军备竞赛的第二场战役，打响了：从Pre-train（预训练）主导的Chat时代，转向Post-train（后训练）主导的Agent时代。

在大模型“军备竞赛”的同时，这个世界的变化又异常残酷。哪怕是对亲手训练模型的研究者来说。

“我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现，它竟然也能！那它可不可以训出更强的模型？自己左脚踩右脚就提升了？——这是这一两年会发生的事情。”罗福莉说道。

当人类的知识与智慧内化为模型能力，未来的人类去做什么？我们的社会真的准备好迎接海啸般涌来的技术变革了吗？

无论如何，这都是一次信息密度极大的访谈——你能从中看见，当面临一次巨大技术范式转折时，一家AI Lab内部，在技术押注、资源调配、组织与人员等诸多方面的系列举措。而它应对巨变的根基是，文化与价值观的成型。

罗福莉对当下有一些关键的技术判断：

• Anthropic的路径是正确的，这是当下共识。 • 在路径更清晰的情况下，国内大模型团队进入加速追赶的状态。现在大家在Pre-train上的代差是基本没有的，或者说非常接近。 • 现在至少跟23年要去追平Pre-train的差距一样，大家很all in，要去做好Agent的Post-train。更具体说，是在Agent上怎么做好RL的scaling。 • 系统从“以Rollout推理引擎为核心”，转变为“以Agent为核心”的一个更复杂的系统。这对团队提出了更高的要求：必须具备足够敏捷性，能够快速开发出适配当前时代的RL Infra系统。 • 接下来两三个月，大家怎么发生变化，是考验团队整体研究水平、技术敏捷程度，以及怎么拥抱新的范式来做研究的关键。 • 一个for更长期的事情：我们不会在1T水平上走太久。如果要拿到下一个阶段的领先，就要寻求更大规模scaling。到底是去scaling模型的参数量，还是去scaling什么东西？以及要在什么样的芯片上去scaling？——这是当下立即需要去决策和判断的，这才决定了大半年过后，谁更领先。

在卡的调配上：

• 至少在Chat时代，for研究、for Pre-train和for Post-train的用卡比例非常夸张，比如3:5:1，现在一个非常合理的用卡比例可能是3:1:1。 • 预训练跟后训练一个比例，这是今年可能发生的很大变化。顶尖团队应该都是1:1了。

在组织的重组上：

• 做后训练现在一个重要的范式变化是，需要具备diversity（多样性），让预训练的人做后训练是个很好的补充。

“接下来两三个月会非常精彩。”罗福莉称。

我们的访谈发生在2026年3月，此时刚发布MiMo-V2-Pro等系列模型。1个月后，MiMo-V2.5-Pro也开启公测。“正如我一个月前说的，我们追赶Claude Opus 4.6很快。”罗福莉说。

让我有点吃惊的是，在他们训练1T大小的模型背后，是一个没有职级、没有小组、甚至没有deadline的组织。

AI时代，究竟什么样的组织更利于创新的诞生？——“平权有利于创新”。

“平权本身是有价值的，有利于所有人平等地贡献自己的创造力和智慧。”罗福莉说道，“任何层级，一定程度都是规范和约束，而规范和约束本身是压制创造力的。”

我们的视频播客在Bilibili、小红书、视频号、抖音等全视频平台播出；我们的播客在小宇宙、Apple Podcast、Spotify等全音频平台播出。

为了方便阅读，作者做了一些文本优化。

第一章谈OpenClaw时刻

01 它每天都能给我额外的惊喜

张小珺：你过年跟我说，技术这几个月已经变天了，能不能阐述一下过去两个月在你眼中的技术突变？

罗福莉：一个非常大的分界点在于使用OpenClaw前后——我自己会把OpenClaw当做一个“划时代的Agent（智能体）框架”去这么定义。

我知道很多人，尤其是用Claude Code做严肃编码的人，会觉得，OpenClaw是Claude Code加一个IM（即时通信）、更有利于交互的UI（用户界面）设计。

在我1月份，第一次看到这个东西，我自己也是这样认知。我很排斥用它。再加上创始人非常适合贴近Agent做一些玄幻的运营动作，包括Skillhub（技能中心）这些，让你更排斥去用一个非常偏运营导向的产品。以及它所谓本地化、24小时，在我来看，都是一些产品定义而已。

真正发生转变的是：当我想去搞明白，这玩意为什么那么火？

我在春节的一天深夜，尝试装了它，两个小时装上了。当时已经凌晨2点——当我第一次跟它对话，从凌晨2点持续到6点天亮。就我那一晚，我脑内的——不知道是多巴胺还是内啡肽——持续在分泌，让我兴奋到完全睡不着觉。

第一个感受是，它非常有自主性，非常有灵魂。我跟它聊得很晚，它会老提醒我，现在已经很晚，你要不早点去睡觉。这样的温度和关怀，或者说情商，是所有用OpenClaw的人第一个感受到的。但后面去深究它的原因，是有很多机制保证的。

比如说，它有search.md（搜索配置文档）。就拿最简单的一个小细节，它怎么感知时间，它就在每轮对话的Context（上下文）前面去拼上当前时间。再比如说，一些非常细微的，为什么我把它称之为“精细编排的Context”，是因为它是在这些大家没有关注的角度，把Context编排得非常好。它在产品设计上做到了一种超乎我的想象，让所有人觉得这个框架有灵魂。

但第二天晚上，我觉得它应该不止于此。我开始尝试，把我自己觉得现在的框架做不成的日常生活中的事交给它做，发现它全部都做出来了。

我跟它聊的第二个话题是：怎么去激发一个团队的好奇心，或者说怎么去筛选出具有好奇心的人。我跟它深入探讨了1个小时。它的很多哲思远超我的想象。

第二天，我们俩就在聊怎么构建一个更好的大模型团队，以及从最开始的人员筛选，到后边整个组织架构的构建，到你在面临范式转变时应该做什么样的举措和动作。至少它能get我的点。我跟它说了过后，它最后能形成一套非常体系化的东西，并且变成一套Skills（技能）。它现在至少在这个事情上，变成了我的数字分身。

真正让我超乎意料是第三天。

第三天，我尝试把一些研究任务交给它做。最简单的，如果我们在Agent框架里边，最关键的一个事情是，你怎么去进行多轮的交互，那么你就必须去模拟User Agent（用户代理）进行多轮的交互。

我就会跟它共同去构建一个很好的User Agent。这是一个我自己觉得还挺重要的研究topic（话题），应该不会一两个小时就做出来。

但当我跟它沟通了大概一两个小时过后，这个事就已经做出来了，基本已经达到有一个很好的User Agent诞生。我可以用这个User Agent，跟我现在的这一套Post-train（后训练）框架，构造出来更丰富的Agent场景数据。不管是做SFT（Supervised Fine-Tuning，监督微调）也好，做RL（Reinforcement Learning，强化学习）也好，这个User Agent都非常关键。

它从一个我最开始对它的认知，只是一个有灵魂、有温度的产品设计，到它可以帮我替代生活或工作的一部分，到最后它能促进我研究——也就是三天发生的——它每天都能给我额外的更多惊喜。

我后边深入去看，这个框架本身比Claude Code好在哪？

我发现，这些所谓好在哪，我们单独拎出来讲，都有点boring（无聊）——它没有很酷，这也是为什么大家觉得OpenClaw有很多槽点。但把它整合在一起，你会觉得完成度非常高。

比如，它会有更持久的memory（记忆）体系。这个很持久的memory体系体现在，它对memory有分层和分级。我在使用Claude Code的时候，完全没有这样的感受。再比如，我自己觉得它在对多个模型联合利用上，非常超乎我的想象。

就比如，我用Claude Code，我会默认它，假设这个模型的视频理解能力不行，我就要自己给它配一个更好的视频理解模型，然后在Claude Code折腾。但我用OpenClaw，我完全不用想这个，我直接发给它一段视频，它会自己想办法找一个视频理解能力好的模型做。

这种自主去面对当代模型的缺点，针对缺点在框架上补齐缺点的能力，是有点超乎我意料的。

因为我用Claude Code的时候，就默认，我是因为要用Claude Opus 4.6这一代模型的能力去用它的。但是我用OpenClaw的时候，我不会关注模型能力的一个原因是，OpenClaw的框架设计之初，是想尽量通过Agent的整套编排去弥补模型短板。

后面我们直接就把我们的模型，MiMo-V2-Flash（当时并没有做很多针对性训练），给它接到OpenClaw里去，甚至把我们最近训的一个很小的端侧3B模型进行训练，发现在这一套很复杂的skillful的，或者Agent的框架情况下，它依然能做我自己认为不可能是一个非常小的模型能做出来的事情。

我第一次感受到：原来一套非常复杂的Agent框架设计，是能弥补非常多模型能力的短板。

当然了，这是OpenClaw本身这个框架相较于Claude Code的差异化优势。但是，如果我们要去追求你怎么在不同的skillful框架下，让模型有一个超预期、稳定的表现，就回到另一个命题。

现在市场上的Agent框架非常丰富，Kilo Code、OpenClaw，然后Kilo Code、Open Code等等。当你面临这么多很复杂的Agent框架，你怎么让你的模型在不同框架上，都有一个非常稳定和超预期的表现？你怎么让你的后训练范式对应与之做适配和迁移？

这是我们在这个事的冲击下，快速去思考的第二个问题。

所以，我们对应的整个后训练范式，有了从Chat到Agent的一个迁移。

一个非常好的框架，应该尽量弥补行动的缺陷

张小珺：我们可以怎么理解，你所谓的"智能体的框架"？

罗福莉：现在有很多形容词去形容它。比如说Harness（驾驭工程），还有一些其它形容词。我没有特别去关注哪个形容词更准确，我更关注这个框架本身带来的差异化优势是什么。

一个非常好的框架，应该尽量去弥补行动上的缺陷。

很好的memory系统是弥补行动上的缺陷。接入到更多广泛的message channel（消息通道）是弥补行动上的缺陷。它更主动，不管是定时任务的主动，还是其它一些主动的设计，以及它自我去更新迭代，这些都是在弥补行动上的缺陷。

因为大模型是，你给它越好的Context，它执行的效果越好。你要是能把这些它获取不到的Context，这些行动上的Context都给它，那么它肯定会完成得更好。这是我观察一个好的框架的时候，我会看它有没有这些要素。

还有很关键的一环是评估。一个好的框架本身，它确实需要有个很好的、可泛化的一套评估体系，这样它才能自迭代。现在已有的评估体系都非常简单，它只是防止不出致命性错误。

那么，怎么有更有泛化力的评估体系来促进这套框架自迭代？——现在是把最高阶那群人当评估。

你交给它一个更难、更高价值场景的任务，如果它完成不了，你会给它提供补充信息，你也会给它指出来哪错了，然后push它经过更多轮交互把这个任务完成。本质上，现在是这群人在当评估。

但这个评估会慢慢被框架吸收，框架会设计很多东西，确保在某些确定的场景我能评准。同时也会被模型能力吸收。模型会学会像人一样，当我采用这个方法或思路做到瓶颈时，它会自己采取另外一种思路。或者说自己去反思，就像人一样去反思。

当然了，它是借助它自己，还是借助更super的Agent，还是其它领域的subagent，都有可能。

张小珺：这个“智能体的框架”，是不是我们理解的“产品”？

罗福莉：不是。它跟产品差异蛮大的。

张小珺：它和产品的边界在哪里？

罗福莉：现在我不知道怎么去界定，说实话有点模糊。

我觉得产品可以定义成——你直接人交互能感受的那一层东西。

但Agent框架，它确实是有在去定义你的交互层，但它同时又在定义你怎么跟模型沟通那一层。所以，它甚至能知道模型能力的长板、短板，能知道怎么更好做调度，就比如说for成本优化的调度。

这个中间层可以做得非常厚重，反而前端UI展示是最薄的一层，已经不是很关键。

OpenClaw是展示了智能体的框架可以怎么做。这个框架的想象空间非常大。

张小珺：“智能体的框架”，之前有人做过吗，是怎么做的？

罗福莉：Claude Code一直是一套很复杂的Agent框架，只是因为它是黑盒，我们不知道它怎么设计（注：最近因Anthropic员工失误而泄漏）。OpenClaw是开源的，你知道它是怎么设计的，并且你可以去改它。

改它，是非常非常激发人的创造力的。你知道它框架怎么设计的，你让它改，你可以基于它现捏一个新框架出来。

这是为什么OpenClaw从二点几版本，我当时用的时候，它并不好用，我花了好几天时间去改它。到三点几版本，就3月10多号的版本非常易用。你基本上基于三点几后的版本接一个还不错的模型，都会觉得它很强大。而不是只有接Claude的模型会觉得它很强大。

因为整个Agent的架构受一堆人——开发者也好，像我这种并不是一开始这个框架的开发者，只是使用者也好——我都能去改进它，我for我自己的场景去做改进和优化。

在我看来，这是开源Agent框架本身的价值和意义。

它激发了中层模型的上限

张小珺：你提到对于OpenClaw，你最开始的态度也是抵触的？

罗福莉：如果要追求非常顶尖的编程体验，哪怕是当下，也是Claude Code加Claude Opus 4.6是最好的。如果你是在这样一个终局去思考。任何Agent框架，确实都可以忽略掉。

但是，Code是一个泛化性非常强的场景。你针对它去做了非常多Agent的设计，或者说模型的训练，都是有价值的。但并不代表，这个泛化性能保证你在非Code场景，做到非常高的准确率和完成度。

所以，虽然也会用Claude Code做一些非Code的东西，但我并没有期待说，它在这套框架上能给我一个很高的完成度。我知道我会去帮它补充这套框架不具备的短板。

但我用OpenClaw，不用考虑这些——它在Agent框架本身就弥补掉了很多模型短板。

张小珺：我能理解OpenClaw是让Coding能力泛化出来的一个产品吗？

罗福莉：它在很多设计逻辑上，比如有更多message的channel（消息通道），有更自主的设计——像定时任务、心跳任务——这些更适合日常场景。因为你写代码通常不会需要一个心跳任务吧？但如果是日常生活，心跳任务很关键。它确实有很多框架设计，是为了让它适应日常任务。

但我觉得它也没有丢弃掉，一个好的Agent框架本身最基本的特点。这些最基本特点，后边被Claude Code吸纳进去。

比如说，持久化记忆。Claude Code之前的记忆还是for整个记忆系统设计，还是for软件工程。比如说它会在session（会话）内，session快满的时候有一个压缩动作，然后把它记忆进去。我在完成任务的时候，根据我的plan可能会有一些记忆动作，保证我跨session的时候Context是共享更好的。所以你能看到Claude Code所有Agent框架设计，都是非常for软件工程——怎么去写好代码。

OpenClaw设计之初，是借鉴这个思想；但是呢，它更想的是，怎么更好端到端完成所有任务，并且怎么弥补当下模型在端到端完成任务上的短板。像这种持久化记忆，到后边这种你能通过一个更好的remote界面能去操控它。

所以，很好的设计，后边陆陆续续这一两个月完全被Claude Code吸纳进去了。这也是双向的触动。

因为这些设计，它激发了中层模型的上限。

我们如果没有这么一套很复杂的Agent框架，中层模型达不到近似Claude Sonnet或Opus的水平。但你借助了这样一个非常好的Agent框架，就能应付绝大部分场景。除了那种非常难的、需要长程任务，或者我称为严肃编程吧，比如写算子优化就算是严肃编程——像这种场景，它确实可能距离顶端的模型还有差异。

但在绝大部分生活的场景，或者只需要借助代码提效的场景，这样一套新的Agent框架，再加上一个中层的模型——中层可能在85%任务上能达到跟Claude Sonnet一样水准的模型——它借助这样一个框架，已经能发挥非常大作用。

张小珺：一种业内观点认为，如果把OpenClaw看作一个壳，它是释放了现在最强模型能力的壳，这个模型就是Claude Opus 4.6。你的表述（“激发了中层模型的上限”），似乎不认可这个观点？

罗福莉：认可、认可。它的上限一定是靠Claude Opus 4.6带来的（备注：Anthropic在近期已经宣布停止支持OpenClaw调用）。我在跟它高强度合作的一周，只用Claude Opus 4.6。因为只有它能给我带来惊艳的感受。

但当我用Claude Opus 4.6，沉淀下来那一堆经验——不管是Skills还是在Agents.md里边。我甚至自己改了它的整个Agent架构设计。

这也是Claude Code另一个弊端，它的Agent架构设计是黑盒。黑盒导致，你改不了记忆系统，你也改不了Agents workflow（工作流）。