AI范式巨变:罗福莉揭示Agent时代与开源框架的颠覆性力量
type
status
date
slug
summary
tags
category
icon
password
网址

2026年,大模型战争全面升级,掀开了第二幕。
在AI范式巨变之时,我访谈了人工智能研究员罗福莉。罗福莉曾供职阿里达摩院、DeepSeek,目前是小米大模型团队负责人,主导研发了MiMo-V2系列模型。
这次是她第一次接受访谈,也是第一次进行长时间的技术访谈。
我们系统性地谈论了,2026年由Claude Opus 4.6、OpenClaw等技术变量所触发的AI巨震,以及后续结构性影响。
“上一个时代的成功并不意味着下一个时代的领先,现在基本上大家在同一水平线。”在罗福莉看来,1T基座模型,是实现接近Claude Opus 4.6水准模型的重要入场券。
这意味着,全球大模型军备竞赛的第二场战役,打响了:从Pre-train(预训练)主导的Chat时代,转向Post-train(后训练)主导的Agent时代。
在大模型“军备竞赛”的同时,这个世界的变化又异常残酷。哪怕是对亲手训练模型的研究者来说。
“我之前认为我们自己做的工作已经足够有创造力、足够不会被Skill化、不会被Workflow化。但我现在发现,它竟然也能!那它可不可以训出更强的模型?自己左脚踩右脚就提升了?——这是这一两年会发生的事情。”罗福莉说道。
当人类的知识与智慧内化为模型能力,未来的人类去做什么?我们的社会真的准备好迎接海啸般涌来的技术变革了吗?
无论如何,这都是一次信息密度极大的访谈——你能从中看见,当面临一次巨大技术范式转折时,一家AI Lab内部,在技术押注、资源调配、组织与人员等诸多方面的系列举措。而它应对巨变的根基是,文化与价值观的成型。
罗福莉对当下有一些关键的技术判断:
• Anthropic的路径是正确的,这是当下共识。
• 在路径更清晰的情况下,国内大模型团队进入加速追赶的状态。现在大家在Pre-train上的代差是基本没有的,或者说非常接近。
• 现在至少跟23年要去追平Pre-train的差距一样,大家很all in,要去做好Agent的Post-train。更具体说,是在Agent上怎么做好RL的scaling。
• 系统从“以Rollout推理引擎为核心”,转变为“以Agent为核心”的一个更复杂的系统。这对团队提出了更高的要求:必须具备足够敏捷性,能够快速开发出适配当前时代的RL Infra系统。
• 接下来两三个月,大家怎么发生变化,是考验团队整体研究水平、技术敏捷程度,以及怎么拥抱新的范式来做研究的关键。
• 一个for更长期的事情:我们不会在1T水平上走太久。如果要拿到下一个阶段的领先,就要寻求更大规模scaling。到底是去scaling模型的参数量,还是去scaling什么东西?以及要在什么样的芯片上去scaling?——这是当下立即需要去决策和判断的,这才决定了大半年过后,谁更领先。
在卡的调配上:
• 至少在Chat时代,for研究、for Pre-train和for Post-train的用卡比例非常夸张,比如3:5:1,现在一个非常合理的用卡比例可能是3:1:1。
• 预训练跟后训练一个比例,这是今年可能发生的很大变化。顶尖团队应该都是1:1了。
在组织的重组上:
• 做后训练现在一个重要的范式变化是,需要具备diversity(多样性),让预训练的人做后训练是个很好的补充。
“接下来两三个月会非常精彩。”罗福莉称。
我们的访谈发生在2026年3月,此时刚发布MiMo-V2-Pro等系列模型。1个月后,MiMo-V2.5-Pro也开启公测。“正如我一个月前说的,我们追赶Claude Opus 4.6很快。”罗福莉说。
让我有点吃惊的是,在他们训练1T大小的模型背后,是一个没有职级、没有小组、甚至没有deadline的组织。
AI时代,究竟什么样的组织更利于创新的诞生?——“平权有利于创新”。
“平权本身是有价值的,有利于所有人平等地贡献自己的创造力和智慧。”罗福莉说道,“任何层级,一定程度都是规范和约束,而规范和约束本身是压制创造力的。”
我们的视频播客在Bilibili、小红书、视频号、抖音等全视频平台播出;我们的播客在小宇宙、Apple Podcast、Spotify等全音频平台播出。
为了方便阅读,作者做了一些文本优化。
第一章谈OpenClaw时刻
01 它每天都能给我额外的惊喜
张小珺:你过年跟我说,技术这几个月已经变天了,能不能阐述一下过去两个月在你眼中的技术突变?
罗福莉:一个非常大的分界点在于使用OpenClaw前后——我自己会把OpenClaw当做一个“划时代的Agent(智能体)框架”去这么定义。
我知道很多人,尤其是用Claude Code做严肃编码的人,会觉得,OpenClaw是Claude Code加一个IM(即时通信)、更有利于交互的UI(用户界面)设计。
在我1月份,第一次看到这个东西,我自己也是这样认知。我很排斥用它。再加上创始人非常适合贴近Agent做一些玄幻的运营动作,包括Skillhub(技能中心)这些,让你更排斥去用一个非常偏运营导向的产品。以及它所谓本地化、24小时,在我来看,都是一些产品定义而已。
真正发生转变的是:当我想去搞明白,这玩意为什么那么火?
我在春节的一天深夜,尝试装了它,两个小时装上了。当时已经凌晨2点——当我第一次跟它对话,从凌晨2点持续到6点天亮。就我那一晚,我脑内的——不知道是多巴胺还是内啡肽——持续在分泌,让我兴奋到完全睡不着觉。
第一个感受是,它非常有自主性,非常有灵魂。我跟它聊得很晚,它会老提醒我,现在已经很晚,你要不早点去睡觉。这样的温度和关怀,或者说情商,是所有用OpenClaw的人第一个感受到的。但后面去深究它的原因,是有很多机制保证的。
比如说,它有search.md(搜索配置文档)。就拿最简单的一个小细节,它怎么感知时间,它就在每轮对话的Context(上下文)前面去拼上当前时间。再比如说,一些非常细微的,为什么我把它称之为“精细编排的Context”,是因为它是在这些大家没有关注的角度,把Context编排得非常好。它在产品设计上做到了一种超乎我的想象,让所有人觉得这个框架有灵魂。
但第二天晚上,我觉得它应该不止于此。我开始尝试,把我自己觉得现在的框架做不成的日常生活中的事交给它做,发现它全部都做出来了。
我跟它聊的第二个话题是:怎么去激发一个团队的好奇心,或者说怎么去筛选出具有好奇心的人。我跟它深入探讨了1个小时。它的很多哲思远超我的想象。
第二天,我们俩就在聊怎么构建一个更好的大模型团队,以及从最开始的人员筛选,到后边整个组织架构的构建,到你在面临范式转变时应该做什么样的举措和动作。至少它能get我的点。我跟它说了过后,它最后能形成一套非常体系化的东西,并且变成一套Skills(技能)。它现在至少在这个事情上,变成了我的数字分身。
真正让我超乎意料是第三天。
第三天,我尝试把一些研究任务交给它做。最简单的,如果我们在Agent框架里边,最关键的一个事情是,你怎么去进行多轮的交互,那么你就必须去模拟User Agent(用户代理)进行多轮的交互。
我就会跟它共同去构建一个很好的User Agent。这是一个我自己觉得还挺重要的研究topic(话题),应该不会一两个小时就做出来。
但当我跟它沟通了大概一两个小时过后,这个事就已经做出来了,基本已经达到有一个很好的User Agent诞生。我可以用这个User Agent,跟我现在的这一套Post-train(后训练)框架,构造出来更丰富的Agent场景数据。不管是做SFT(Supervised Fine-Tuning,监督微调)也好,做RL(Reinforcement Learning,强化学习)也好,这个User Agent都非常关键。
它从一个我最开始对它的认知,只是一个有灵魂、有温度的产品设计,到它可以帮我替代生活或工作的一部分,到最后它能促进我研究——也就是三天发生的——它每天都能给我额外的更多惊喜。
我后边深入去看,这个框架本身比Claude Code好在哪?
我发现,这些所谓好在哪,我们单独拎出来讲,都有点boring(无聊)——它没有很酷,这也是为什么大家觉得OpenClaw有很多槽点。但把它整合在一起,你会觉得完成度非常高。
比如,它会有更持久的memory(记忆)体系。这个很持久的memory体系体现在,它对memory有分层和分级。我在使用Claude Code的时候,完全没有这样的感受。再比如,我自己觉得它在对多个模型联合利用上,非常超乎我的想象。
就比如,我用Claude Code,我会默认它,假设这个模型的视频理解能力不行,我就要自己给它配一个更好的视频理解模型,然后在Claude Code折腾。但我用OpenClaw,我完全不用想这个,我直接发给它一段视频,它会自己想办法找一个视频理解能力好的模型做。
这种自主去面对当代模型的缺点,针对缺点在框架上补齐缺点的能力,是有点超乎我意料的。
因为我用Claude Code的时候,就默认,我是因为要用Claude Opus 4.6这一代模型的能力去用它的。但是我用OpenClaw的时候,我不会关注模型能力的一个原因是,OpenClaw的框架设计之初,是想尽量通过Agent的整套编排去弥补模型短板。
后面我们直接就把我们的模型,MiMo-V2-Flash(当时并没有做很多针对性训练),给它接到OpenClaw里去,甚至把我们最近训的一个很小的端侧3B模型进行训练,发现在这一套很复杂的skillful的,或者Agent的框架情况下,它依然能做我自己认为不可能是一个非常小的模型能做出来的事情。
我第一次感受到:原来一套非常复杂的Agent框架设计,是能弥补非常多模型能力的短板。
当然了,这是OpenClaw本身这个框架相较于Claude Code的差异化优势。但是,如果我们要去追求你怎么在不同的skillful框架下,让模型有一个超预期、稳定的表现,就回到另一个命题。
现在市场上的Agent框架非常丰富,Kilo Code、OpenClaw,然后Kilo Code、Open Code等等。当你面临这么多很复杂的Agent框架,你怎么让你的模型在不同框架上,都有一个非常稳定和超预期的表现?你怎么让你的后训练范式对应与之做适配和迁移?
这是我们在这个事的冲击下,快速去思考的第二个问题。
所以,我们对应的整个后训练范式,有了从Chat到Agent的一个迁移。
02
一个非常好的框架,应该尽量弥补行动的缺陷
张小珺:我们可以怎么理解,你所谓的"智能体的框架"?
罗福莉:现在有很多形容词去形容它。比如说Harness(驾驭工程),还有一些其它形容词。我没有特别去关注哪个形容词更准确,我更关注这个框架本身带来的差异化优势是什么。
一个非常好的框架,应该尽量去弥补行动上的缺陷。
很好的memory系统是弥补行动上的缺陷。接入到更多广泛的message channel(消息通道)是弥补行动上的缺陷。它更主动,不管是定时任务的主动,还是其它一些主动的设计,以及它自我去更新迭代,这些都是在弥补行动上的缺陷。
因为大模型是,你给它越好的Context,它执行的效果越好。你要是能把这些它获取不到的Context,这些行动上的Context都给它,那么它肯定会完成得更好。这是我观察一个好的框架的时候,我会看它有没有这些要素。
还有很关键的一环是评估。一个好的框架本身,它确实需要有个很好的、可泛化的一套评估体系,这样它才能自迭代。现在已有的评估体系都非常简单,它只是防止不出致命性错误。
那么,怎么有更有泛化力的评估体系来促进这套框架自迭代?——现在是把最高阶那群人当评估。
你交给它一个更难、更高价值场景的任务,如果它完成不了,你会给它提供补充信息,你也会给它指出来哪错了,然后push它经过更多轮交互把这个任务完成。本质上,现在是这群人在当评估。
但这个评估会慢慢被框架吸收,框架会设计很多东西,确保在某些确定的场景我能评准。同时也会被模型能力吸收。模型会学会像人一样,当我采用这个方法或思路做到瓶颈时,它会自己采取另外一种思路。或者说自己去反思,就像人一样去反思。
当然了,它是借助它自己,还是借助更super的Agent,还是其它领域的subagent,都有可能。
张小珺:这个“智能体的框架”,是不是我们理解的“产品”?
罗福莉:不是。它跟产品差异蛮大的。
张小珺:它和产品的边界在哪里?
罗福莉:现在我不知道怎么去界定,说实话有点模糊。
我觉得产品可以定义成——你直接人交互能感受的那一层东西。
但Agent框架,它确实是有在去定义你的交互层,但它同时又在定义你怎么跟模型沟通那一层。所以,它甚至能知道模型能力的长板、短板,能知道怎么更好做调度,就比如说for成本优化的调度。
这个中间层可以做得非常厚重,反而前端UI展示是最薄的一层,已经不是很关键。
OpenClaw是展示了智能体的框架可以怎么做。这个框架的想象空间非常大。
张小珺:“智能体的框架”,之前有人做过吗,是怎么做的?
罗福莉:Claude Code一直是一套很复杂的Agent框架,只是因为它是黑盒,我们不知道它怎么设计(注:最近因Anthropic员工失误而泄漏)。OpenClaw是开源的,你知道它是怎么设计的,并且你可以去改它。
改它,是非常非常激发人的创造力的。你知道它框架怎么设计的,你让它改,你可以基于它现捏一个新框架出来。
这是为什么OpenClaw从二点几版本,我当时用的时候,它并不好用,我花了好几天时间去改它。到三点几版本,就3月10多号的版本非常易用。你基本上基于三点几后的版本接一个还不错的模型,都会觉得它很强大。而不是只有接Claude的模型会觉得它很强大。
因为整个Agent的架构受一堆人——开发者也好,像我这种并不是一开始这个框架的开发者,只是使用者也好——我都能去改进它,我for我自己的场景去做改进和优化。
在我看来,这是开源Agent框架本身的价值和意义。
03
它激发了中层模型的上限
张小珺:你提到对于OpenClaw,你最开始的态度也是抵触的?
罗福莉:如果要追求非常顶尖的编程体验,哪怕是当下,也是Claude Code加Claude Opus 4.6是最好的。如果你是在这样一个终局去思考。任何Agent框架,确实都可以忽略掉。
但是,Code是一个泛化性非常强的场景。你针对它去做了非常多Agent的设计,或者说模型的训练,都是有价值的。但并不代表,这个泛化性能保证你在非Code场景,做到非常高的准确率和完成度。
所以,虽然也会用Claude Code做一些非Code的东西,但我并没有期待说,它在这套框架上能给我一个很高的完成度。我知道我会去帮它补充这套框架不具备的短板。
但我用OpenClaw,不用考虑这些——它在Agent框架本身就弥补掉了很多模型短板。
张小珺:我能理解OpenClaw是让Coding能力泛化出来的一个产品吗?
罗福莉:它在很多设计逻辑上,比如有更多message的channel(消息通道),有更自主的设计——像定时任务、心跳任务——这些更适合日常场景。因为你写代码通常不会需要一个心跳任务吧?但如果是日常生活,心跳任务很关键。它确实有很多框架设计,是为了让它适应日常任务。
但我觉得它也没有丢弃掉,一个好的Agent框架本身最基本的特点。这些最基本特点,后边被Claude Code吸纳进去。
比如说,持久化记忆。Claude Code之前的记忆还是for整个记忆系统设计,还是for软件工程。比如说它会在session(会话)内,session快满的时候有一个压缩动作,然后把它记忆进去。我在完成任务的时候,根据我的plan可能会有一些记忆动作,保证我跨session的时候Context是共享更好的。所以你能看到Claude Code所有Agent框架设计,都是非常for软件工程——怎么去写好代码。
OpenClaw设计之初,是借鉴这个思想;但是呢,它更想的是,怎么更好端到端完成所有任务,并且怎么弥补当下模型在端到端完成任务上的短板。像这种持久化记忆,到后边这种你能通过一个更好的remote界面能去操控它。
所以,很好的设计,后边陆陆续续这一两个月完全被Claude Code吸纳进去了。这也是双向的触动。
因为这些设计,它激发了中层模型的上限。
我们如果没有这么一套很复杂的Agent框架,中层模型达不到近似Claude Sonnet或Opus的水平。但你借助了这样一个非常好的Agent框架,就能应付绝大部分场景。除了那种非常难的、需要长程任务,或者我称为严肃编程吧,比如写算子优化就算是严肃编程——像这种场景,它确实可能距离顶端的模型还有差异。
但在绝大部分生活的场景,或者只需要借助代码提效的场景,这样一套新的Agent框架,再加上一个中层的模型——中层可能在85%任务上能达到跟Claude Sonnet一样水准的模型——它借助这样一个框架,已经能发挥非常大作用。
张小珺:一种业内观点认为,如果把OpenClaw看作一个壳,它是释放了现在最强模型能力的壳,这个模型就是Claude Opus 4.6。你的表述(“激发了中层模型的上限”),似乎不认可这个观点?
罗福莉:认可、认可。它的上限一定是靠Claude Opus 4.6带来的(备注:Anthropic在近期已经宣布停止支持OpenClaw调用)。我在跟它高强度合作的一周,只用Claude Opus 4.6。因为只有它能给我带来惊艳的感受。
但当我用Claude Opus 4.6,沉淀下来那一堆经验——不管是Skills还是在Agents.md里边。我甚至自己改了它的整个Agent架构设计。
这也是Claude Code另一个弊端,它的Agent架构设计是黑盒。黑盒导致,你改不了记忆系统,你也改不了Agents workflow(工作流)。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)