小米AI亮剑:R3技术攻克大模型训练难题,罗福莉现身 | AI门户

type
status
date
slug
summary
tags
category
icon
password
网址
在当前人工智能(AI)领域,大模型(LLM)的竞争已进入白热化阶段。各大科技巨头不仅在模型参数和能力上展开军备竞赛,更在底层的训练方法论上寻求突破。近日,一篇来自小米AI团队与北京大学的联合论文,为这个火热的赛道再添一把火,不仅揭示了一项关键技术突破,也让AI圈知名研究员罗福莉的动向再次成为焦点。这不仅仅是一则简单的AI新闻,更预示着大模型训练范式的又一次进化。

MoE与强化学习的“死亡之舞”

要理解小米这项研究的价值,我们首先需要了解当前LLM发展面临的一个核心挑战。当模型预训练达到一定瓶颈后,强化学习(Reinforcement Learning, RL)便成为推动其能力边界(如复杂推理和Agent任务)的关键。简单来说,就是让模型通过与环境互动、获取反馈(奖励或惩罚)来“自我迭代”,变得更聪明。
然而,当强化学习遇上混合专家(Mixture-of-Experts, MoE)架构时,情况变得异常复杂。MoE架构通过动态激活一部分“专家”网络来处理不同任务,极大地提升了模型的计算效率。但这种动态性也成了一把双刃剑: * 不稳定性:在强化学习中,模型需要在“推理生成”和“训练更新”两个阶段间循环。MoE的路由机制(即选择哪个专家的过程)具有随机性,导致两个阶段的决策路径可能完全不同。 * 概率漂移:这种不一致性会随着训练的进行不断累积,形成“概率漂移”。模型在训练时优化的目标,与它在实际推理时表现出的行为渐行渐远。 * 灾难性崩溃:最终,这种漂移可能导致模型训练彻底“跑偏”,性能不升反降,即业内闻之色变的“灾难性崩溃”。如何平衡强化学习的效率与MoE架构的稳定性,成了一个亟待解决的难题。

R3横空出世:锁定路由,驯服不确定性

针对上述困境,小米和北大的研究团队提出了一种名为Rollout Routing Replay(R3)的创新解决方案。这个方法的核心思想可谓大道至简:既然问题出在推理和训练阶段的路由不一致,那就强制让它们保持一致。
R3的具体做法如下: 1. 记录路由:在强化学习的“推理生成”(Rollout)阶段,当模型处理输入token并选择专家时,系统会将其完整的路由决策分布记录下来。 2. 重放路由:在随后的“训练更新”阶段,系统会“重放”(Replay)这些被记录下来的路由分布。这意味着,训练过程将严格遵循推理时走过的“路”,使用完全相同的专家组合进行参数更新。
通过这种“锁定路由”的方式,R3机制从根本上消除了推理与训练之间的不一致性,从而有效抑制了概率漂移,让MoE模型也能在强化学习的道路上稳步前行。

不止稳定,更求高效:R3与缓存技术的完美融合

解决了稳定性问题后,效率便成为下一个优化的重点。在强化学习中,模型需要进行海量推理,如果每次都从头计算,算力开销将是天文数字。为此,业界普遍采用KVCache前缀缓存技术,保存已计算过的上下文,避免重复劳动。
但对于MoE架构,仅仅缓存上下文还不够,因为每次计算仍需重新进行路由选择。研究团队在此基础上巧妙地引入了路由掩码(routing mask)缓存。 * 双重缓存:在缓存KVCache的同时,将对应上下文的路由掩码也一并存储。 * 直接复用:当下次遇到相同的前缀上下文时,模型可以直接加载缓存的路由掩码,跳过耗时的专家选择步骤。
这一改进使得R3能够与现有的高效推理引擎无缝集成,确保了在大规模强化学习和复杂的Agent任务中,模型不仅训得稳,还跑得快。实验结果表明,在Qwen3-30B-A3B模型上的测试中,应用了R3的方法不仅性能得分更高,训练曲线也平滑得多,有效避免了崩溃现象。

AI新星罗福莉与小米的“双向奔赴”

除了技术本身的突破,这篇论文的作者阵容同样引人注目。其中,通讯作者之一的罗福莉,无疑是AI资讯圈的焦点人物。她本科毕业于北师大,硕士深造于北京大学,师从另一位通讯作者穗志方教授。罗福莉在阿里达摩院和DeepSeek期间均有亮眼表现,参与研发了多个知名模型。
此前,因其在DeepSeek登上《Nature》的论文中署名为“北京独立研究者”,一度引发外界对其职业动向的猜测。而此次她以通讯作者身份出现在小米与北大的联合论文中,尽管单位标注依然模糊,但无疑释放了一个强烈信号:小米正在积极吸纳顶尖AI人才,并致力于投入底层核心技术的研发。这不仅是AI人才与科技巨头的一次强强联合,也从侧面印证了小米在AGI时代的雄心。
总而言之,小米通过R3技术,为MoE大模型在强化学习道路上扫清了一大障碍,这对于推动人工智能向更高级、更复杂的任务迈进具有重要意义。想要获取更多前沿的AI日报和实用的Prompt技巧,敬请关注 AIGC导航 (https://aigc.bar),您的专属AI门户,带您洞悉AI世界的每一次脉动。
Loading...

没有找到文章