Qwen3范式GSPO:修复GRPO崩溃风险,AI大模型训练新标准
type
status
date
slug
summary
tags
category
icon
password
网址
引言:AI大模型竞赛的“幕后战场”
在人工智能(AI)的浪潮之巅,大型语言模型(LLM)的竞争日趋白热化。从OpenAI的ChatGPT到谷歌的Gemini,再到国内的DeepSeek和Qwen,各大巨头不仅在模型规模和能力上展开“军备竞赛”,更在底层的训练方法论上进行着深刻的变革。近期,一场围绕强化学习优化算法的技术路线之争,将DeepSeek的GRPO和Qwen的GSPO推向了风口浪尖。Qwen团队的研究直指DeepSeek模型所依赖的GRPO算法存在导致模型崩溃的“病态”风险,并提出了其新一代Qwen3模型所采用的GSPO范式作为更优解。这不仅是一次技术迭代,更可能预示着未来LLM后训练阶段的新标准。想要了解最前沿的AI新闻和技术动态,欢迎访问AI门户网站
https://aigc.bar
。## 从RLHF到自动化:大模型后训练的演进之路
要理解这场争论,我们首先需要回顾LLM的训练过程。它通常分为两个阶段:
1. 预训练(Pre-training):在大规模无标签文本上进行训练,让模型掌握语言的基本规律和世界知识。
2. 后训练(Post-training):通过指令微调和强化学习,使模型更好地对齐人类的意图和偏好。
最初,
OpenAI
开创了基于人类反馈的强化学习(RLHF)技术,通过人工标注来“指导”模型,但这种方式成本高昂且效率低下。为了突破这一瓶颈,DeepSeek团队提出了组相对策略优化(Group Relative Policy Optimization, GRPO),通过自动化奖励信号,显著降低了成本,并凭借此技术让其模型大放异彩。然而,看似完美的创新,却被揭示出可能存在致命的缺陷。## DeepSeek的GRPO:是创新还是“病态”优化?
GRPO的核心思想是在一组生成的样本中进行价值评估,这在当时被认为比OpenAI的PPO算法更有效。然而,根据Qwen团队发布的最新研究,GRPO的根基——逐token(token-level)重要性采样——存在严重的设计缺陷。
Qwen团队指出,GRPO存在以下三大问题:
* 高方差累积:在每个token级别应用重要性采样,会在生成长序列时导致误差和方差的不断累积,严重破坏梯度的稳定性。
* 训练不稳定:这种不稳定性会引入大量噪声,最终可能导致训练过程突然中断,甚至引发模型不可逆的崩溃。
* MoE模型噩梦:在专家混合(MoE)架构中,token级别的路由变化会进一步加剧这种不稳定性,使得训练过程极其低效和困难。
基于此,Qwen团队直言不讳地指出,GRPO的优化目标是“病态的(ill-posed)”,无法保证稳定有效的训练。
## Qwen3的GSPO:序列级采样如何稳定大局?
为了解决GRPO的根本性问题,并为其强大的Qwen3系列模型保驾护航,Qwen团队提出了全新的组序列策略优化(Group Sequence Policy Optimization, GSPO)算法。
GSPO的解决方案堪称釜底抽薪,其核心创新在于:
从“逐token”到“逐序列”的飞跃。
GSPO不再对每个细碎的token计算重要性权重,而是将采样单位提升到整个序列(sequence)级别。其重要性权重基于整个生成序列的似然度来计算,并引入了长度归一化因子来平衡不同长度序列的影响。
这种设计从根本上解决了GRPO的方差累积问题,其优势显而易见:
* 显著提升稳定性:通过在序列层面进行平滑处理,避免了token级噪声的累积,确保了梯度更新的稳定性和可靠性。
* 简化训练流程:不再需要复杂的“补丁”策略(如后文将提到的Routing Replay)来维持训练,让整个过程更加简洁高效。
## 实验为证:GSPO在训练效率与MoE模型上的双重优势
理论上的优势需要实验来验证。Qwen团队公布的对比实验结果极具说服力。
在多项任务的训练曲线对比中,GSPO不仅收敛速度更快,而且最终性能也显著优于GRPO。例如,在CodeForces编程任务中,GRPO的性能在达到一个瓶颈后便停滞不前,而GSPO则表现出强大的可扩展性,随着训练的进行,性能持续攀升。
尤其是在MoE模型的训练上,GSPO的优势更加突出。MoE模型因其稀疏激活的特性,在使用GRPO时,梯度更新会导致激活的专家网络频繁变动,Qwen团队发现每次更新后竟有约10%的专家发生变化,这无异于用不稳定的数据训练不稳定的模型。为了缓解此问题,他们之前甚至不得不采用一种名为“路由重放(Routing Replay)”的技巧来强行固定专家。
而GSPO的出现则彻底改变了这一局面。它无需任何额外的路由技巧,就能实现MoE模型的稳定收敛,充分释放了MoE架构的潜力,也解释了为何Qwen3的MoE版本能取得如此卓越的性能。
## 结论:GSPO或将引领下一代LLM训练新标准
总结而言,Qwen团队提出的GSPO通过两大创新,为大模型的强化学习后训练指明了新的方向:
1. 将重要性采样从token级提升至序列级,并进行长度归一化。
2. 根本性地解决了训练不稳定性,并简化了MoE等复杂模型的训练流程。
业界共识是,强化学习对于激发LLM的推理和遵循指令能力至关重要。GRPO曾是这条路上的重要探索,但Qwen的GSPO及其背后的严谨论证,揭示了前者可能存在的局限性。随着GSPO的成功应用及其开放的研究细节,这种更稳定、更高效的序列级采样方法,极有可能成为未来LLM后训练的新范式和行业标准。
对于每一位关注人工智能发展的人来说,理解这些底层的技术变革至关重要。想获取更多关于
LLM
、AGI
、Prompt
工程等领域的深度AI资讯
和AI日报
,请持续关注AI门户 https://aigc.bar
。Loading...