英伟达GDPO详解:超越GRPO,多奖励强化学习新范式
type
status
date
slug
summary
tags
category
icon
password
网址

随着DeepSeek-R1等大模型的爆火,其背后的强化学习技术GRPO(Group Relative Policy Optimization)一度成为业界的焦点。GRPO以其高效和简洁的特性,帮助模型在推理能力上取得了巨大突破。然而,AI技术的发展日新月异,英伟达(NVIDIA)研究团队近期发表的一篇重磅论文指出,在面对更复杂的“多奖励优化”场景时,GRPO可能并非最佳解。
为了解决这一痛点,英伟达提出了一种名为GDPO(Group reward-Decoupled Normalization Policy Optimization,组奖励解耦归一化策略优化)的新方法。本文将深入解读GDPO如何通过技术创新,解决多目标对齐中的信号丢失问题,并探讨其对未来大模型(LLM)发展的深远影响。如果您关注最新的 AI资讯 和 大模型 技术进展,请持续关注 AINEWS。
GRPO在多奖励场景下的局限性
GRPO的核心优势在于其去除了价值函数(Value Function)的依赖,通过组内归一化来计算优势值,极大地节省了显存并提升了训练效率。这在优化单一目标(如纯粹的答题准确率)时表现优异。然而,随着 AGI 研究的深入,我们对 人工智能 的要求不再局限于“答对问题”,还包括“格式规范”、“长度适中”、“语气恰当”等多种人类偏好。
英伟达的研究发现,当我们将这些不同的奖励信号(多奖励)简单相加后,再应用GRPO进行归一化,会出现严重的“信息压缩”现象。
举个简单的例子:假设模型针对一个问题生成了多个回答。
* 回答A同时满足了“准确性”和“格式”两个要求(总分2分)。
* 回答B只满足了“准确性”(总分1分)。
* 回答C两个都没满足(总分0分)。
在GRPO的逻辑下,经过组内归一化后,(0, 1) 的组合与 (0, 2) 的组合可能会产生极其相似甚至相同的优势值。这意味着,模型无法敏锐地感知到“同时满足两个条件”比“只满足一个条件”要好得多。这种信号的“抹平”导致模型在多目标权衡时变得迟钝,甚至在训练后期出现性能坍塌。
GDPO的核心创新:解耦归一化
为了克服上述挑战,GDPO引入了“解耦”(Decoupled)的概念。与GRPO先求和再归一化不同,GDPO采取了“先归一化,再求和”的策略。
具体来说,GDPO会针对每一个独立的奖励信号(例如准确率奖励、格式奖励、长度奖励)分别进行组内归一化计算。
1. 先计算“准确率”在当前组内的相对优势。
2. 再计算“格式”在当前组内的相对优势。
3. 最后将这些归一化后的优势值进行加权求和,用于更新策略。
这种看似简单的调整,从数学原理上保留了不同奖励信号的细粒度差异。它确保了当一个回答同时满足多个高难度奖励时,其最终的优势值能够显著高于仅满足部分奖励的回答。这使得 LLM 在训练过程中能够接收到更清晰、更准确的指导信号,从而更有效地向理想的 Prompt 响应模式进化。
实验数据:GDPO全面优于GRPO
为了验证GDPO的有效性,英伟达团队在工具调用(Tool Calling)、数学推理(Math Reasoning)和代码推理(Code Reasoning)等多个高难度任务上进行了对比测试。结果显示,GDPO在稳定性与效果上均实现了对GRPO的超越。
- 工具调用任务:在BFCL-v3基准测试中,使用GDPO训练的模型在保持高准确率的同时,格式错误率大幅降低。相比之下,GRPO在处理格式约束时往往顾此失彼,难以平衡“调用正确”与“格式合规”的双重目标。
- 数学推理任务:在DeepSeek-R1-1.5B等模型的训练中,GRPO在训练后期容易出现“为了优化长度奖励而牺牲准确率”的现象(即模型学会了偷懒,写短答案但不一定对)。而GDPO则成功避免了这种训练坍塌,在MATH和AIME等权威榜单上,准确率提升了2.6%至6.7%不等。
- 代码推理任务:在引入三个优化目标(通过率、超长惩罚、Bug率)的复杂场景下,GDPO依然表现稳健,证明了其随着奖励数量增加而具备的强大泛化能力。
为什么GDPO对未来AI发展至关重要?
GDPO的提出不仅仅是一个算法的改进,它反映了 人工智能 训练范式的转变。在 AI变现 和实际落地应用中,用户对模型的需求永远是多维度的。一个优秀的AI助手,既要像专家一样精准(高准确率),又要像秘书一样规范(格式正确),还要像朋友一样体贴(语气和长度适宜)。
传统的单目标优化已经无法满足这些复杂的对齐需求。GDPO通过精准的多奖励优化,为模型“既要、又要、还要”提供了数学上的可行性。这对于提升 ChatGPT、Claude 等类大模型的综合用户体验具有重要意义。
结论
英伟达提出的GDPO算法,精准地击中了当前多奖励强化学习中的痛点。通过解耦归一化策略,GDPO不仅修复了GRPO在信号压缩上的缺陷,更在实际任务中展现出了卓越的训练稳定性和最终性能。
随着 大模型 技术的不断演进,如何更精细地对齐人类复杂偏好将是通往 AGI 的必经之路。GDPO无疑为这一进程贡献了重要的技术基石。对于广大开发者和研究人员而言,在涉及多目标优化的场景下,尝试从GRPO转向GDPO或许将带来意想不到的性能提升。
想要获取更多关于 AI日报、LLM 前沿技术以及 AI资讯 的深度解读,请务必访问 AINEWS,我们致力于为您提供最新、最硬核的人工智能动态。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)