大模型RL微调：破解多样性危机与遗忘

type

status

date

slug

summary

RL微调的“双刃剑”：为何模型越训越“单一”？

近年来，大语言模型（LLM）在各类任务中展现出惊人的能力。通过强化学习（RL）进行微调，特别是基于可验证奖励的强化学习（RLVR），已成为进一步提升其推理能力、代码生成、数学求解等表现的强大手段。众多研究证实，RL能显著提高模型在单次尝试（Pass@1）下的成功率。然而，这种看似完美的提升背后，却隐藏着一个不容忽视的“多样性危机”和“灾难性遗忘”问题。

许多RL微调后的模型，虽然能“精准命中”一个正确答案，但在允许多次尝试时（Pass@k），性能反而下降。这表明模型似乎变成了“押题大师”，擅长找到少数高概率解法，却丧失了原本丰富的解题思路和候选解空间。更严重的是，这种现象往往伴随着对原有知识的遗忘和跨领域泛化能力的削弱。这不禁让我们思考：RL微调真的是万能药吗？还是在追求极致性能的同时，牺牲了模型的内在多样性和鲁棒性？更多关于AI的最新动态和深度分析，请关注 AI资讯 平台。

被忽视的“关键先生”：Divergence项的选择之谜

面对RL微调带来的多样性坍塌问题，传统的解决方案往往集中于奖励设计、采样策略或熵调控。然而，复旦大学、无限光年、上海科学智能研究院等机构的联合研究团队发现，一个更基础、更关键的问题长期被忽视：RL目标函数中的 divergence项，究竟应如何选择？

在大多数RL后训练方法中，常见的做法是采用 reverse-KL散度，或直接移除divergence约束。这两种选择都存在明显缺陷：

Reverse-KL 本质上是“模式寻求”（mode-seeking）的，它会鼓励策略向少数高概率模式收缩，导致模型集中于少数“熟悉答案”。

缺失divergence项 则意味着模型在训练过程中缺乏对原始知识分布的显式保护机制，容易在优化奖励的同时遗忘其他有效解法。

这两种设定都可能导致模型日益集中于少量高回报的解法，进而引发Pass@k下降、既有能力遗忘以及跨任务泛化能力减弱。如果将基础模型视为一个拥有大量知识和多样解法的“知识分布”，那么RL微调的目标本应是在保留既有能力的前提下进一步提升任务表现。然而，不当的divergence选择，却让RL目标中的“保护机制”沦为“多样性压缩器”。

DPH-RL：重塑Divergence，实现多样性与性能的平衡

为了破解这一难题，研究团队提出了 DPH-RL（Diversity-Preserving Hybrid RL） 方法。其核心思想在于：divergence不应仅仅是训练时的附带正则项，而应被重新设计为主动保护模型多样性的关键机制。

DPH-RL的核心创新点在于：

引入Mass-Covering f-divergence：与倾向于收缩至单一模式的reverse-KL不同，DPH-RL采用 mass-covering f-divergence（例如forward-KL或JS散度）。这类divergence会鼓励新策略继续覆盖参考策略中原本存在的多种解法。它并非强迫模型“只记住最优路径”，而是在提醒模型：“你可以继续变强，但不要忘记原本掌握的东西。”这就像为模型提供了一个“复现机制”（rehearsal mechanism），使其在训练过程中持续参考初始策略的分布，从而保留原有的知识覆盖范围。

2. 分情况训练策略：DPH-RL并非对所有样本“一刀切”地施加约束，而是将数据划分为两部分： * 探索集合（Dexp）：针对模型尚未掌握的困难样本，不加入任何KL penalty，允许模型更激进地探索高奖励解法，以提升能力上限。 * 近完美集合（Dpef）：针对模型已基本掌握的样本，通过f-divergence保持在正确样本上的多样性。模型在这部分样本上不再追求“获取更高奖励”，而是尽量不偏离原本已表现良好的行为分布，从而稳固知识底座。

这种“分情况计算”的训练方式，使得DPH-RL在提升模型能力的同时，有效避免了对原有知识和多样性的破坏。

实验验证：DPH-RL在性能与泛化上的卓越表现

实验结果有力地证明了DPH-RL的有效性：

In-Domain性能：在SQL任务（BIRD数据集）上，GRPO和DAPO虽然可能提升了Pass@1，但Pass@k（如Pass@8和Pass@16）显著低于基础模型，证实了多样性坍塌。DPH-F和DPH-JS不仅Greedy（Pass@1）分数最高，其Pass@8分数也超越了Base Model，且在更大的k设置下更接近Base Model，显著缓解了Pass@k的崩塌。

Cross-Domain与OOD性能：在SQL任务（Spider数据集）和数学数据集等跨域和域外任务上，所有RL模型在分布偏移时都会出现性能下降。然而，DPH-F和DPH-JS的Pass@k分数显著高于其他所有RL方法，最接近Base Model的原始水平。这表明通过保留解决方案的多样性，DPH-RL能更有效地防止灾难性遗忘，从而在面对新领域问题时保持更强的泛化能力。

保留与探索的平衡：研究通过“保留率”（Keep Rate）和“额外探索率”（Additional Exploration Rate）解构了模型知识动态。DPH-RL在保持高保留率的同时，也实现了有效的探索，证明了在提升模型能力上限的同时，稳固已有的知识底座是取得最终胜出的关键。

结论：RL微调新范式——多样性与奖励并重

DPH-RL的提出，为大语言模型RL微调中的多样性危机和灾难性遗忘问题提供了一个创新的解决方案。它深刻揭示了RLVR中divergence项选择的重要性，并将mass-covering f-divergence重塑为保护模型多样性与缓解遗忘的核心工具。实验结果表明，DPH-RL不仅能缓解Pass@k下降问题，还可同时提升Pass@1，并在跨域任务上展现出更优的稳定性与泛化能力。

这一研究成果启示我们：在RL后训练时代，保住多样性与提高奖励同等重要。未来的大模型微调，需要更加精细化地平衡性能提升与知识保留，让模型在变得更强大的同时，也能保持其固有的丰富性和泛化能力，避免成为只会“押题”的“单一大师”。了解更多关于大模型、提示词和AI应用的信息，请访问 AI门户。