大模型RL微调:破解多样性危机与遗忘

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

RL微调的“双刃剑”:为何模型越训越“单一”?

近年来,大语言模型(LLM)在各类任务中展现出惊人的能力。通过强化学习(RL)进行微调,特别是基于可验证奖励的强化学习(RLVR),已成为进一步提升其推理能力、代码生成、数学求解等表现的强大手段。众多研究证实,RL能显著提高模型在单次尝试(Pass@1)下的成功率。然而,这种看似完美的提升背后,却隐藏着一个不容忽视的“多样性危机”和“灾难性遗忘”问题。
许多RL微调后的模型,虽然能“精准命中”一个正确答案,但在允许多次尝试时(Pass@k),性能反而下降。这表明模型似乎变成了“押题大师”,擅长找到少数高概率解法,却丧失了原本丰富的解题思路和候选解空间。更严重的是,这种现象往往伴随着对原有知识的遗忘和跨领域泛化能力的削弱。这不禁让我们思考:RL微调真的是万能药吗?还是在追求极致性能的同时,牺牲了模型的内在多样性和鲁棒性?更多关于AI的最新动态和深度分析,请关注 AI资讯 平台。

被忽视的“关键先生”:Divergence项的选择之谜

面对RL微调带来的多样性坍塌问题,传统的解决方案往往集中于奖励设计、采样策略或熵调控。然而,复旦大学、无限光年、上海科学智能研究院等机构的联合研究团队发现,一个更基础、更关键的问题长期被忽视:RL目标函数中的 divergence项,究竟应如何选择?
在大多数RL后训练方法中,常见的做法是采用 reverse-KL散度,或直接移除divergence约束。这两种选择都存在明显缺陷:
  • Reverse-KL 本质上是“模式寻求”(mode-seeking)的,它会鼓励策略向少数高概率模式收缩,导致模型集中于少数“熟悉答案”。
  • 缺失divergence项 则意味着模型在训练过程中缺乏对原始知识分布的显式保护机制,容易在优化奖励的同时遗忘其他有效解法。
这两种设定都可能导致模型日益集中于少量高回报的解法,进而引发Pass@k下降、既有能力遗忘以及跨任务泛化能力减弱。如果将基础模型视为一个拥有大量知识和多样解法的“知识分布”,那么RL微调的目标本应是在保留既有能力的前提下进一步提升任务表现。然而,不当的divergence选择,却让RL目标中的“保护机制”沦为“多样性压缩器”。

DPH-RL:重塑Divergence,实现多样性与性能的平衡

为了破解这一难题,研究团队提出了 DPH-RL(Diversity-Preserving Hybrid RL) 方法。其核心思想在于:divergence不应仅仅是训练时的附带正则项,而应被重新设计为主动保护模型多样性的关键机制。
DPH-RL的核心创新点在于:
  1. 引入Mass-Covering f-divergence:与倾向于收缩至单一模式的reverse-KL不同,DPH-RL采用 mass-covering f-divergence(例如forward-KL或JS散度)。这类divergence会鼓励新策略继续覆盖参考策略中原本存在的多种解法。它并非强迫模型“只记住最优路径”,而是在提醒模型:“你可以继续变强,但不要忘记原本掌握的东西。”这就像为模型提供了一个“复现机制”(rehearsal mechanism),使其在训练过程中持续参考初始策略的分布,从而保留原有的知识覆盖范围。
2. 分情况训练策略:DPH-RL并非对所有样本“一刀切”地施加约束,而是将数据划分为两部分: * 探索集合(Dexp):针对模型尚未掌握的困难样本,不加入任何KL penalty,允许模型更激进地探索高奖励解法,以提升能力上限。 * 近完美集合(Dpef):针对模型已基本掌握的样本,通过f-divergence保持在正确样本上的多样性。模型在这部分样本上不再追求“获取更高奖励”,而是尽量不偏离原本已表现良好的行为分布,从而稳固知识底座。
这种“分情况计算”的训练方式,使得DPH-RL在提升模型能力的同时,有效避免了对原有知识和多样性的破坏。

实验验证:DPH-RL在性能与泛化上的卓越表现

实验结果有力地证明了DPH-RL的有效性:
  • In-Domain性能:在SQL任务(BIRD数据集)上,GRPO和DAPO虽然可能提升了Pass@1,但Pass@k(如Pass@8和Pass@16)显著低于基础模型,证实了多样性坍塌。DPH-F和DPH-JS不仅Greedy(Pass@1)分数最高,其Pass@8分数也超越了Base Model,且在更大的k设置下更接近Base Model,显著缓解了Pass@k的崩塌。
  • Cross-Domain与OOD性能:在SQL任务(Spider数据集)和数学数据集等跨域和域外任务上,所有RL模型在分布偏移时都会出现性能下降。然而,DPH-F和DPH-JS的Pass@k分数显著高于其他所有RL方法,最接近Base Model的原始水平。这表明通过保留解决方案的多样性,DPH-RL能更有效地防止灾难性遗忘,从而在面对新领域问题时保持更强的泛化能力。
  • 保留与探索的平衡:研究通过“保留率”(Keep Rate)和“额外探索率”(Additional Exploration Rate)解构了模型知识动态。DPH-RL在保持高保留率的同时,也实现了有效的探索,证明了在提升模型能力上限的同时,稳固已有的知识底座是取得最终胜出的关键。

结论:RL微调新范式——多样性与奖励并重

DPH-RL的提出,为大语言模型RL微调中的多样性危机和灾难性遗忘问题提供了一个创新的解决方案。它深刻揭示了RLVR中divergence项选择的重要性,并将mass-covering f-divergence重塑为保护模型多样性与缓解遗忘的核心工具。实验结果表明,DPH-RL不仅能缓解Pass@k下降问题,还可同时提升Pass@1,并在跨域任务上展现出更优的稳定性与泛化能力。
这一研究成果启示我们:在RL后训练时代,保住多样性与提高奖励同等重要。未来的大模型微调,需要更加精细化地平衡性能提升与知识保留,让模型在变得更强大的同时,也能保持其固有的丰富性和泛化能力,避免成为只会“押题”的“单一大师”。了解更多关于大模型、提示词和AI应用的信息,请访问 AI门户
Loading...

没有找到文章