奖励模型终迎Scaling定律!POLAR范式解锁LLM新潜力 | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
ChatGPT问世以来,基于人类反馈的强化学习(RLHF)已成为训练顶尖大模型(LLM)的标配。然而,这条通往AGI的道路上,一个关键瓶颈始终未能解决:作为RLHF核心的奖励模型(Reward Model, RM),其自身的发展和扩展能力远远落后于语言模型本身。
当我们见证着LLM通过海量数据和算力展现出惊人的“涌现”能力时,奖励模型却因依赖昂贵、主观且难以规模化的人工偏好标注,成了一块制约人工智能发展的短板。现在,上海人工智能实验室(Shanghai AI Lab)的一项突破性研究,可能将彻底改变这一现状。他们提出了策略判别学习(Policy Discriminative Learning, POLAR),一种全新的奖励模型预训练范式,首次让奖励模型也拥有了可预测的Scaling Laws。这不仅是AI领域的一条重磅AI新闻,更可能打通强化学习链路扩展的“最后一公里”。

传统奖励模型的“天花板”在哪里?

要理解POLAR的革命性,我们首先要看清当前奖励模型面临的困境。传统的奖励模型训练范式可以概括为: 1. 收集数据:针对特定场景,让标注员对模型生成的多个回答进行偏好排序(哪个更好,哪个更差)。 2. 训练模型:基于这些成对的偏好数据,训练一个模型来学习人类的“绝对偏好”,即学会判断什么样是“好”的回答。
这种模式存在几个致命缺陷:
  • 主观性与局限性:人类的偏好是多样的,甚至是矛盾的。对于“彩虹是怎么形成的?”这个问题,有人喜欢简洁的答案,有人喜欢详尽的科学解释。传统RM一旦训练好,其偏好就是固化的,无法灵活适应不同场景的需求。
  • 成本高昂:高质量的偏好数据标注成本极高,这使得奖励模型的训练规模受限,无法像LLM那样进行大规模、系统性的预训练。
  • 缺乏可扩展性:最关键的是,这种范式没有清晰的Scaling Law。简单地增加标注数据和模型参数,并不能保证奖励模型性能的持续、可预测性提升。它更像是一种“手工作坊”,而非现代化的“工业生产线”。
正是这个“天花板”,限制了强化学习在提升大模型能力上的潜力。

什么是POLAR:一种全新的“相对”奖励范式

POLAR彻底颠覆了传统思路。它不再学习一种绝对的、普适的“好坏”标准,而是学习一种相对的“距离”。其核心思想是:根据一个给定的参考答案,来为模型的其他输出打分。一个输出越接近参考答案所代表的策略,其奖励分数就越高。
让我们回到那个“彩虹”的例子。使用POLAR,我们可以:
  1. 提供一个“简短扼要”的参考答案:POLAR会给最简洁的回答最高分。
  1. 提供一个“详细分析”的参考答案:POLAR则会认为最详尽的科学解释是最好的。
  1. 提供一个“俏皮发散”的参考答案:此时,那个加入了生活化描述的回答会获得最高奖励。
这种灵活性是革命性的。它意味着我们不再需要为每一种偏好都重新训练一个模型。只需要改变参考答案,同一个POLAR模型就能适应千变万化的定制化需求。
更进一步,在处理有标准答案的闭式问题(如数学题)时,POLAR也能提供比传统“对/错”二元奖励更细粒度的反馈。它能区分出“答案正确、思路也正确”、“答案正确、但无思路”、“思路正确、但答案算错”等细微差异,为LLM的优化提供更精确的指导信号。

POLAR如何实现“可扩展性”?

POLAR的强大能力源于其创新的两阶段训练方法,这正是它能够像LLM一样实现扩展的关键。

第一阶段:大规模无监督预训练

这是POLAR的精髓所在。研究人员借鉴了LLM用“Next Token Prediction”统一所有任务的思路,为奖励模型找到了一个可以大规模扩展的、与具体偏好解耦的预训练目标。
POLAR使用对比学习的方式,让模型学会度量不同策略模型(Policy)输出的“距离”。具体做法是: * 构建正样本:从同一个策略模型采样出的两个不同回答,被视为“距离近”的正例。 * 构建负样本:从两个不同的策略模型采样出的回答,被视为“距离远”的负例。
这个过程完全可以自动化。研究团队构建了一个包含超过180个开源LLM的策略模型池,通过随机组合这些模型来自动生成海量的训练数据(POLAR-7B的预训练数据量高达3.6T Token)。
通过这种方式,POLAR在预训练阶段就学会了理解不同AI模型在风格、逻辑、内容上的细微差异,隐式地建模了策略分布的距离。这是一个真正无偏的、可无限扩展的学习信号。

第二阶段:少量偏好数据微调

在强大的预训练基础上,POLAR仅需极少量的、带有人类偏好排序的数据进行微调,就能迅速对齐人类的价值观和偏好。这就像一个已经读万卷书的学者,只需稍加点拨,就能领会特定场景的要求。

惊人的Scaling Law与实际效果

POLAR最令人振奋的发现是,它展现出了与LLM类似的Scaling Laws。实验数据显示,无论是增加模型参数量,还是增加训练计算量,POLAR的验证集损失都呈现出漂亮的幂律下降。
这意味着:只要持续投入算力,POLAR模型的性能就会持续、可预测地提升。 奖励模型终于从“手工作坊”时代迈入了“工业化”时代。
在实际效果上,POLAR同样表现惊艳: * 偏好评估:仅有1.8B参数的POLAR-1.8B,其性能就足以媲美参数量是其15倍甚至40倍的SOTA奖励模型。 * 强化微调:使用POLAR-7B对Llama-3.1-8B进行微调后,模型在各项基准测试中平均提升了9.0%,显著优于其他顶级奖励模型的优化效果。
从1.8B到7B模型的性能提升,进一步验证了其Scaling效应的真实有效性。

结论:开启LLM后训练新篇章

POLAR的提出,是人工智能领域,特别是大模型后训练方向的一次范式转移。它通过创新的策略判别学习,成功地为奖励模型赋予了可扩展性(Scaling)这一宝贵特性,解决了长期困扰AI社区的强化学习瓶颈。
这不仅意味着未来的LLM可以通过更强大、更精确的奖励信号进行优化,也为通用强化微调(RFT)的应用铺平了道路,让我们离真正的AGI又近了一步。
想了解更多关于AI大模型Prompt工程等前沿AI资讯和深度解读吗?欢迎访问AIGC导航站(aigc.bar),获取最新、最全面的人工智能动态。
Loading...

没有找到文章