拒绝“平均分陷阱”:北大RiskPO专挑硬骨头,解锁AI真智能
type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能(AI)浪潮席卷全球的今天,以ChatGPT、Claude为代表的大模型(LLM)已经渗透到我们工作和生活的方方面面。然而,在一片繁荣的背后,一个深刻的瓶颈正悄然浮现:这些模型似乎越来越擅长处理我们已知的问题,但在面对真正陌生的、高难度的推理挑战时,却常常止步不前。这背后隐藏着一个普遍存在于当前AI训练范式中的“均值至上”陷阱。北京大学的最新研究成果RiskPO,正是为了打破这种“假繁荣”,它通过一种全新的思路,逼迫AI直面难题,从而激发出模型的真正潜能。
均值之上的“假繁荣”:当前AI训练的隐形瓶颈
目前,大模型在完成预训练后,通常会采用强化学习进行微调,以提升其在特定任务(如数学解题、代码生成)上的能力。主流方法普遍遵循一个核心原则:最大化奖励的平均值。这听起来合情合理,就像我们希望学生在考试中获得更高的平均分一样。
但问题在于,这种策略会让AI变得“功利”和“短视”。为了快速提升平均分,模型会倾向于将所有资源都投入到那些它已经有一定把握、能够轻松得分的“简单题”上。对于那些“低概率但高信息密度”的难题,由于初期成功率极低,模型会选择性地忽略它们。
这种优化方式带来了两个致命后果:
- 熵坍缩(Entropy Collapse):模型过早地丧失了探索精神。由于只关注高概率的“正确答案”,其输出的多样性急剧下降,思维变得固化,无法发现新颖的、创造性的解题路径。
- 学习停滞:当面对一整批难题,模型全部答错时,基于均值优化的算法会认为“无论怎么做都是错的”,优势函数归零,导致模型在自己的知识薄弱区完全无法获得任何有效的学习信号。
最终,我们看到的是一个在Pass@1(单次尝试成功率)等指标上看似光鲜,实则推理边界从未被真正拓宽的大模型。这正是通往通用人工智能(AGI)道路上的一大障碍。
RiskPO登场:用“风险规避”思维为AI啃下硬骨头
面对这一困境,北京大学彭一杰教授课题组提出的RiskPO算法,带来了一种颠覆性的解决方案。其核心思想是,放弃对平均值的盲目追求,转而采用一种“风险规避”(risk-averse)的策略。
简单来说,RiskPO不再关心模型在所有问题上的平均表现,而是极度关注那些表现最差的部分——也就是奖励分布的“左尾”。它告诉模型:你的能力上限不取决于你能做对多少简单题,而取决于你能否攻克最难的那些。
为了实现这一目标,RiskPO引入了两大创新设计:
- 混合风险价值(MVaR)目标函数:这是RiskPO的数学核心。它通过一种精巧的函数设计,将优化的重点从整体均值转移到奖励分布的低分位区间,从根本上引导模型去“啃硬骨头”。
- 多问题捆绑(Multi-problem Bundling)策略:这是一个巧妙的工程实践。为了解决难题反馈稀疏(非对即错)的问题,RiskPO将多个问题打包成一个“任务包”。这样一来,即使模型只做对了一道题,也能从“5题中对1题”的反馈中获得正向的学习信号,彻底解决了在难题面前“梯度消失”的窘境。
通过这种方式,RiskPO成功地让大模型从一个只求“及格万岁”的普通学生,转变为一个敢于挑战奥赛难题的顶尖选手。
数据为证:从数学竞赛到代码生成,RiskPO的全面超越
卓越的理念需要坚实的数据来支撑。RiskPO在数学推理、代码生成和多模态推理三大领域的多个权威数据集上,都展现出了碾压性的优势,尤其是在高难度任务上。
- 在数学推理领域:在美国数学邀请赛(AIME)这种极具挑战性的任务上,RiskPO的Pass@32得分比主流的GRPO方法高出近7个百分点。这表明它不仅能找到正确答案,还能探索出更多条有效的推理路径。
- 在代码生成领域:在LiveCodeBench测试中,RiskPO的Pass@1也实现了显著提升,证明了其方法的泛化能力。
- 在多模态几何推理中:在Geo3K任务上,其准确率同样领先于当前最强的基线模型。
一个最关键的现象是,随着评估指标从Pass@1(关注最优答案)转向Pass@k(关注答案多样性),RiskPO的优势持续扩大。这雄辩地证明,RiskPO并非简单的“刷分”,而是在真正地提升AI的深度推理和探索能力。
理论与实践的共鸣:为什么RiskPO能有效防止“固步自封”?
RiskPO的成功并非偶然的“炼丹”,其背后有着坚实的理论依据。研究团队通过“高熵更新定理”从理论上证明了,风险规避更新能够有效缓解熵坍缩,保持模型在训练过程中的探索欲。
实验数据也清晰地展示了这一点:训练开始后不久,传统GRPO方法的策略熵就迅速趋近于零,而RiskPO则能长期维持较高的熵水平。更有趣的是,如果只看平均奖励,两种方法在训练过程中的曲线几乎没有差别;但一旦切换到风险敏感指标(如下尾奖励),RiskPO的领先优势便立刻显现,并且持续扩大。
这一“均值相近、风险指标悬殊”的现象,深刻地揭示了:均值目标只能让模型在舒适区内打转,而风险度量目标才是推动模型突破认知边界、提升核心能力的真正引擎。
结论:超越平均,迈向真正的人工智能
RiskPO的提出,为整个大模型后训练领域带来了重要的启示。它告诉我们,要构建更强大、更可靠的人工智能,就必须勇敢地走出“均值至上”的舒适区,敢于让模型直面失败和挑战。通过关注模型表现的短板而非长处,我们才能驱动AI实现真正的学习和成长。
这一研究不仅是一个算法的胜利,更是一种训练哲学的革新。它为我们探索如何构建具备更强推理能力、更接近AGI的AI系统,提供了一条清晰且前景广阔的道路。
想要获取更多前沿的AI资讯和深度解读,探索如何利用强大的提示词(Prompt)驾驭ChatGPT、Claude等模型,甚至探讨AI变现的可能?欢迎访问AI门户网站 https://aigc.bar,这里是您的一站式AI新闻与学习平台。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)