VLM训练反常识:SFT与RL为何1+1<2?| AIGC.bar AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能,特别是大语言模型(LLM)的训练领域,一套黄金法则是:先通过监督微调(SFT)教会模型如何思考,再利用强化学习(RL)根据反馈优化答案。这套“组合拳”通常能带来1+1>2的效果。然而,一项来自华为与香港科技大学的最新研究,为我们揭示了一个多模态领域的“反常识”现象,这一发现是近期值得关注的AI新闻。
研究表明,在更复杂的视觉语言模型(VLM)中,长思维链SFT(Long-CoT SFT)与RL这对黄金搭档非但没能携手并进,反而陷入了“协同困境”,有时甚至会互相掣肘。这一洞察对于我们理解和优化未来的大模型至关重要。想了解更多前沿的AI资讯,可以访问AI门户网站
https://aigc.bar
。问题的根源:多模态推理的“众口难调”
研究者发现,多模态推理任务与纯文本推理存在一个根本差异:问题的异质性。
不同于纯文本任务通常聚焦于高难度的逻辑推理,多模态评测集里既包含了“看图说话”式的简单感知问题(例如,“图片里有几只猫?”),也包含了需要复杂认知推理的挑战(例如,根据图表进行数学计算)。研究者推断,正是这种难度混杂的特性,导致了SFT和RL在VLM训练中表现出截然不同的偏好,最终引发冲突。
为了验证这一点,团队建立了一套全新的难度分级评估体系。他们使用一个基线模型对五大多模态推理数据集(如MathVision, MMStar等)中的每个问题进行16次独立测试,并根据成功率将问题划分为五个难度等级(L1-L5):
- L1 (简单): 几乎总能答对 (成功率 ≥ 75%)
- L2 (中等偏易): 大概率答对 (50-75%)
- L3 (中等): 对错参半 (31-50%)
- L4 (中等偏难): 偶尔能答对 (13-31%)
- L5 (困难): 几乎总答错 (成功率 < 13%)
这个精细化的分层体系,为我们清晰地揭示了不同训练策略的“能力偏科”现象。
SFT与RL:两位“偏科生”的鲜明画像
通过难度分级测试,SFT和RL各自的优缺点被清晰地勾勒出来,宛如两位性格迥异的“偏科生”。
长思维链SFT:深思熟虑的“解题专家”
Long-CoT SFT通过使用带有反思、验证步骤的少量高质量样本进行微调,教会模型如何进行深度思考和层层拆解。
- 优点:在L5级别的顶级难题上表现卓越,准确率提升显著。模型学会了使用“首先验证”、“其次推导”等逻辑词,甚至会像人一样反思“这里可能算错了”,展现出惊人的逻辑深度。
- 缺点:在L1级别的简单题上,这种“深度思考”反而成了累赘。模型会“画蛇添足”,过度分析一个简单问题,导致犹豫不决甚至得出错误答案。其输出的文本长度也因此飙升,变得极为冗长。
强化学习RL:稳扎稳打的“全能选手”
RL则像一个精准的导航系统,通过奖励机制引导模型朝着输出高质量、受用户欢迎的答案方向优化。
- 优点:能力均衡,在从L1到L5的所有难度级别上都能实现稳定性能提升。它既不会在简单题上“翻车”,也能在中等难度题目上表现稳健。同时,其输出保持了基线模型的高效简洁风格。
- 缺点:在L5级别的难题上,RL的提升效果远不及SFT。它难以凭空激活复杂的逻辑链条和深度反思等高级认知行为,攻坚能力有限。
协同的困境:为何五大组合策略均告失败?
既然SFT擅长攻坚,RL擅长守成,将它们结合起来是否就能打造出一个完美的人工智能模型呢?研究团队尝试了五种主流的混合训练策略,结果却令人大失所望——所有方法都未能实现理想中的协同增益。
- 两阶段式 (先SFT,后RL):模型在SFT阶段养成的“冗长思考”习惯根深蒂固,后续的RL训练难以纠正,最终性能被SFT的短板所限制。
- 交替式 (SFT与RL交替训练):模型的性能始终在两种方法的上限之间徘徊,无法突破任何一方的天花板,形成了一种“折中”而非“超越”。
- 渐进式 (从SFT逐渐过渡到RL):这是最具潜力的一种方案,在难题上的表现接近纯SFT,优于纯RL。但它依然是一种妥协,牺牲了在简单题上的部分表现。
- 数据混合式 (合并SFT和RL的优质输出):模型无法学会根据题目难度自适应地切换回答风格,导致在简单问题上可能出现不必要的长篇大论,存在性能下降的风险。
- 模型合并式 (直接融合SFT和RL模型参数):结果仅仅是两种模型性能的“插值”,而非强强联合的“增强”。
这些失败的尝试有力地证明,在VLM领域,简单地叠加SFT和RL并不能解决根本问题。
实验中的关键启示:超越策略本身
除了对组合策略的探索,研究还带来了一些宝贵的实践启示,这些都是提升大模型能力的重要Prompt工程思路。
- 质量远比数量重要:仅用1000条高质量的纯文本思维链数据进行SFT微调,效果竟然超过了使用3.4万条多模态推理数据。这说明,训练数据的逻辑质量是激活模型推理能力的关键。
- KL正则化是“稳定器”:在RL训练中,加入KL正则化项至关重要。它能确保模型在追求高奖励的同时,不会偏离其基础能力太远,有效防止了模型崩溃。
- 简单题是“压舱石”:即便简单题的奖励不高,也必须将它们保留在RL训练数据中。它们通过KL约束发挥作用,能防止模型因过度专注于难题而丧失处理基础问题的能力。
结论:未来之路,让大模型学会“看菜下碟”
这项研究深刻地揭示了VLM训练中“快思考”(RL强化)与“慢思考”(SFT引导)之间的内在冲突。未来的研究需要跳出简单的技术叠加,转向更智能的解决方案。
- 发展自适应推理:核心目标是让模型能够“看题下菜碟”,面对简单问题时给出简洁精准的答案,遇到复杂挑战时则能自动切换到深度推理模式。
- 构建模型亲和的数据:与其使用外部模型蒸馏的数据,不如探索如何通过提示词工程等方式,让模型“自蒸馏”出更符合其自身能力和特点的训练数据。
- 推广分层评估体系:将评测基准按难度分层,有助于我们更精准地诊断模型的长处与短板,从而进行针对性的优化。
理解SFT与RL的协同困境,是推动AGI发展的关键一步。它提醒我们,通往更强大人工智能的道路并非一味地堆砌技术,而在于更深刻地理解模型行为的内在机理。持续关注
https://aigc.bar
,我们将为您带来更多关于人工智能和大模型的前沿洞见与深度解读。Loading...