VLM训练反常识：SFT与RL为何1+1<2？| AIGC.bar AI资讯

type

status

date

slug

summary

研究者发现，多模态推理任务与纯文本推理存在一个根本差异：问题的异质性。

不同于纯文本任务通常聚焦于高难度的逻辑推理，多模态评测集里既包含了“看图说话”式的简单感知问题（例如，“图片里有几只猫？”），也包含了需要复杂认知推理的挑战（例如，根据图表进行数学计算）。研究者推断，正是这种难度混杂的特性，导致了SFT和RL在VLM训练中表现出截然不同的偏好，最终引发冲突。

为了验证这一点，团队建立了一套全新的难度分级评估体系。他们使用一个基线模型对五大多模态推理数据集（如MathVision, MMStar等）中的每个问题进行16次独立测试，并根据成功率将问题划分为五个难度等级（L1-L5）：

这个精细化的分层体系，为我们清晰地揭示了不同训练策略的“能力偏科”现象。

通过难度分级测试，SFT和RL各自的优缺点被清晰地勾勒出来，宛如两位性格迥异的“偏科生”。

Long-CoT SFT通过使用带有反思、验证步骤的少量高质量样本进行微调，教会模型如何进行深度思考和层层拆解。

优点：在L5级别的顶级难题上表现卓越，准确率提升显著。模型学会了使用“首先验证”、“其次推导”等逻辑词，甚至会像人一样反思“这里可能算错了”，展现出惊人的逻辑深度。

缺点：在L1级别的简单题上，这种“深度思考”反而成了累赘。模型会“画蛇添足”，过度分析一个简单问题，导致犹豫不决甚至得出错误答案。其输出的文本长度也因此飙升，变得极为冗长。

RL则像一个精准的导航系统，通过奖励机制引导模型朝着输出高质量、受用户欢迎的答案方向优化。

优点：能力均衡，在从L1到L5的所有难度级别上都能实现稳定性能提升。它既不会在简单题上“翻车”，也能在中等难度题目上表现稳健。同时，其输出保持了基线模型的高效简洁风格。

既然SFT擅长攻坚，RL擅长守成，将它们结合起来是否就能打造出一个完美的人工智能模型呢？研究团队尝试了五种主流的混合训练策略，结果却令人大失所望——所有方法都未能实现理想中的协同增益。

数据混合式 (合并SFT和RL的优质输出)：模型无法学会根据题目难度自适应地切换回答风格，导致在简单问题上可能出现不必要的长篇大论，存在性能下降的风险。

这些失败的尝试有力地证明，在VLM领域，简单地叠加SFT和RL并不能解决根本问题。

除了对组合策略的探索，研究还带来了一些宝贵的实践启示，这些都是提升大模型能力的重要Prompt工程思路。

质量远比数量重要：仅用1000条高质量的纯文本思维链数据进行SFT微调，效果竟然超过了使用3.4万条多模态推理数据。这说明，训练数据的逻辑质量是激活模型推理能力的关键。

简单题是“压舱石”：即便简单题的奖励不高，也必须将它们保留在RL训练数据中。它们通过KL约束发挥作用，能防止模型因过度专注于难题而丧失处理基础问题的能力。

这项研究深刻地揭示了VLM训练中“快思考”（RL强化）与“慢思考”（SFT引导）之间的内在冲突。未来的研究需要跳出简单的技术叠加，转向更智能的解决方案。

理解SFT与RL的协同困境，是推动AGI发展的关键一步。它提醒我们，通往更强大人工智能的道路并非一味地堆砌技术，而在于更深刻地理解模型行为的内在机理。持续关注 https://aigc.bar，我们将为您带来更多关于人工智能和大模型的前沿洞见与深度解读。