TML最新突破:策略蒸馏技术详解,Qwen成最大赢家 | AI资讯
type
status
date
slug
summary
tags
category
icon
password
网址
引言:AI训练范式的又一次革新
在人工智能(AI)领域,模型的训练方法直接决定了其能力的上限和应用的成本。近日,备受瞩目的AI初创公司Thinking Machines Lab(TML)发布了一篇重磅博客,详细介绍了一种名为在策略蒸馏(on-policy distillation)的创新训练方法。这篇由前OpenAI核心成员撰写的文章,不仅提出了一种能够以极低成本超越传统方法的训练范式,更是在文中高频提及国产大模型Qwen多达38次,引发了全球AI社区的热烈讨论。这不仅是对Qwen团队研究成果的高度认可,也预示着大模型后训练阶段的新方向。本文将深入解读这一技术,探讨其核心原理、惊人效果及其对未来LLM发展的深远影响。更多前沿AI资讯,可以持续关注AI门户 https://aigc.bar 获取最新动态。
策略蒸馏:融合RL与SFT的“集大成者”
要理解在策略蒸馏的精妙之处,我们首先需要了解当前大模型后训练(Post-training)面临的两种主流方法及其困境。
- 强化学习(RL):这是一种在策略(on-policy)训练,模型通过与环境的互动和试错来学习。它的优点是纠错相关性强,模型能直接从自己的错误中学习。但其致命缺点是反馈稀疏。就像下一盘棋,只有在最终输赢时才得到一个反馈信号,却不知道具体哪一步是致胜或败北的关键。这导致RL训练效率低下,成本高昂。
- 监督微调(SFT)/离策略蒸馏:这是一种离策略(off-policy)训练,通过让“学生”模型模仿“教师”模型(通常是更强大的模型)的优秀范例来学习。这种方法的奖励信号密集,学生每一步都能学到高质量的知识。但其问题在于,学生学习的是教师的“舒适区”,一旦在实际应用中犯了教师从未犯过的错误,就容易偏离轨道,产生复合错误,难以纠正。
在策略蒸馏的核心思想,正是要将两者的优势结合起来:既要RL的在策略纠错相关性,又要SFT的密集奖励信号。
它的工作流程可以概括为:
* 学生模型生成轨迹:让需要训练的小模型(学生)自由生成解决问题的完整步骤。
* 教师模型逐一评分:使用一个强大的大模型(教师)对学生生成的轨迹中的每一个token进行打分。
* 密集反馈与学习:学生根据教师给出的密集、实时的反馈进行学习,惩罚导致错误的步骤,强化正确的步骤。
这就像一位特级大师在你下棋时,不仅看最终结果,还为你走的每一步棋打分,从“妙手”到“臭棋”,让你实时了解自己决策的质量,从而高效学习。
实现原理:反向KL散度与惊人的计算效率
TML在实现策略蒸馏时,选择了一个关键的损失函数——逐token的反向KL散度(reverse KL)。这个函数衡量的是在相同上下文中,学生模型和教师模型在下一个token预测分布上的差异。
使用反向KL散度带来了几大优势:
* 不可破解(Unhackable):与可能被模型“钻空子”的奖励模型不同,最小化KL散度总是对应着教师模型期望的高质量行为。
* 寻找众数(Mode-seeking):它会引导学生模型学习教师模型的特定行为模式,而不是在多个次优选项之间摇摆。
* 计算效率极高:由于奖励是逐token计算的,无需等待整个序列生成完毕。这意味着可以使用更短的轨迹进行训练,并且教师模型只需一次前向传播即可完成评分,极大节省了计算资源。
TML的博客中展示了一个生动的例子:一个学生模型在解决数学问题时,错误地忽略了“冰块在煎锅里会融化”的物理背景。教师模型在评分时,精准地惩罚了那些引导学生走向纯数学计算的“分叉token”,而最终的错误答案本身反而惩罚不高,因为它是在错误路径下的必然结果。这证明了策略蒸馏能够精准定位并修正推理路径上的关键错误。
实验验证:成本降低30倍,性能反超RL
TML通过两个关键实验,雄辩地证明了在策略蒸馏的强大威力,而这些实验的主角正是Qwen系列大模型。
1. 数学推理能力训练
TML使用Qwen3-32B作为教师模型,训练Qwen3-8B学生模型。结果显示:
* 传统SFT:需要约200万个样本才能将数学基准测试(AIME'24)分数从60%提升到70%。
* 传统RL:根据Qwen团队报告,需要17,920个GPU小时才能达到67.6%。
* 在策略蒸馏:从相同的起点开始,仅用150个步骤就达到了70%的成绩。
在成本对比上,即使不考虑生成SFT数据所需的教师模型成本,在策略蒸馏的基线成本也降低了9倍。如果将教师模型的采样成本计算在内,总成本可降低约30倍!Qwen团队也报告了类似结果,使用策略蒸馏以RL成本的十分之一,获得了更高的74.4%分数。这无疑是AI普惠化道路上的一个里程碑。
2. 个性化助手与持续学习
另一个常见的场景是,当模型在学习新的领域知识(如公司内部文档)后,往往会忘记之前学到的指令遵循、对话等能力,即灾难性遗忘。
TML的实验表明,在对Qwen3-8B进行内部文档微调后,其指令遵循能力(IF-eval)显著下降。然而,通过使用其早期版本作为教师模型,进行在策略蒸馏,几乎完全恢复了指令遵循能力,且没有损失任何新学到的知识。
这一发现意义重大,它为模型的持续学习(continuous learning)提供了一条高效、低成本的路径。企业可以不断用新数据微调模型,再通过策略蒸馏“唤醒”其核心能力,使模型能够与时俱进,永不过时。
结语:Qwen的贡献与AI的未来
Thinking Machines Lab的这篇博客,不仅为AI社区贡献了一种突破性的训练方法,也以一种意想不到的方式,让世界看到了Qwen大模型的技术实力和其研究的前瞻性。TML明确表示其工作受到了Qwen团队的启发,并在实验中深度依赖Qwen模型,这本身就是对国产大模型技术生态的最高赞誉。
在策略蒸馏的出现,意味着训练小型、专业、高性能的AI模型将变得更加容易和经济。它降低了顶尖AI技术的门槛,使得更多开发者和企业能够打造出满足特定需求的定制化大模型。随着这类高效训练技术的不断涌现,我们有理由相信,一个由无数强大而专业的AI模型构成的、更加智能和个性化的未来正加速到来。想要掌握更多类似的前沿AI技术和行业新闻,欢迎访问 https://aigc.bar,与时代同行。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)