DeepSeek R1论文重磅更新：86页干货揭秘纯RL训练与开源新标杆 - AI资讯

type

status

date

slug

summary

真正的Open：数据配方与成本大公开

DeepSeek R1此次更新最令人震撼的，是其对核心技术细节的毫不保留。在以往的人工智能竞赛中，数据配方往往是各家闭源模型的核心机密，但DeepSeek打破了这一潜规则。

论文中明确给出了强化学习（RL）阶段的数据规模：包括2.6万道数学题、1.7万条代码数据、2.2万条STEM相关问题以及6.6万条通用数据。不仅如此，DeepSeek还详细展示了vLLM和DualPipe的基础设施设置示意图。

更令人惊讶的是其对训练成本的拆解。DeepSeek R1-Zero使用了64×8张H800 GPU，总计耗时约198小时，整个训练成本仅为29.4万美元。这一数字在动辄数千万美元训练成本的大模型领域，无疑极具颠覆性。它证明了高效的算法和工程优化，能够让顶级AI的门槛大幅降低。

纯强化学习的胜利：R1-Zero的自我进化

DeepSeek R1-Zero的成功，向业界证明了一个关键论点：只需要强化学习，就足以显著提升AI的推理能力。

在论文披露的训练细节中，我们可以清晰地看到智能涌现的过程。在MATH数据集的测试中，DeepSeek-R1-Zero展现出了类似人类的学习曲线。对于简单问题，模型迅速掌握；而对于难度极高的5级问题，准确率从最初的0.55一路飙升至0.90。

更有趣的是“反思”能力的出现。研究人员发现，随着训练步数的增加，模型输出中包含“wait”、“mistake”、“but”、“verify”等反思性词汇的频率增加了5到7倍。这种自我纠错和长链条推理能力的形成，并非通过人类干预，而是纯粹源于强化学习的激励机制。这为未来AGI的研究指明了一条无需大量人工标注数据的可行路径。

蒸馏技术：让推理能力“飞入寻常百姓家”

DeepSeek R1的另一大贡献在于验证了“蒸馏”技术的跨尺度有效性。DeepSeek试图回答一个问题：R1学到的强大推理能力，能否迁移到更小的模型上？答案是肯定的。

DeepSeek扮演“教师”角色，生成高质量的显式推理轨迹数据，通过监督微调（SFT）将这些能力“传授”给更小的“学生”模型。实验结果显示，从1.5B到70B的各种尺寸模型，在经过蒸馏后性能均实现了全面提升。这意味着，强大的推理能力不再被“锁死”在巨型模型中，开发者和企业可以利用更低成本的小模型实现复杂的AI变现和应用落地。

性能对比：硬刚OpenAI o1与Claude

在具体的性能评测中，DeepSeek R1展现出了与顶尖闭源模型分庭抗礼的实力。在数学和代码任务中，R1与OpenAI o1-1217版本基本持平，并显著领先于其他模型。在AIME数学竞赛中，R1的得分已超越人类平均水平；在Codeforces编程竞赛中，更是击败了93.6%的参赛者。

虽然在部分偏实践的编程任务（如Aider）上略逊于o1，但DeepSeek坦言这是由于工程类RL训练数据不足所致，未来仍有巨大提升空间。在ChatbotArena的人类偏好评估中，R1在“风格控制”上与o1、Gemini并列第一，证明了其生成的回答不仅准确，而且符合人类的阅读偏好。

安全与展望：开源模型的双刃剑

随着能力的提升，安全性也成为了DeepSeek关注的重点。论文中新增了10页的安全性报告，详细分析了模型在面对越狱攻击、偏见歧视等方面的表现。

虽然R1在整体安全性上与Claude-3.7、GPT-4o等模型相当，但在HarmBench测试中表现略逊，主要原因是涉及知识产权的问题上防御较弱。这也揭示了开源模型面临的共同挑战：在开放权重的环境下，如何防止模型被用于恶意目的。DeepSeek为此构建了包含多语言的风险控制体系，并呼吁行业关注越狱攻击的风险。

总结

DeepSeek R1爆更86页论文，不仅是一次技术报告的升级，更是对“Open AI”精神的重新定义。从透明的数据披露到低成本的训练方案，再到纯RL带来的智能涌现，DeepSeek正在重塑我们对大模型开发的认知。

对于广大开发者和AI资讯关注者而言，R1的出现意味着更低的门槛和更广阔的可能性。如果你希望紧跟这一波技术浪潮，获取更多关于ChatGPT、Claude以及Prompt工程的深度解析和AI日报，请务必关注专业AI门户 AIGC.BAR，这里汇聚了最前沿的人工智能动态与AI变现机会。