美团再放大招:开源推理神兽LongCat,性能直逼顶级大模型

type
status
date
slug
summary
tags
category
icon
password
网址
在当前百模大战的激烈浪潮中,国内科技巨头正以前所未有的速度推动着人工智能技术的前沿。继上一次开源基础模型后仅24天,美团再次向开源社区投下一枚重磅炸弹,正式推出了其首款自研的推理优化大模型——LongCat-Flash-Thinking。这不仅是美团在LLM领域技术实力的又一次展示,更预示着其在Agent智能体领域的深远布局。
这款被誉为“会思考”的大模型,究竟藏着哪些黑科技?它又将如何赋能美团庞大的业务生态,并为整个AI行业带来哪些新启示?本文将为您深入解读。

LongCat-Flash-Thinking:不止于快,更在于“会思考”

LongCat-Flash-Thinking的核心定位是效率推理。它在基础模型LongCat-Flash的高效特性之上,重点针对形式推理(Formal Reasoning)和智能体推理(Agentic Reasoning)任务进行了深度优化。这意味着,模型不仅能快速给出答案,更能理解复杂逻辑,甚至像人类一样“思考”如何利用工具来解决问题。
美团的技术报告显示,这款模型在多项权威基准测试中表现惊人,其综合实力已能与GPT-5-Thinking、Gemini2.5-Pro等业界顶级闭源模型基本持平,甚至在安全性和形式化定理证明等特定领域实现了大幅超越。这标志着国产大模型在核心的逻辑推理能力上,又迈出了坚实的一步。

揭秘训练秘籍:从“学课程”到“精通推理”

要让机器学会思考,一套科学的“教育方法”必不可少。LongCat团队创新性地采用了类似人类学习的“课程学习”(Curriculum Learning)范式,通过两段式训练体系,系统性地构建了模型的强大推理能力。
  1. 中期训练(Mid-training):此阶段好比“打基础”。研究团队构建了一个覆盖数学、物理、化学、编程等领域的高难度推理训练集,通过精心调配数据比例,让模型在强化逻辑推理能力的同时,不丢失其原有的通用知识,从而显著拓宽了模型的“推理边界”。
2. 有监督微调(SFT):此阶段则是“专项突破”。团队针对性地在三个方向上进行强化: * 一般推理:整合跨学科的高质量问答数据,通过模型评审和拒绝采样等机制,确保训练材料的准确性与挑战性。 * 形式化推理:独创了一套基于专家迭代框架的数据合成方法,能够生成经过严格数学验证的证明过程,系统性地提升了模型在抽象逻辑和定理证明上的能力。 * Agentic推理:提出了创新的“双路径推理框架”,通过对比模型在“有工具”和“无工具”下的表现,筛选出必须依赖工具才能解决的复杂问题,并以此生成多样化的解题轨迹,教会模型如何高效、稳健地使用工具。
这种由浅入深、层层递进的训练策略,是LongCat-Flash-Thinking推理能力出类拔萃的关键所在。

效率革命:自研DORA框架如何实现3倍加速?

模型性能的提升离不开底层训练框架的支撑。为此,LongCat团队自研了一套名为DORA的分布式强化学习(RL)框架,实现了“三管齐下”的极致优化,最终将训练速度提升至传统方式的3倍以上,增幅超过200%。
  • 系统层面:DORA框架采用异步流式架构,让算力资源近乎零闲置,在数万张加速卡的集群上展现出极高的稳定性和效率。
  • 算法层面:改良经典的PPO算法,通过引入截断重要性采样和精细化的裁剪机制,有效解决了异步训练中常见的收敛不稳问题。
  • 奖励机制:对于数学、编程等可验证任务,引入了创新的生成式奖励模型(GenRM),它不仅能判断对错,更能给出详细的推理过程,让模型的每一步优化都有理有据。
DORA框架的成功,不仅为LongCat-Flash-Thinking的诞生提供了强大动力,也为业界进行大规模、高效率的大模型强化学习提供了宝贵的经验。

硬核实力对决:实测数据看齐顶级大模型

是骡子是马,拉出来遛遛。LongCat-Flash-Thinking在多个维度的基准测试中交出了令人瞩目的成绩单:
  • 数学推理:在经典的MATH-500测试中取得了99.2%的惊人高分,近乎满分。在AIME等竞赛级任务中,表现也与GPT-5、Qwen3等顶级模型不相上下。
  • 逻辑与通用推理:在ARC-AGI、ZebraLogic等测试中超越了OpenAI-o3与Gemini 2.5-Pro,展现了强大的结构化推理能力。
  • Agent工具调用:在权威的τ²-Bench测试中,超越了除GPT-5-Thinking外的所有参评模型。更关键的是,在启用工具后,模型解决问题的效率大幅提升,例如在AIME-25测试中,token消耗平均减少了64.5%,真正实现了性能与成本的平衡。
  • 形式化定理证明:在MiniF2F测试中得分高达67.6%,比第二名高出18%,奠定了其在该前沿领域的领先地位。
这些数据充分证明,LongCat-Flash-Thinking已跻身世界一流推理模型行列。

从开源到应用:美团的AI大棋局

美团接连开源高性能大模型,其背后是清晰的战略意图。LongCat-Flash-Thinking强大的Agent推理能力和工具使用能力,与美团的核心业务场景——如外卖调度、到店推荐、智能客服、AI搜索等——高度契合。
可以预见,这些先进的AI技术将逐步融入美团的各项服务,为数亿用户带来更智能、更便捷的体验。同时,通过开源,美团不仅向全球开发者社区贡献了宝贵的技术资产,也吸引了更多顶尖人才的关注,为其在通往AGI的道路上构建了坚实的技术生态。
总而言之,LongCat-Flash-Thinking的发布,是AI领域又一个值得关注的里程碑。它展示了中国科技企业在大模型核心技术上的深厚积累和持续创新能力。想要获取更多前沿的AI资讯和深度解读,欢迎访问AI门户网站 https://aigc.bar,与我们一同见证人工智能的未来。
Loading...

没有找到文章