扩散模型Mercury 2横空出世：每秒1009 token，告别自回归

type

status

date

slug

summary

告别“打字机”，迎来“全能编辑”

要理解Mercury 2为何能跑出比GPT-5（mini）和Claude-4.5（haiku）快5倍的速度，首先需要理解其核心原理的变革。

传统的自回归模型（Autoregressive Models），如我们熟悉的ChatGPT，其工作模式类似于老式的“打字机”。它们必须按照从左到右的顺序，基于前一个字来预测下一个字。这种串行处理的方式，注定了输出长度越长，延迟越高，就像乌龟爬行一样，虽然稳健但难以突破物理瓶颈。

相比之下，Mercury 2采用的扩散模型架构，工作方式更像是一位经验丰富的“编辑”。它不是逐字逐句地敲打，而是先生成一份粗糙的“草稿”，然后拿着红笔在整页纸上同时进行修改和润色。

这种“并行优化”机制是Mercury 2速度起飞的关键。它不需要等待前一个字完全确定就能处理后续内容，从而实现了极低的延迟。在实际测评中，Mercury 2在英伟达GPU上跑出了1009 tokens/s的成绩，这种速度曲线不再与输出长度成正比，彻底改变了推理的效率逻辑。

速度与智商并存：不仅仅是快

在AI领域，通常“快”意味着要牺牲一定的“准”。但Mercury 2在保持极速的同时，并没有以牺牲智商为代价，这在LLM领域尤为难得。

根据GPQA（科学问答）、LCB（编程）和AIME（数学）等多个权威基准测试的结果显示，Mercury 2的表现普遍优于或持平于同级别的轻量级模型。更令人惊讶的是，在AIME数学测试上，它的得分甚至超过了公认的性能怪兽Gemini 3 Flash（推理版）。

这一结果证明了扩散模型在处理复杂逻辑时的潜力。官方指出，Mercury 2的速度优势实际上改变了推理的本质。因为在同样的实时延迟预算下，更快的生成速度意味着模型可以进行更多的“测试时计算”（test-time compute）。它可以尝试更长的思维链、更多的样本对比和自我修正，从而在极短的时间内输出高质量的人工智能推理结果。

豪门押注：英伟达与微软的共同选择

Mercury 2背后的推手Inception Labs虽然成立于2024年，但其团队背景和融资阵容堪称豪华。

该公司由前斯坦福大学计算机科学教授Stefano Ermon创立。早在2019年，Ermon就开始探索将扩散模型应用于内容生成。当主流还在纠结于GAN（生成对抗网络）时，他们已经看到了Diffusion在图像生成领域的潜力（后来成就了Midjourney等产品）。然而，将处理连续数据的扩散模型应用到离散的文本数据上，是一个巨大的技术挑战。

2023年，Ermon团队发表了关键论文，提出了SEDD（Score Entropy Discrete Diffusion models），成功将连续空间的分数匹配理论扩展到了离散数据领域，为Mercury 2的诞生奠定了理论基础。

这种从底层架构上的创新，吸引了资本市场的热烈追捧。Inception Labs不仅获得了5000万美元的融资，投资方更是包括了NVentures（英伟达风投部门）、M12（微软旗下风险基金）以及Menlo Ventures。此外，吴恩达、Andrej Karpathy等AI领域的顶级大佬也位列投资人名单。这表明，业界对于打破Transformer垄断、探索新一代AGI架构充满了期待。

极具竞争力的性价比

除了技术上的突破，Mercury 2在商业化落地方面也表现出了极高的性价比。

目前，该模型支持128K的长上下文窗口。在价格方面，输入价格约为每百万token 0.25美元，输出价格为每百万token 0.75美元。结合其超高的推理速度，这对于需要大规模、低延迟处理文本的企业级应用来说，极具吸引力。

虽然Mercury 2目前暂无开源计划，但其API全面兼容OpenAI标准，这意味着开发者可以无缝切换和集成。

结语：AI推理的新范式？

Mercury 2的出现，不仅仅是一个新模型的发布，它可能预示着人工智能底层架构的一次重要迭代。从“打字机”到“编辑”的转变，让我们看到了摆脱自回归束缚、实现更高效AI变现和应用落地的可能。

随着扩散模型在文本生成领域的日益成熟，未来我们或许会看到更多基于此架构的Prompt工程和应用创新。想要获取更多关于大模型、claude以及最新AI日报资讯，请持续关注专业的AI门户：https://aigc.bar。在这里，掌握未来科技的脉搏。