扩散模型Mercury 2横空出世:每秒1009 token,告别自回归

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在人工智能的大模型竞赛中,速度与智能往往难以兼得。然而,近日硅谷初创公司Inception Labs发布的一款名为Mercury 2的模型,似乎打破了这一“不可能三角”。这款模型抛弃了统治业界的Transformer自回归范式,转而采用扩散模型(Diffusion Model)架构,一举实现了每秒1009个tokens的惊人生成速度。
这一突破不仅让英伟达、微软等科技巨头纷纷注资,更让整个AI社区开始重新审视大模型的底层逻辑。对于关注AI资讯大模型发展的从业者来说,这无疑是一个值得深入探讨的里程碑事件。更多前沿AI新闻和深度分析,请关注 https://aigc.bar

告别“打字机”,迎来“全能编辑”

要理解Mercury 2为何能跑出比GPT-5(mini)和Claude-4.5(haiku)快5倍的速度,首先需要理解其核心原理的变革。
传统的自回归模型(Autoregressive Models),如我们熟悉的ChatGPT,其工作模式类似于老式的“打字机”。它们必须按照从左到右的顺序,基于前一个字来预测下一个字。这种串行处理的方式,注定了输出长度越长,延迟越高,就像乌龟爬行一样,虽然稳健但难以突破物理瓶颈。
相比之下,Mercury 2采用的扩散模型架构,工作方式更像是一位经验丰富的“编辑”。它不是逐字逐句地敲打,而是先生成一份粗糙的“草稿”,然后拿着红笔在整页纸上同时进行修改和润色。
这种“并行优化”机制是Mercury 2速度起飞的关键。它不需要等待前一个字完全确定就能处理后续内容,从而实现了极低的延迟。在实际测评中,Mercury 2在英伟达GPU上跑出了1009 tokens/s的成绩,这种速度曲线不再与输出长度成正比,彻底改变了推理的效率逻辑。

速度与智商并存:不仅仅是快

在AI领域,通常“快”意味着要牺牲一定的“准”。但Mercury 2在保持极速的同时,并没有以牺牲智商为代价,这在LLM领域尤为难得。
根据GPQA(科学问答)、LCB(编程)和AIME(数学)等多个权威基准测试的结果显示,Mercury 2的表现普遍优于或持平于同级别的轻量级模型。更令人惊讶的是,在AIME数学测试上,它的得分甚至超过了公认的性能怪兽Gemini 3 Flash(推理版)。
这一结果证明了扩散模型在处理复杂逻辑时的潜力。官方指出,Mercury 2的速度优势实际上改变了推理的本质。因为在同样的实时延迟预算下,更快的生成速度意味着模型可以进行更多的“测试时计算”(test-time compute)。它可以尝试更长的思维链、更多的样本对比和自我修正,从而在极短的时间内输出高质量的人工智能推理结果。

豪门押注:英伟达与微软的共同选择

Mercury 2背后的推手Inception Labs虽然成立于2024年,但其团队背景和融资阵容堪称豪华。
该公司由前斯坦福大学计算机科学教授Stefano Ermon创立。早在2019年,Ermon就开始探索将扩散模型应用于内容生成。当主流还在纠结于GAN(生成对抗网络)时,他们已经看到了Diffusion在图像生成领域的潜力(后来成就了Midjourney等产品)。然而,将处理连续数据的扩散模型应用到离散的文本数据上,是一个巨大的技术挑战。
2023年,Ermon团队发表了关键论文,提出了SEDD(Score Entropy Discrete Diffusion models),成功将连续空间的分数匹配理论扩展到了离散数据领域,为Mercury 2的诞生奠定了理论基础。
这种从底层架构上的创新,吸引了资本市场的热烈追捧。Inception Labs不仅获得了5000万美元的融资,投资方更是包括了NVentures(英伟达风投部门)、M12(微软旗下风险基金)以及Menlo Ventures。此外,吴恩达、Andrej Karpathy等AI领域的顶级大佬也位列投资人名单。这表明,业界对于打破Transformer垄断、探索新一代AGI架构充满了期待。

极具竞争力的性价比

除了技术上的突破,Mercury 2在商业化落地方面也表现出了极高的性价比。
目前,该模型支持128K的长上下文窗口。在价格方面,输入价格约为每百万token 0.25美元,输出价格为每百万token 0.75美元。结合其超高的推理速度,这对于需要大规模、低延迟处理文本的企业级应用来说,极具吸引力。
虽然Mercury 2目前暂无开源计划,但其API全面兼容OpenAI标准,这意味着开发者可以无缝切换和集成。

结语:AI推理的新范式?

Mercury 2的出现,不仅仅是一个新模型的发布,它可能预示着人工智能底层架构的一次重要迭代。从“打字机”到“编辑”的转变,让我们看到了摆脱自回归束缚、实现更高效AI变现和应用落地的可能。
随着扩散模型在文本生成领域的日益成熟,未来我们或许会看到更多基于此架构的Prompt工程和应用创新。想要获取更多关于大模型claude以及最新AI日报资讯,请持续关注专业的AI门户https://aigc.bar。在这里,掌握未来科技的脉搏。
Loading...

没有找到文章