陶哲轩First Proof二期：AI解数学难题，成本仅需8美元？

type

status

date

slug

summary

陶哲轩的First Proof：AI数学能力的试金石

First Proof项目的核心意义在于“纯粹的推理”。不同于常规的基准测试（Benchmark），该项目选取的问题均为从未在期刊或网络上发表过的全新研究课题，出题人包括Larry Guth等顶尖数学家。这意味着AI无法通过“背诵”互联网上的海量数据来作弊，必须真正具备逻辑推演、构建证明的能力。

本次测试的另一大亮点是引入了严苛的“双盲同行评议”机制。30位数学专家在不知晓作者是AI还是人类的前提下，按照学术期刊的标准对证明稿件进行打分。这种机制极大地过滤了AI因“幻觉”产生的逻辑谬误，直接反映了模型在处理复杂数学问题时的真实水位。

结果揭晓：AI的“高光时刻”与“全军覆没”

在本次评测中，4套AI系统参与了角逐。最终，有7道题的AI解答达到了学术发表标准，被评为“基本无瑕疵”或“小幅修改即可发表”。

最令人瞩目的是Problem 5（随机偏微分方程问题）。System A（基于GPT-5.5 Pro底座的IMProofBench）表现出色，不仅给出了正确的证明，甚至提出了比人类解法更强的中间结论。这种“跳出常规思路”的能力，标志着大模型在特定数学领域已经具备了辅助人类研究的潜质。

然而，AI并非全能。在度量几何等特定领域，所有参与测试的系统均未能给出有效解答。这提醒我们，尽管大模型在语言理解和基础逻辑上进步神速，但在面对某些需要极高抽象思维的数学分支时，依然存在明显的短板。

成本与性能的博弈：8美元的奇迹

本次评测还公开了一项极具商业参考价值的数据：AI的推理成本与效率。

在参与测试的模型中，OpenAI的原生ChatGPT 5.5 Pro展现了极高的性价比，单题成本最低仅需8美元，且耗时最短。相比之下，一些定制化程度更高的科研团队系统，虽然在特定题目上表现稳定，但单题调用成本高达数百甚至上千美元，且运行时间长达20余小时。

这一数据揭示了当前AI行业的一个核心矛盾：追求极限推理能力往往伴随着高昂的算力成本。对于企业和开发者而言，如何在模型性能与调用成本之间找到平衡点，将是未来大模型落地应用的关键。

深度思考：AI真的能取代数学家吗？

陶哲轩本人对本轮测试的评价相对客观，认为整体表现尚未完全达到预期。这并不意味着失败，恰恰相反，这种“不达预期”指明了下一步优化的方向。

随着LLM（大语言模型）技术的演进，AI在数学推理、代码生成、逻辑分析等领域的表现越发亮眼。对于关注 AI资讯的读者来说，First Proof项目提供了一个极好的观察窗口：我们正在从“生成式AI”迈向“推理式AI”。未来，AI或许无法完全替代数学家，但它必将成为数学家手中最得力的“副驾驶”，帮助人类更快地突破未知的边界。

如果你对前沿的人工智能动态、大模型技术演进，或者如何利用 Prompt 提升工作效率感兴趣，欢迎访问 AIGC.bar。这里汇集了最新的 AI新闻与行业洞察，助你在AGI时代保持敏锐的洞察力。