陶哲轩First Proof二期:AI解数学难题,成本仅需8美元?
type
status
date
slug
summary
tags
category
icon
password
网址
数学界与AI界的顶级碰撞再次升级。近日,由菲尔兹奖得主陶哲轩主导的First Proof项目第二批评测结果正式出炉。这不仅是一次简单的AI跑分测试,更是一场针对大模型逻辑推理能力的“硬核”考试。在10道从未公布过解法的前沿研究级数学题面前,AI展现出了惊人的潜力,但也暴露了当前技术路径的局限性。
陶哲轩的First Proof:AI数学能力的试金石
First Proof项目的核心意义在于“纯粹的推理”。不同于常规的基准测试(Benchmark),该项目选取的问题均为从未在期刊或网络上发表过的全新研究课题,出题人包括Larry Guth等顶尖数学家。这意味着AI无法通过“背诵”互联网上的海量数据来作弊,必须真正具备逻辑推演、构建证明的能力。
本次测试的另一大亮点是引入了严苛的“双盲同行评议”机制。30位数学专家在不知晓作者是AI还是人类的前提下,按照学术期刊的标准对证明稿件进行打分。这种机制极大地过滤了AI因“幻觉”产生的逻辑谬误,直接反映了模型在处理复杂数学问题时的真实水位。
结果揭晓:AI的“高光时刻”与“全军覆没”
在本次评测中,4套AI系统参与了角逐。最终,有7道题的AI解答达到了学术发表标准,被评为“基本无瑕疵”或“小幅修改即可发表”。
最令人瞩目的是Problem 5(随机偏微分方程问题)。System A(基于GPT-5.5 Pro底座的IMProofBench)表现出色,不仅给出了正确的证明,甚至提出了比人类解法更强的中间结论。这种“跳出常规思路”的能力,标志着大模型在特定数学领域已经具备了辅助人类研究的潜质。
然而,AI并非全能。在度量几何等特定领域,所有参与测试的系统均未能给出有效解答。这提醒我们,尽管大模型在语言理解和基础逻辑上进步神速,但在面对某些需要极高抽象思维的数学分支时,依然存在明显的短板。
成本与性能的博弈:8美元的奇迹
本次评测还公开了一项极具商业参考价值的数据:AI的推理成本与效率。
在参与测试的模型中,OpenAI的原生ChatGPT 5.5 Pro展现了极高的性价比,单题成本最低仅需8美元,且耗时最短。相比之下,一些定制化程度更高的科研团队系统,虽然在特定题目上表现稳定,但单题调用成本高达数百甚至上千美元,且运行时间长达20余小时。
这一数据揭示了当前AI行业的一个核心矛盾:追求极限推理能力往往伴随着高昂的算力成本。对于企业和开发者而言,如何在模型性能与调用成本之间找到平衡点,将是未来大模型落地应用的关键。
深度思考:AI真的能取代数学家吗?
陶哲轩本人对本轮测试的评价相对客观,认为整体表现尚未完全达到预期。这并不意味着失败,恰恰相反,这种“不达预期”指明了下一步优化的方向。
随着LLM(大语言模型)技术的演进,AI在数学推理、代码生成、逻辑分析等领域的表现越发亮眼。对于关注 AI资讯 的读者来说,First Proof项目提供了一个极好的观察窗口:我们正在从“生成式AI”迈向“推理式AI”。未来,AI或许无法完全替代数学家,但它必将成为数学家手中最得力的“副驾驶”,帮助人类更快地突破未知的边界。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)