陶哲轩实测Gemini:十分钟破解Erdos数学难题,AI科研新纪元
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能加速发展的今天,AI是否已经具备了协助顶级科学家解决前沿难题的能力?答案是肯定的。近日,菲尔兹奖得主、被誉为“数学界莫扎特”的陶哲轩(Terence Tao)再次震惊了学术界。他利用谷歌最新的 Gemini 2.5 Deep Think 模型,仅用十分钟就完成了一个困扰数学界多年的难题论证。
这一突破性进展不仅展示了 大模型 在逻辑推理和数学证明领域的惊人飞跃,更为我们揭示了未来科研的新范式:人机协作。本文将结合最新的 AI资讯,深入解读这一事件背后的技术细节与深远影响。
十分钟破解Erdos #367号难题
事件的核心聚焦于Paul Erdős提出的#367号问题。这是一个关于连续整数结构的乘法数论问题,具体涉及整数n的2-full部分(即去掉所有只出现一次的素因子,只保留指数至少为2的部分)。问题的关键在于验证某个特定条件下极限上确界的存在性。
此前,数学家Wouter van Doorn针对该问题的第二部分提出了一个基于未验证同余恒等式的反证思路。陶哲轩敏锐地捕捉到了这一点,但他没有选择传统的耗时计算,而是将这个恒等式连同问题背景直接输入给了 Gemini Deep Think。
结果令人咋舌:全程只用了十分钟。Gemini不仅理解了问题,还迅速从论证分析打通了结论确认,成功补全了证明过程。这并非简单的搜索,而是基于深层逻辑的推理与生成。对于关注 AGI 进程的人来说,这无疑是一个里程碑式的时刻。
Gemini 2.5:超越GPT-5的数学能力?
此次立功的 Gemini 2.5 Deep Think 模型绝非等闲之辈。作为谷歌在 LLM 领域的最新力作,它在数学推理能力上表现出了极高的水准。
据相关的 AI新闻 报道,该模型此前不仅是IMO(国际数学奥林匹克)金牌得主级别的选手,更在最新的FrontierMath测试中,展现出了远超GPT-5(high)等竞争对手的数学能力。它能够处理复杂的符号逻辑,理解抽象的数学概念,并进行多步骤的演绎推理。
陶哲轩的实测证明了高性能 大模型 不再仅仅是生成文本的工具,它们已经进化为能够处理严谨科学问题的“外脑”。对于科研人员而言,这意味着拥有了一个随叫随到、算力无限的超级助手。
人机协作的新范式:AI证明+人类形式化
陶哲轩此次的实验,完美演绎了未来数学研究的理想工作流。整个过程并非AI完全取代人类,而是一种高效的协同:
- AI破题:Gemini用10分钟完成了核心证明的补全。
- 人类转化:陶哲轩用半小时将Gemini生成的p-adic代数数论证明,手动转换为更为基础、通用的论证方式。
- 形式化验证:两天后,另一位研究者Boris Alexeev利用Harmonic的Aristotle工具,仅耗时两三小时就完成了对该证明的Lean形式化。
这种“人-AI-人”或者是“AI-人-AI”的混合模式,极大地压缩了科研时间。正如陶哲轩所发现的,在Erdős问题网站上,最近已有6个类似的长期难题通过这种AI辅助的方法得以解决。想要了解更多关于此类 AI变现 在科研中的应用,可以关注 AI门户 获取更多前沿案例。
警惕AI幻觉:人类专家的核心作用
尽管 人工智能 表现出色,但陶哲轩也强调了人类专家的不可或缺性。为了验证AI的可靠性,他后续使用了ChatGPT DeepResearch和Gemini DeepResearch进行文献查询。
结果显示,虽然两者都能识别出#367问题,但在处理与之密切相关的#366问题时,仍然出现了混淆。此外,它们未能及时发现问题页面下方关于证伪的最新评论,仍旧宣称问题未解决。
这提醒我们,目前的 大模型 依然存在“幻觉”风险。AI的验证过程可能隐藏着容易被忽略的基础错误,必须由具备深厚专业知识的数学家进行细心纠正和把关。AI是中介,是加速器,但最终的真理裁决者依然是人类。
结语:拥抱AI科研新时代
陶哲轩与Gemini的这次合作,是 AI 赋能基础科学研究的一个缩影。从早期的辅助计算到如今的辅助证明,AI正在重塑科学发现的边界。对于那些对数学抱有热忱但缺乏系统训练的人来说,AI工具将帮助他们跨越技术门槛,探索难以想象的深度。
随着 Prompt 工程技术的进步和模型能力的提升,我们有理由相信,更多困扰人类百年的难题将在AI的辅助下迎刃而解。
如果您希望紧跟这一波技术浪潮,获取最新的 AI日报、了解 Claude、ChatGPT 等工具的最新动态,请务必访问专业的 AI资讯平台,这里汇聚了最全的 AGI 发展动态和 大模型 评测,助您在AI时代保持领先。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)