深度解读:为何顶尖大模型在科学发现SDE测评中全翻车?

type
status
date
slug
summary
tags
category
icon
password
网址
notion image
在人工智能领域,热点往往稍纵即逝,但最近一篇由中国团队领衔、全球24所顶尖高校机构共同发布的论文,却在海外引发了持久的震荡。一夜之间,阅读量逼近200万,Keras缔造者François Chollet惊呼我们需要新思路,NBA独行侠队老板Mark Cuban亲自转发。
更有趣的是,OpenAI几乎在同一时间发布了关于AI科学发现能力的评测概述,两者可谓“神同步”。这项名为SDE(Scientific Discovery Evaluation)的全新测评框架,让包括GPT-5、Claude-4.5、DeepSeek-R1、Grok-4在内的全球顶尖LLM(大语言模型)集体“翻车”。这究竟意味着什么?AI距离真正的科学发现还有多远?作为关注全球AI资讯AGI发展的专业AI门户AIGC.BAR 将为您深入解读这一现象级事件背后的深层逻辑。

题库霸榜者的滑铁卢:从90分跌至不及格

长期以来,我们习惯了各类大模型在GPQA、MMMU等题库式Benchmark上刷出80-90%的高分。然而,SDE评测体系揭开了这层繁荣的表象。
根据论文数据,在面对生物、化学、材料、物理等领域的具体科学研究任务时,全球主流模型的平均准确率断崖式下跌至50–70%。更令人震惊的是,在86道被标记为“SDE-Hard”的难题中,这些顶尖模型的最高分竟然不足12%。
这暴露了一个核心问题:现有的LLM虽然擅长做题,但在面对需要多步推理、处理不确定性以及完成“实验-理论”闭环的真实科学场景时,表现甚至不如一个普通的本科生。这种反差警示我们,单纯的文本生成能力并不等同于科学探索能力。

SDE框架:重新定义AI for Science的标尺

SDE之所以能让众神“翻车”,原因在于它打破了传统的问答式评测。由中国初创企业“深度原理Deep Principle”领衔的团队,将评测维度从简单的“做题”引向了具体的“假设->实验->分析”实验场景。
传统的人工智能评测往往是静态的知识检索,而科学发现是一个动态的试错过程。SDE要求模型不仅要懂知识,还要会运用知识去设计实验路径、解析核磁图谱、预测化学反应。这种对“过程”而非仅仅“结果”的考核,精准击中了当前大模型的软肋。正如Keras创始人所言,我们迫切需要新思路来推动人工智能走向科学创新,而SDE正是这样一把新的尺子。

规模法则的失效?模型越大不一定越懂科学

该研究得出的另一个值得警惕的结论是:模型规模与推理能力的提升在科学发现领域已呈现明显的“边际效益递减”。
数据显示,尽管GPT-5相较于前一代模型在参数规模和推理算力上有着显著增加,但在SDE基准的四大科学领域中,其平均准确率仅提升了3%-5%。在某些特定场景(如NMR结构解析)中,甚至出现了性能下滑的尴尬局面。
这一发现对当前AI行业盲目追求参数规模的趋势提出了质疑。在AI变现和应用落地的过程中,单纯堆砌算力可能无法解决复杂的科学问题。这提示我们需要在算法架构、数据质量以及专门针对科学领域的预训练模型上寻找新的突破口。

中国团队的崛起:深度原理Deep Principle

这项引发全球关注的研究,其背后的主导力量来自中国的创业团队——“深度原理Deep Principle”。这家由95后MIT博士创立的公司,不仅在学术界深耕,更在商业化第一线积累了大量实战经验。
他们成功集结了麻省理工、哈佛、剑桥等全球24所顶级院校的50余位科学家,组成了SDE的“梦之队”。这证明了在AI for Science这一前沿领域,中国团队不仅具备技术实力,更拥有连接全球智慧的号召力。从扩散生成模型在化学反应中的应用,到如今推出SDE评测标准,他们正在一步步证明,通往科学超级智能的道路需要超越传统的Benchmark。

结语:迈向真正的科学智能

SDE评测的发布以及OpenAI的同步动作,标志着人工智能的发展进入了一个深水区。我们不再满足于AI能写诗作画或编写代码,而是开始严肃审视其解决人类生存边界问题的能力——即科学发现。
虽然目前的成绩单并不理想,但这恰恰指明了未来的方向。无论是对于研究者还是关注AI新闻的从业者,这都是一个明确的信号:AI的下一个高地,在于如何跨越从“做题家”到“科学家”的鸿沟。如果您想了解更多关于大模型Prompt技巧以及最新的AI日报,请持续关注 AIGC.BAR,我们将与您一同见证AGI时代的到来。
Loading...

没有找到文章