谷歌DeepMind首发AGI终极考纲:20万美金悬赏撕下大模型伪装
type
status
date
slug
summary
tags
category
icon
password
网址

引言:通往AGI的赛道需要一把统一的“尺子”
在人工智能领域,“AGI(通用人工智能)”曾是一个模糊的幻影。尽管GPT-4、Gemini、Claude等大模型在法律考试、代码编写和创意写作上表现惊人,但业界始终缺乏一个公认的衡量标准:究竟什么样的模型才算真正的AGI?
近日,谷歌DeepMind发布了重磅论文《Measuring Progress Toward AGI: A Cognitive Framework》,试图终结这种混乱。DeepMind不仅从认知科学中借用了一套详尽的度量衡,将通用智能拆解为10大核心能力,还联合Kaggle砸下20万美元悬赏全球开发者,共同寻找能撕下大模型“伪装”的终极考卷。这标志着AGI的竞争已从单纯的算力竞赛,转向了严谨的科学评估阶段。更多前沿AI资讯,请访问 https://aigc.bar。
认知分类法:给通用智能画一张精密地图
DeepMind的核心主张是:评估AGI不能只看总分,而必须深入人类认知的底层逻辑。他们提出的“认知分类法”将AGI所需的能力细分为10个维度,这不仅是AI的体检表,更是未来大模型进化的导航图。
在这套体系中,8种基础能力构成了智能的基石:
1. 感知(Perception):不仅是视觉和听觉,还包括LLM特有的文本感知。
2. 生成(Generation):包括思维生成,即AI在做出决策前的内部思考过程。
3. 注意力(Attention):在信息过载中精准捕捉关键信息的能力。
4. 学习(Learning):强调部署后的持续学习,而非仅仅依赖训练数据。
5. 记忆(Memory):包括对世界知识的存储、特定事件的回溯,甚至是主动的“遗忘”。
6. 推理(Reasoning):区分真正的逻辑推演与简单的模式匹配。
7. 元认知(Metacognition):这是目前AI最缺的能力——知道自己知道什么,并能实时监控和修正错误。
8. 执行功能(Executive Functions):包括目标设定、规划和抑制冲动的控制力。
此外,框架还定义了两种复合能力:问题解决(Problem Solving)和社会认知(Social Cognition)。DeepMind认为,如果一个模型在社交场景中无法推断他人意图,或者在复杂因果推理中“掉链子”,它就不能被称为真正的“通用”。
三阶段评估协议:撕下“锯齿状能力”的伪装
为什么现有的评测体系失效了?DeepMind指出,AI的能力表现呈现出明显的“锯齿状(Jagged)”。一个模型可能在数学竞赛中超越人类,却在常识推理上像个三岁小孩。
为了解决这一问题,DeepMind提出了三阶段评估协议:
* 第一步:认知评测。 使用保密题库对10种能力进行分项测试,避免模型通过“背题”拿高分。
* 第二步:收集人类基线。 让具有代表性的成年人类在相同条件下完成同样的测试,建立真实的参照系。
* 第三步:构建认知画像。 将AI的表现绘制成雷达图。
这种雷达图式的评估方法,让模型的偏科无所遁形。只有当一个系统在所有维度上都超过人类中位数,甚至达到第99百分位时,我们才能有底气地谈论AGI。
20万美金悬赏:为何旧尺子已经量不了新AI
目前的AI评测正面临两大困境:一是“数据污染”,AI可能在训练中见过测试题;二是“系统vs模型”的模糊,当AI能联网、用计算器时,测出的到底是模型智商还是工具使用技巧?
为了填补评估荒地,DeepMind发起的Kaggle黑客松精准瞄向了最难测的5个领域:学习、元认知、注意力、执行功能和社会认知。这不仅是一场技术竞赛,更是一次全球规模的“出题权”下放。DeepMind希望通过这20万美元的奖励,吸引全球极客开发出像ImageNet一样具有行业基石意义的评估工具。
结论:AGI从科幻迈向工程实证
谷歌DeepMind的这一动作,标志着AGI不再仅仅是实验室里的愿景,而是一个可操作、可迭代的工程目标。通过将认知科学与计算机科学深度融合,我们终于有了一套能够衡量大模型真实成色的标准化考纲。
随着测评体系的完善,未来的大模型开发将不再盲目追求参数规模,而是致力于补齐雷达图上的短板。第一个在10个维度上全部点亮“超人”等级的模型,或许就是我们一直在等待的那个AGI。
获取更多关于大模型、提示词及AI变现的深度干货,欢迎持续关注 https://aigc.bar,获取最新的AI日报与技术指南。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)