谷歌DeepMind首发AGI终极考纲：20万美金悬赏撕下大模型伪装

type

status

date

slug

summary

引言：通往AGI的赛道需要一把统一的“尺子”

在人工智能领域，“AGI（通用人工智能）”曾是一个模糊的幻影。尽管GPT-4、Gemini、Claude等大模型在法律考试、代码编写和创意写作上表现惊人，但业界始终缺乏一个公认的衡量标准：究竟什么样的模型才算真正的AGI？

近日，谷歌DeepMind发布了重磅论文《Measuring Progress Toward AGI: A Cognitive Framework》，试图终结这种混乱。DeepMind不仅从认知科学中借用了一套详尽的度量衡，将通用智能拆解为10大核心能力，还联合Kaggle砸下20万美元悬赏全球开发者，共同寻找能撕下大模型“伪装”的终极考卷。这标志着AGI的竞争已从单纯的算力竞赛，转向了严谨的科学评估阶段。更多前沿AI资讯，请访问 https://aigc.bar。

认知分类法：给通用智能画一张精密地图

DeepMind的核心主张是：评估AGI不能只看总分，而必须深入人类认知的底层逻辑。他们提出的“认知分类法”将AGI所需的能力细分为10个维度，这不仅是AI的体检表，更是未来大模型进化的导航图。

在这套体系中，8种基础能力构成了智能的基石： 1. 感知（Perception）：不仅是视觉和听觉，还包括LLM特有的文本感知。 2. 生成（Generation）：包括思维生成，即AI在做出决策前的内部思考过程。 3. 注意力（Attention）：在信息过载中精准捕捉关键信息的能力。 4. 学习（Learning）：强调部署后的持续学习，而非仅仅依赖训练数据。 5. 记忆（Memory）：包括对世界知识的存储、特定事件的回溯，甚至是主动的“遗忘”。 6. 推理（Reasoning）：区分真正的逻辑推演与简单的模式匹配。 7. 元认知（Metacognition）：这是目前AI最缺的能力——知道自己知道什么，并能实时监控和修正错误。 8. 执行功能（Executive Functions）：包括目标设定、规划和抑制冲动的控制力。

此外，框架还定义了两种复合能力：问题解决（Problem Solving）和社会认知（Social Cognition）。DeepMind认为，如果一个模型在社交场景中无法推断他人意图，或者在复杂因果推理中“掉链子”，它就不能被称为真正的“通用”。

三阶段评估协议：撕下“锯齿状能力”的伪装

为什么现有的评测体系失效了？DeepMind指出，AI的能力表现呈现出明显的“锯齿状（Jagged）”。一个模型可能在数学竞赛中超越人类，却在常识推理上像个三岁小孩。

为了解决这一问题，DeepMind提出了三阶段评估协议： * 第一步：认知评测。 使用保密题库对10种能力进行分项测试，避免模型通过“背题”拿高分。 * 第二步：收集人类基线。 让具有代表性的成年人类在相同条件下完成同样的测试，建立真实的参照系。 * 第三步：构建认知画像。 将AI的表现绘制成雷达图。

这种雷达图式的评估方法，让模型的偏科无所遁形。只有当一个系统在所有维度上都超过人类中位数，甚至达到第99百分位时，我们才能有底气地谈论AGI。

20万美金悬赏：为何旧尺子已经量不了新AI

目前的AI评测正面临两大困境：一是“数据污染”，AI可能在训练中见过测试题；二是“系统vs模型”的模糊，当AI能联网、用计算器时，测出的到底是模型智商还是工具使用技巧？

为了填补评估荒地，DeepMind发起的Kaggle黑客松精准瞄向了最难测的5个领域：学习、元认知、注意力、执行功能和社会认知。这不仅是一场技术竞赛，更是一次全球规模的“出题权”下放。DeepMind希望通过这20万美元的奖励，吸引全球极客开发出像ImageNet一样具有行业基石意义的评估工具。

结论：AGI从科幻迈向工程实证

谷歌DeepMind的这一动作，标志着AGI不再仅仅是实验室里的愿景，而是一个可操作、可迭代的工程目标。通过将认知科学与计算机科学深度融合，我们终于有了一套能够衡量大模型真实成色的标准化考纲。

随着测评体系的完善，未来的大模型开发将不再盲目追求参数规模，而是致力于补齐雷达图上的短板。第一个在10个维度上全部点亮“超人”等级的模型，或许就是我们一直在等待的那个AGI。

获取更多关于大模型、提示词及AI变现的深度干货，欢迎持续关注 https://aigc.bar，获取最新的AI日报与技术指南。