Anthropic开源内部考题！Claude Opus 4.5秒杀百万年薪工程师

type

status

date

slug

summary

曾经完美的“人类过滤器”

Anthropic的性能工程团队曾面临一个棘手的问题：随着算力投入的激增，他们急需能够驾驭底层硬件优化的顶尖人才。为了高效筛选简历，团队负责人Tristan Hume设计了一套极具挑战性的“Take-home”测试。

这并非普通的算法题，而是一个高度仿真的工程挑战。候选人需要在一个模拟的加速器（具有TPU特征）上优化代码。这台模拟机器包含了一系列硬核特性： * 手动管理的scratchpad内存：不同于CPU的自动缓存，要求显式管理。 * VLIW架构：每个周期并行运行多个执行单元，考验指令打包能力。 * SIMD向量化：要求一条指令处理多个数据。 * 多核并行：考验任务分配与同步。

这套题目曾完美工作，帮助Anthropic发掘了数位天才工程师，甚至有人在测试中写出了迷你编译器。对于想要体验这种级别挑战的开发者，或者希望利用AI辅助学习的同学，寻找稳定可靠的 Claude国内使用 渠道变得尤为重要，通过 Claude镜像站可以直接接触到这种顶级AI的能力。

Claude Opus 4.5 的降维打击

这套题目的崩溃始于AI能力的指数级跃升。起初，Claude 3.7 Sonnet已经能让普通候选人轻松拿高分。随后，Claude Opus 4的出现让面试官绝望：在限制时间内，AI的代码质量超过了几乎所有人类。

真正的“终结者”是 Claude Opus 4.5。在测试中，它像一位经验丰富的老练工程师： 1. 迅速解决初始瓶颈。 2. 搞定所有常规微优化。 3. 在遇到极难的内存带宽瓶颈时，经过深度思考（Ultrathink），它发现了一个只有极少数人类顶尖专家才能察觉的巧妙技巧。

最终，Claude Opus 4.5的得分追平了人类历史最高纪录。更可怕的是，Anthropic发现，随着思考时间的增加，AI的分数还在不断上涨。这意味着，在面试这种有限的时间窗口内，面试官已经无法区分坐在对面的是一位绝世天才，还是一个熟练使用 Claude官方中文版 工具的普通人。

面试策略的被迫转型：从“真实”到“古怪”

面对自家AI的“砸场子”，Anthropic陷入了深思：如果AI能完美解决真实工作中的难题，那么面试还应该考这些吗？

他们尝试了多种方案： * 增加难度：设计更难的内核优化问题。结果被Claude通过“重写计算过程”的降维打击方式破解。 * 禁止AI：不现实，因为未来编程必然是人机协作。

最终，Anthropic被迫走向了“剑走偏锋”的道路——放弃“真实感”，追求“分布外（Out of distribution）”数据。他们开始设计类似Zachtronics编程解谜游戏的题目：使用极度受限的指令集，没有现成的调试工具，迫使候选人展示纯粹的逻辑和工具构建能力。

只有这种AI从未见过、无法直接从训练数据中提取经验的“古怪”题目，目前才能勉强难住Claude Opus 4.5。

全球公开挑战：人类的极限在哪里？

为了纪念这套被AI“攻破”的经典试题，Anthropic选择将其开源，作为面向全人类的公开挑战。虽然在有限时间内AI已经无敌，但他们依然相信，在无限时间条件下，最强人类专家的极限仍高于AI。

目前Claude Opus 4.5的战绩（周期数，越低越好）令人咋舌： * Claude Opus 4：2164 * Claude Opus 4.5（深度思考后）：1487

Anthropic向全球开发者发出邀请：如果你能优化到1487周期以下，击败Claude的最佳表现，请务必联系他们！这不仅是一个测试，更是一场关于人类创造力与AI算力边界的探索。

对于国内开发者而言，想要尝试挑战或复现这一过程，拥有一个稳定的AI辅助工具至关重要。访问 Claude官网 可能存在网络障碍，因此推荐使用 Claude国内镜像站来获取 Claude教程 和 Claude使用指南，利用先进的模型能力来辅助你的代码优化和学习。

结语

Anthropic内部考题的开源，不仅是一个技术新闻，更是一个时代的注脚。它宣告了传统技术筛选模式在AGI时代的终结。当 Claude官方 模型能够解决最复杂的工程难题时，软件工程师的核心竞争力将不再是单纯的代码实现，而是系统设计、复杂调试以及驾驭AI的能力。

对于每一位开发者来说，现在是时候重新审视自己的技能树了。拥抱变化，学会利用像 Claude 这样的强大工具，才能在未来的技术浪潮中立于不败之地。