AI写代码新篇章：千名工程师280美元/单教Claude写好代码

type

status

date

slug

summary

AI工程师的“新常态”与外部专家的价值

根据报道，Anthropic的自家工程师早已习惯让AI代劳大部分编码工作。Claude Code负责人Boris Cherny甚至表示，他已数月未手动编写代码，模型每天能提交数十个Pull Request。这似乎预示着AI将全面接管编程任务。然而，有趣的转折在于，Anthropic并未止步于此，而是反其道而行之，投入大量资源，通过外部人类专家的精细化指导来提升模型能力。

这项代号为“Marlin”的项目，与数据公司Snorkel AI合作，其核心在于招募拥有丰富软件工程背景的外部工程师。他们并非简单地进行数据标注，而是承担起一项项极具挑战性的任务，其性质堪比真实的代码评审。工程师们需要从数千个GitHub代码仓库中选取目标，创建Pull Request，并撰写清晰的提示词。模型随后会生成两套代码方案，而工程师们的工作就是进行A/B测试，比较并选出更优的那一套。

280美元/单：购买的不仅是代码，更是“工程判断”

每一项任务的报酬高达280美元，耗时约一小时。这笔费用购买的，绝非简单的代码片段，而是资深工程师大脑中关于代码“好坏”的宝贵判断。评判标准聚焦于生产级代码的正确性、安全性、可靠性和可维护性。

例如，一项任务要求模型重构系统处理元数据的方式，目标是提升代码的清晰度和可维护性，同时不影响原有功能。另一项则涉及为MLflow这一开源机器学习平台修复安全漏洞，特别是针对加载模型时可能出现的命令注入风险，要求既能有效防御攻击，又不影响合法的pip选项。这些任务的复杂性和专业性，远远超出了传统数据标注的范畴，它们要求工程师将自己多年积累的“工程直觉”和“最佳实践”转化为模型可以学习的数据。Anthropic购买的，正是这种能够指导AI产出更安全、更健壮、更易于维护代码的“思维判断”。

Claude Code：从代码生成到项目级AI智能体

Anthropic之所以如此重视外部工程师的反馈，是因为Claude Code早已被定义为一个项目级的AI智能体。这意味着它不仅能生成代码，更能深入理解整个代码库，进行跨文件规划，直接执行修改，运行测试，并根据测试结果进行迭代优化。这种强大的能力意味着一旦模型出错，其潜在的风险和代价是巨大的。

因此，训练Claude Code的目标早已从“写对代码”升级到“写出安全、可靠、可维护的代码”。这些高级特质，是无法通过简单的代码语料库喂养而获得的。它们通常隐藏在资深工程师的代码审查和长期的实践经验中，是“人传人”的宝贵财富。通过招募和激励人类编程专家，Anthropic正试图将这种隐性的知识显性化，转化为可用于训练AI的宝贵数据。

Snorkel AI：AI训练数据的“隐形军火商”

在这场AI训练的幕后，Snorkel AI扮演着至关重要的角色。这家公司以“数据决定AI成败”为核心理念，从斯坦福AI Lab走出，专注于提供创新的数据解决方案。Snorkel最初以“弱监督”学习模式，旨在减少对昂贵且耗时的人工标注的依赖。然而，在当前前沿模型时代，最稀缺、最有价值的资源又回到了人类专家身上——他们的品味、判断和专业知识。

Snorkel的转身，使其成为组织和管理一支昂贵专家大军的“数据军火商”。其工作流能够清晰定义任务、评分标准，并建立多层级的评审和裁决机制，确保数据的质量和可追溯性。通过提供隔离的评估环境，Snorkel确保了外部工程师在不知晓模型版本的情况下进行评审，避免了版本干扰，从而获得更纯粹、可比较的反馈数据。其高昂的报价（每小时约280美元，远高于同行）也反映了顶尖工程师反馈的巨大价值，也使得Snorkel成为Google、Mistral、Anthropic等公司的重要合作伙伴。

巨头们的竞赛：争夺“真实工程现场”的数据

Anthropic的策略并非孤例。包括Cursor、xAI/SpaceX以及OpenAI在内的科技巨头，都在以各自的方式争夺“真实工程现场”的数据，以训练更强大的AI编程模型。

Cursor 通过其产品用户行为数据来训练模型，鼓励用户在非隐私模式下贡献代码库、提示词和编辑行为。

马斯克的xAI 则通过资本手段（如收购Cursor母公司Anysphere的期权），直接获取海量的真实开发者行为数据，以期大幅提升Grok模型的编程能力。

OpenAI 则在其Codex模型中，通过强化学习在真实编码任务中反复试错、测试和修正，力求模型产出贴近人类风格、符合PR习惯的代码。

这些玩家打法不同，但殊途同归，都在利用越来越接近真实工程实践的数据，来训练更智能、更实用的AI编程助手。

真正的护城河：人类的品味与判断

正如SWE-chat论文所示，即使是先进的AI模型，其生成的代码也只有约44%最终被用户接受并提交。这表明，传统的基准测试已不足以衡量AI编程的真实水平。真正的挑战在于真实开发过程中的反复试错、迭代修改以及最终的“拍板”决策。

模型越强大，越需要“购买”人类尚未被替代的那部分——工程直觉与判断。Anthropic花费280美元一个任务，聘请千名工程师进行A/B投票，正是为了获取这份无价的“工程品味”。谁能有效地将真实工程现场的复杂决策过程转化为模型可消化的数据，谁就能在AI编程的下一程竞赛中占据先机。

对于希望利用AI提升编程效率的用户而言，了解Claude官网的最新动态，探索Claude国内使用方法，或是寻找Claude镜像站，都能帮助您体验到AI编程的最新成果。无论是寻找Claude官方中文版，还是希望获得详细的Claude教程和使用指南，都能在AI技术发展的浪潮中，找到属于您的最佳实践。