Agent「记吃不记打」？华为诺亚SCOPE框架实现Prompt自我进化，HLE成功率翻倍 | AI资讯

type

status

date

slug

summary

引言：解决AI Agent的“健忘症”

在当前的人工智能（AI）领域，大语言模型（LLM）驱动的Agent虽然展现了强大的逻辑推理能力，但却普遍存在一个致命弱点：即便在执行任务时已经收到了明确的错误反馈，它们依然倾向于在同一个坑里反复跌倒。这种“记吃不记打”的现象，根源在于静态的Prompt（提示词）无法根据实时反馈进行自我调整。

为了打破这一僵局，华为诺亚方舟实验室与香港中文大学联合发布了名为 SCOPE 的全新框架。该框架的核心理念是让Agent在执行任务的过程中，通过分析自身的执行轨迹，自动提炼并进化Prompt，从而实现从错误中学习。实验证明，SCOPE在复杂的HLE（专家级问题）基准测试中，将任务成功率从14%大幅提升至39%，实现了质的飞跃。如果你想关注更多AI资讯和AI新闻，欢迎访问 AI门户。

Agent的两大失败模式：纠正型与增强型

研究团队通过对GAIA和DeepSearch等基准测试的深度分析，总结了导致Agent任务失败的两大核心模式：

纠正型失败 (Corrective Failure)：这是最直观的错误。当Agent调用工具出错时，错误日志通常会给出正确的参数格式或API用法。然而，由于Prompt是静态的，Agent往往视而不见，陷入“报错-承认错误-重复错误”的死循环，甚至会为了强行推进任务而编造虚假数据。

增强型失败 (Enhancement Failure)：这种失败更加隐蔽。即使没有报错，Agent也可能因为策略单一而错失最优解。例如，在搜索特定术语时，如果初始关键词无果，Agent若不能灵活变换同义词或泛化搜索，任务就会陷入停滞。

这两种失败模式本质上都暴露了现有Agent系统缺乏动态适应能力。在AGI的演进路径上，如何让模型具备实时进化的“智慧”成为了关键。

SCOPE框架：四大核心组件驱动Prompt自我进化

SCOPE框架将Prompt管理从繁琐的手动工程转变为自动化的闭环优化过程。它主要由以下四个部分组成：

指导规则合成（Guideline Synthesis）：当Agent遇到挑战或完成阶段性任务时，生成器会分析执行轨迹并合成多条候选规则。通过Best-of-N策略，系统会自动挑选出最具指导意义的规则。数据显示，61%的规则属于“增强型”，这意味着SCOPE不仅在救火，更在主动优化策略。

双流路由机制（Dual-Stream Routing）：SCOPE巧妙地将记忆分为“战术记忆”和“战略记忆”。战术记忆存储仅适用于当前特定任务的规则；而高置信度的通用规则则会被提升至战略记忆，用于指导未来的所有任务。这种设计有效避免了模型对特定任务的过拟合。

记忆优化（Memory Optimization）：为了防止规则堆叠导致上下文冗余，SCOPE会定期进行冲突解决、冗余剪枝和整合归并，确保Prompt始终精炼且高效。

视角驱动探索（Perspective-Driven Exploration）：通过初始化不同的“视角”（如效率优先或周全优先），SCOPE能并行进化出多条策略路径。在面对复杂任务时，多视角集成能捕获单一路径无法解决的问题，极大增强了系统的鲁棒性。

性能飞跃：HLE与GAIA基准的卓越表现

在包含2500道专家级难题的HLE基准测试中，SCOPE的表现令人瞩目，成功率从14.23%飙升至38.64%。在GAIA基准上，成功率也从32.73%提升至56.97%。

特别是在知识密集型领域，如生物医学和化学，SCOPE的提升尤为显著。这是因为这些领域对逻辑严密性和特定规则的遵循有着极高要求，而SCOPE合成的领域特定规则能够帮助Agent精准避雷。这种能力的提升，对于想要通过AI变现或在专业领域应用大模型的开发者来说，具有极高的参考价值。

开发者利器：即插即用与模型无关

除了科研价值，SCOPE在工程实现上也极具实用性。它采用了即插即用的设计，开发者只需在现有的Agent循环中调用 on_step_complete() 接口，即可赋予系统自我进化能力，无需重构原有架构。

此外，通过集成LiteLLM，SCOPE支持包括OpenAI、ChatGPT、Claude在内的100多种模型提供商。这种模型无关的特性，使得开发者可以根据需求灵活选择底座模型，同时享受SCOPE带来的性能增益。

总结与展望：让Agent在线进化

华为诺亚与港中文的这项研究，为LLM Agent的未来发展指明了方向：与其费尽心思设计完美的静态Prompt，不如构建一个能够在线进化的系统。SCOPE通过将执行轨迹转化为学习信号，让Agent真正具备了“从经验中学习”的能力。

随着人工智能技术的不断进步，这种具备自我迭代能力的Agent将成为实现通用人工智能的关键一环。如果你对Prompt优化、AI日报或最新的大模型技术感兴趣，请持续关注 AIGC.bar，获取前沿的AI资讯。