Agent「记吃不记打」?华为诺亚SCOPE框架实现Prompt自我进化,HLE成功率翻倍 | AI资讯

type
status
date
slug
summary
tags
category
icon
password
网址
notion image

引言:解决AI Agent的“健忘症”

在当前的人工智能AI)领域,大语言模型(LLM)驱动的Agent虽然展现了强大的逻辑推理能力,但却普遍存在一个致命弱点:即便在执行任务时已经收到了明确的错误反馈,它们依然倾向于在同一个坑里反复跌倒。这种“记吃不记打”的现象,根源在于静态的Prompt(提示词)无法根据实时反馈进行自我调整。
为了打破这一僵局,华为诺亚方舟实验室与香港中文大学联合发布了名为 SCOPE 的全新框架。该框架的核心理念是让Agent在执行任务的过程中,通过分析自身的执行轨迹,自动提炼并进化Prompt,从而实现从错误中学习。实验证明,SCOPE在复杂的HLE(专家级问题)基准测试中,将任务成功率从14%大幅提升至39%,实现了质的飞跃。如果你想关注更多AI资讯AI新闻,欢迎访问 AI门户

Agent的两大失败模式:纠正型与增强型

研究团队通过对GAIA和DeepSearch等基准测试的深度分析,总结了导致Agent任务失败的两大核心模式:
  1. 纠正型失败 (Corrective Failure):这是最直观的错误。当Agent调用工具出错时,错误日志通常会给出正确的参数格式或API用法。然而,由于Prompt是静态的,Agent往往视而不见,陷入“报错-承认错误-重复错误”的死循环,甚至会为了强行推进任务而编造虚假数据。
  1. 增强型失败 (Enhancement Failure):这种失败更加隐蔽。即使没有报错,Agent也可能因为策略单一而错失最优解。例如,在搜索特定术语时,如果初始关键词无果,Agent若不能灵活变换同义词或泛化搜索,任务就会陷入停滞。
这两种失败模式本质上都暴露了现有Agent系统缺乏动态适应能力。在AGI的演进路径上,如何让模型具备实时进化的“智慧”成为了关键。

SCOPE框架:四大核心组件驱动Prompt自我进化

SCOPE框架将Prompt管理从繁琐的手动工程转变为自动化的闭环优化过程。它主要由以下四个部分组成:
  • 指导规则合成(Guideline Synthesis):当Agent遇到挑战或完成阶段性任务时,生成器会分析执行轨迹并合成多条候选规则。通过Best-of-N策略,系统会自动挑选出最具指导意义的规则。数据显示,61%的规则属于“增强型”,这意味着SCOPE不仅在救火,更在主动优化策略。
  • 双流路由机制(Dual-Stream Routing):SCOPE巧妙地将记忆分为“战术记忆”和“战略记忆”。战术记忆存储仅适用于当前特定任务的规则;而高置信度的通用规则则会被提升至战略记忆,用于指导未来的所有任务。这种设计有效避免了模型对特定任务的过拟合。
  • 记忆优化(Memory Optimization):为了防止规则堆叠导致上下文冗余,SCOPE会定期进行冲突解决、冗余剪枝和整合归并,确保Prompt始终精炼且高效。
  • 视角驱动探索(Perspective-Driven Exploration):通过初始化不同的“视角”(如效率优先或周全优先),SCOPE能并行进化出多条策略路径。在面对复杂任务时,多视角集成能捕获单一路径无法解决的问题,极大增强了系统的鲁棒性。

性能飞跃:HLE与GAIA基准的卓越表现

在包含2500道专家级难题的HLE基准测试中,SCOPE的表现令人瞩目,成功率从14.23%飙升至38.64%。在GAIA基准上,成功率也从32.73%提升至56.97%。
特别是在知识密集型领域,如生物医学和化学,SCOPE的提升尤为显著。这是因为这些领域对逻辑严密性和特定规则的遵循有着极高要求,而SCOPE合成的领域特定规则能够帮助Agent精准避雷。这种能力的提升,对于想要通过AI变现或在专业领域应用大模型的开发者来说,具有极高的参考价值。

开发者利器:即插即用与模型无关

除了科研价值,SCOPE在工程实现上也极具实用性。它采用了即插即用的设计,开发者只需在现有的Agent循环中调用 on_step_complete() 接口,即可赋予系统自我进化能力,无需重构原有架构。
此外,通过集成LiteLLM,SCOPE支持包括OpenAIChatGPTClaude在内的100多种模型提供商。这种模型无关的特性,使得开发者可以根据需求灵活选择底座模型,同时享受SCOPE带来的性能增益。

总结与展望:让Agent在线进化

华为诺亚与港中文的这项研究,为LLM Agent的未来发展指明了方向:与其费尽心思设计完美的静态Prompt,不如构建一个能够在线进化的系统。SCOPE通过将执行轨迹转化为学习信号,让Agent真正具备了“从经验中学习”的能力。
随着人工智能技术的不断进步,这种具备自我迭代能力的Agent将成为实现通用人工智能的关键一环。如果你对Prompt优化、AI日报或最新的大模型技术感兴趣,请持续关注 AIGC.bar,获取前沿的AI资讯
Loading...

没有找到文章