AI智能体进化新路径:Memento不微调模型登顶GAIA榜单
type
status
date
slug
summary
tags
category
icon
password
网址
在人工智能飞速发展的今天,如何打造更强大、更智能的AI Agent(智能体)已成为AGI探索的核心议题。然而,开发者们普遍面临一个棘手的两难困境:要么依赖复杂的提示词工程构建呆板的工作流,要么投入巨额成本对大模型(LLM)进行参数微调,并承担“灾难性遗忘”的风险。
近日,来自UCL的一项开创性研究《Memento》彻底打破了这一僵局。它提出了一种全新的范式:不改动LLM的任何参数,而是通过赋予智能体“情景记忆”,让其从过往的成功与失败经验中学习。这一思路不仅在理论上优雅,更在被誉为“智能体高考”的GAIA基准测试中,以绝对优势登顶榜首,为AI智能体的进化指明了一条极具潜力的新道路。这篇AI新闻将带你深入解读Memento背后的核心思想与强大实力。
智能体开发的“两难”:昂贵的微调与呆板的提示词
当前构建AI智能体主要有两种主流方法,但它们都存在着难以忽视的瓶颈。
- 固化工作流范式:这种方法的核心是Prompt工程。开发者预先设计好一套复杂的指令和固定的工作流程,引导智能体完成特定任务。这种方式在处理已知问题时效率尚可,但其致命弱点在于缺乏适应性。一旦遇到新的任务类型或环境发生变化,整个系统便会失灵,无法自主调整策略。
- 参数微调范式:为了提升智能体的灵活性,研究者们转向通过监督微调(SFT)或强化学习(RL)来直接更新大模型(如ChatGPT或Claude系列模型)的内部参数。这种方法能让智能体学会新技能,但代价极其高昂。它不仅需要海量的标注数据和计算资源,还常常引发“灾难性遗忘”——模型在学习新知识后,会覆盖或忘记原有的能力,导致整体性能不升反降。
Memento的破局之道:让AI学会“翻阅日记”
Memento的灵感源于人类的记忆机制。我们学习新技能,并非每次都重塑大脑的物理结构,而是通过回忆和借鉴过去的经历(即“情景记忆”)来指导当下的决策。Memento将这一理念应用于AI智能体,其核心是构建一个外部的、可动态增长的“案例库”(Case Bank)。
该框架的理论基础是记忆增强马尔可夫决策过程 (M-MDP)。与传统决策过程不同,M-MDP在每个时间步都为智能体引入了一个记忆空间M。智能体的决策不再仅仅基于当前状态,而是“当前状态 + 相关历史案例”。
其工作流程如下:
1. 决策:面对新任务,智能体首先从案例库中检索出最相关的K个历史案例(包含成功与失败的经验)。
2. 规划:将这些案例与当前任务描述一同整合进提示词,引导核心LLM生成更周密、更有效的行动计划。
3. 执行与学习:智能体执行计划,并将这次全新的交互经验(任务、行动、结果)存入案例库,实现记忆的持续增长和迭代。
通过这种方式,Memento巧妙地将“学习”的过程从昂贵的模型参数更新,转移到了更高效、更灵活的案例检索策略优化上。
Memento系统架构:高效的“大脑”与“巧手”
为了将理论付诸实践,研究团队设计了一个分工明确的智能体架构,主要由两部分组成:
- 规划者 (Planner) - “大脑”:由GPT-4.1等顶级大模型驱动,负责战略思考。它接收用户指令后,会查询案例库,利用检索到的经验来分解任务、制定详细的行动计划。
- 执行者 (Executor) - “巧手”:由o3或o4-mini等模型驱动,负责战术执行。它不参与规划,只专注于精准完成“大脑”下达的每一个子任务。为此,它配备了一套强大的工具集,包括:
- 信息检索工具:集成多个搜索引擎和网页抓取能力。
- 多模态处理工具:能够理解和操作图像、视频、PDF、Excel等多种文件格式。
- 代码与计算工具:提供沙箱环境来执行Python代码,进行复杂的推理和数据分析。
更值得一提的是,Memento的案例记忆管理模块提供了两种实现方式:一种是基于语义相似度的非参数化检索,简单高效;另一种是训练一个小型Q函数网络的参数化检索,它能更智能地预测借鉴某个案例的潜在回报,并能通过在线学习不断优化检索策略。
硬实力证明:登顶GAIA,多项基准全面领先
Memento的卓越性能在多个权威基准测试中得到了验证,这篇AI资讯的核心亮点也正在于此。
- GAIA:在这个极度考验智能体多步规划、多工具协作和长链条推理能力的基准上,Memento以87.88%的惊人准确率强势登顶,超越了所有已知的微调和非微调方法。
- DeepResearcher:在考验实时网络研究能力的基准上,Memento的F1分数达到66.6%,显著优于先前基于强化学习的SOTA模型。
- SimpleQA:在事实问答任务中,Memento取得了95.0%的准确率,证明其方法能有效抑制大模型的幻觉问题。
- HLE (Humanity's Last Exam):在这个“地狱级”难度的前沿科学知识推理测试中,Memento同样表现出色,成绩仅次于传闻中的GPT-5级别模型。
深度剖析:持续学习能力的奥秘
通过一系列严谨的消融实验,研究者揭示了Memento性能飞跃的关键。
案例式推理(CBR)是核心:实验证明,启用案例库能够带来4.7%到9.6%的绝对性能提升,尤其是在面对从未见过的新类型任务时,效果更为显著。
真正的持续学习:随着与环境交互次数的增加,Memento的性能呈现出一条稳步上升的学习曲线。这证明了它能够有效地从经验中学习,真正做到“越用越聪明”,这是迈向AGI的关键一步。
经验贵在精而不在多:研究还发现,检索4个最相关的案例时效果最佳。过多的案例(如16或32个)反而会因为引入噪声而导致性能轻微下降。这为我们构建高效的AI学习系统提供了宝贵的实践指导。
结论
Memento的出现,为人工智能领域带来了一次深刻的范式思考。它雄辩地证明,相比于依赖模型参数的“肌肉记忆”(微调),基于过往案例的“情景记忆”在解决复杂、开放式问题时,可能是一条更高效、更具可扩展性的进化路径。
这项研究不仅在GAIA排行榜上留下了浓墨重彩的一笔,更重要的是,它为我们描绘了一个未来AI智能体的理想形态:一个懂得反思、善于总结、能够从每一次交互中汲取智慧的持续学习者。
想要探索更多前沿的AI资讯和大模型应用,欢迎访问AI门户网站 AIGC.bar (https://aigc.bar),获取最新的AI日报和深度解读,与我们一同见证人工智能的未来。
Loading...