谷歌Gemini Deep Research Agent发布:性能超越GPT-5 Pro,成本仅需1/10
type
status
date
slug
summary
tags
category
icon
password
网址

在人工智能领域的激烈角逐中,谷歌再次展现了其深厚的技术底蕴。就在今日凌晨,谷歌抢在OpenAI之前,发布了三项关于AI Agent(智能体)的重磅更新:全新的Deep Research Agent功能、开源的DeepSearchQA基准测试以及全新的交互API(Interactions API)。
这一系列动作不仅展示了谷歌在大模型和AGI探索上的最新成果,更直接向行业标杆发起了挑战。根据谷歌DeepMind产品经理透露的数据,新版Gemini Deep Research Agent在多项基准测试中拿下了SOTA(当前最佳)成绩,其表现甚至超越了GPT-5 Pro,而成本却仅为后者的十分之一。对于关注AI资讯和技术落地的开发者而言,这无疑是一个巨大的利好消息。更多关于前沿AI技术的深度解读,请持续关注 aigc.bar。
性能怪兽:Gemini Deep Research Agent
此次更新的核心焦点无疑是Gemini Deep Research Agent。这是一款专为处理长期上下文采集和综合任务而优化的智能体,其底层模型采用了谷歌目前“最真实”的模型——Gemini 3 Pro。
该Agent的设计初衷是为了解决复杂信息环境下的自主导航问题。通过多步强化学习的扩展搜索,它能够像人类研究员一样,自主地提出问题、阅读搜索结果、识别知识空白,并进行迭代式的二次搜索。
核心亮点包括:
- 超越GPT-5 Pro的性能:在谷歌新推出的基准测试以及BrowseComp中,Gemini Deep Research Agent的表现令人瞩目。在完整的HLE测试中,其得分高达46.4%,而作为对比的GPT-5 Pro得分为38.9%。
- 极致的成本效益:虽然性能强悍,但其使用成本却大幅降低。据透露,其价格仅为GPT-5 Pro的1/10左右。这意味着企业和开发者可以以更低廉的价格,享受到最顶级的AI推理能力。
- 减少幻觉:Gemini 3 Pro经过专门训练,旨在最大化复杂任务中的报告质量,并显著减少大模型常见的“幻觉”问题。
重新定义测试标准:DeepSearchQA开源
随着AI Agent能力的提升,传统的基准测试往往无法反映现实世界中多步网络研究的复杂性。为了更准确地评估Agent的能力,谷歌开源了全新的网络研究Agent基准——DeepSearchQA。
DeepSearchQA不仅仅是一个数据集,它更像是一套严格的考试大纲。它内置了900个手工设计的“因果链”任务,涵盖了金融、科学、生物技术等17个专业领域。与传统的基于事实的简单问答不同,DeepSearchQA衡量的是Agent在复杂环境下的全面性和推理深度。
谷歌在内部评估中发现了一个有趣的现象:当允许Agent执行更多的搜索与推理步骤(即增加“思考时长”)时,其性能会获得显著提升。DeepSearchQA正是为了评估这种深度思考和多步查询能力而生,为LLM和Agent的发展提供了新的度量衡。
开发者福音:全新的交互API
为了让开发者能够更轻松地构建下一代自动化研究工具,谷歌推出了交互API(Interactions API)。这是一个与Gemini模型和Agent的统一交互界面,旨在解决Agent开发中的痛点。
交互API的主要优势:
- 简化的上下文管理:该API原生集成了一套专属接口,可高效处理交错式消息、思维链(Chain of Thought)以及工具调用的复杂状态。
- 服务器端历史管理:开发者可以将繁琐的历史记录管理卸载到服务器端,这不仅简化了客户端代码,减少了上下文管理错误,还能通过增加缓存命中率来降低成本。
- 支持MCP协议:模型可以直接调用模型上下文协议(MCP)服务器作为工具,极大地扩展了Agent的连接性和能力边界。
- 结构化输出:支持JSON模式输出,并允许用户通过提示定义数据表生成和格式,便于下游应用直接解析研究结果。
实际应用与未来展望
目前,Gemini Deep Research Agent已经在金融服务、生物技术和市场调研等需要高精度和深度分析的领域投入使用。网友形象地评论道,谷歌这是把“一个数字版的福尔摩斯交给了开发者”。现在,用户只需简单下达指令,Agent就能像写论文一样展开深度调查,并生成带有细粒度来源验证的详细报告。
谷歌的这一系列举措,不仅丰富了Gemini的生态系统,也大大降低了AI Agent的开发门槛。未来,随着原生图表生成功能的加入以及对企业级Vertex AI的支持,我们可以预见,基于Gemini的智能体应用将迎来一波爆发式的增长。
结语
谷歌深夜发布的这三个大招,无疑再次点燃了人工智能领域的战火。从性能超越GPT-5 Pro的Deep Research Agent,到重新定义标准的DeepSearchQA,再到赋能开发者的交互API,谷歌正在构建一个从底层模型到上层应用的全方位AI生态。
对于行业观察者和开发者来说,这是一个激动人心的时刻。更低的成本、更强的性能意味着AI变现和落地的可能性被无限放大。想要获取更多关于ChatGPT、Claude以及谷歌Gemini的最新动态和提示词技巧,欢迎访问 aigc.bar,获取第一手AI新闻和AI日报。
Loading...
.png?table=collection&id=1e16e373-c263-81c6-a9df-000bd9c77bef&t=1e16e373-c263-81c6-a9df-000bd9c77bef)