Mano大模型登顶双榜SOTA,AI智能体告别手动点击时代!

type
status
date
slug
summary
tags
category
icon
password
网址

引言

我们正处在一个被屏幕包围的时代。据统计,人的一生中平均有近9年的时间花在手机上,而对于办公室人群,这个数字只会更高。在无尽的点击、勾选、复制粘贴中,我们的时间和注意力被不断蚕食。如果有一种技术,能将我们从这些繁琐的图形用户界面(GUI)操作中解放出来,会是怎样的体验?这就是GUI智能体(GUI Agent)诞生的使命。
然而,让AI像人一样理解并操作千变万化的软件界面,其难度远超生成一段流畅的文本。长期以来,GUI智能体的成功率一直是行业痛点。正是在这一背景下,明略科技推出的专有大模型Mano横空出世,凭借其在全球两大权威基准测试Mind2Web和OSWorld上的SOTA(State-of-the-Art,即当前最先进)成绩,为整个领域带来了范式级的突破,宣告了GUI智能操作新时代的开启。

Mano的SOTA成就:不止是数字上的超越

Mano的强大并非空谈,它在两个业界公认最具挑战性的基准测试中,用数据证明了自身的领先地位。
* 网页端霸主:Mind2Web测试 Mind2Web是一个极其复杂的网页任务基准,覆盖了137个真实网站和超过2350个真实世界任务,从在线购物到预订机票,无所不包。它考验的是AI智能体在多变的网页DOM结构中精准定位元素并完成连续操作的能力。Mano在此测试中的元素精度(Ele.Acc)步骤成功率(Step SR)两项关键指标上,均显著超越了以往的所有SOTA模型。这表明Mano不仅“看得准”,更能“做得成”,能够将复杂的用户指令转化为一连串成功的实际操作。
* 桌面端珠峰:OSWorld-Verified测试 如果说Mind2Web是网页挑战,那么OSWorld-Verified就是桌面操作的“珠穆朗玛峰”。它涵盖了369个跨应用任务,涉及浏览器、办公软件等10大类应用,要求智能体在真实的操作系统环境中完成端到端的复杂任务链。在这一严苛的测试中,Mano在一次运行中就取得了40.1%的惊人成功率,将平均成功率拉高至41.6%,相比同类顶尖模型提升了近7个百分点。这标志着Mano在理解和操作复杂桌面环境方面,达到了新的高度。

核心揭秘一:首创在线强化学习新范式

Mano之所以能够取得如此突破性的成就,其背后是两大核心技术创新。首先是其在GUI智能体领域首次引入的在线强化学习(Online Reinforcement Learning)训练范式
传统的AI智能体训练大多依赖于离线强化学习,即使用预先收集好的固定数据集进行训练。这种方式虽然有效,但无法完全模拟真实世界中动态、多变的交互环境。GUI界面的一个微小更新,就可能让离线训练出的模型“束手无策”。
Mano的技术团队认识到,智能体必须在真实环境中“摸爬滚打”,才能学会真正的适应性。为此,他们构建了一个渐进式的三阶段优化流程:
  1. 监督微调(SFT):使用高质量的人工和模拟交互数据,对模型进行基础训练,得到一个初始模型。
  1. 离线强化学习:利用GRPO等先进算法,在离线数据集上进一步优化模型的决策能力,使其具备高效交互的基础。
  1. 在线强化学习:这是Mano的“杀手锏”。团队构建了一个包含真实浏览器和桌面环境的模拟环境池,让模型在其中不断与真实环境交互、试错、学习。就像OpenAI Five通过海量的自我对战成为Dota 2顶尖玩家一样,Mano在与真实GUI的持续交互中,采集到离线数据无法覆盖的丰富轨迹,从而极大地提升了模型的鲁棒性和泛化能力。
为了解决在线学习成本高昂的问题,Mano采用了创新的“在线采样+离线过滤”策略,先高效收集交互轨迹,再筛选出有价值的数据进行训练,实现了成本与效果的最佳平衡。消融实验证明,正是这一在线强化学习阶段,让模型的性能实现了质的飞跃。

核心揭秘二:智能探索器与自动化数据飞轮

高质量的训练离不开海量、优质的数据。传统上,构建GUI交互轨迹数据需要大量人工标注,成本高昂且效率低下。Mano的第二大创新,就是设计了一套训练数据自动采集的“探索器”,从根本上解决了数据瓶颈。
这个自动化流程如同一个不知疲倦的智能探索者:
  • 智能目标生成:利用大语言模型自动为目标网站或软件生成需要探索的功能清单,并进行优先级排序。
  • 精准元素提取:通过定制的Chrome插件和桌面解析技术,全面、精准地抓取界面中所有可交互的元素,并过滤掉无效信息。
  • 自动化语义标注:再次利用大模型,为提取的每个元素自动生成功能描述、交互类型等语义标签,形成结构化的训练数据。
  • 高效探索策略:采用深度优先搜索(DFS)等策略,智能地选择下一步操作,避免无效循环,在保证探索覆盖率的同时提升效率。
通过这套自动化系统,Mano构建了一个强大的数据飞轮:模型通过探索产生新的高质量数据,这些数据又被用来训练出更强的模型,更强的模型又能进行更深入、更广泛的探索。这种持续自我迭代的能力,是Mano能够不断进化的关键。

Mano的商业价值与未来展望

Mano的诞生并非一次单纯的学术炫技,其背后是明略科技在数据智能领域多年积累的厚积薄发。这项技术已经成为其商业数据分析智能体DeepMiner的核心引擎。
在当前AI Agent市场,大多数产品依赖于平台开放的API来获取数据,来源单一且壁垒不高。而真正的商业价值洼地,在于那些没有API接口、需要用户手动登录、筛选、导出的专业网站数据。Mano的拟人化GUI操作能力,使其能够轻松攻克这些数据孤岛,为企业提供独家、实时的商业洞察,构筑了坚实的技术护城河。
从知识图谱的构建,到多模态大模型的研发,再到如今GUI智能体的突破,Mano的成功是技术与商业深度融合的典范。它不仅将自动化操作的边界推向了新的远方,也为我们展示了人工智能(AI)走向更通用、更实用的AGI(通用人工智能)路径。
未来,随着在验证码处理、端侧部署等方面的持续优化,Mano这类先进的GUI智能体将彻底改变我们与数字世界的交互方式,让我们真正从重复性劳动中解放出来,聚焦于更有创造力的工作。
对前沿AI技术和最新AI资讯感兴趣的读者,可以访问AI门户网站 https://aigc.bar 获取更多关于大模型Prompt工程和AI变现的深度内容。
Loading...

没有找到文章