上海交大开源MobiAgent:人人都能炼专属AI助手,实测性能超越GPT-5!
type
status
date
slug
summary
tags
category
icon
password
网址
想象一下,您的手机里住着一个专属AI助手,能自主理解您的指令,自动完成订外卖、规划旅行、在线购物等一系列繁琐操作。这不再是科幻电影的场景,而是正在加速到来的现实。然而,打造这样一个个性化AI智能体(Agent)的技术门槛,长期以来都将普通开发者和用户拒之门外。
近日,这一局面被彻底改变。来自上海交通大学IPADS实验室的团队重磅开源了名为MobiAgent的移动端智能体全栈工具链。这套“全家桶”首次将构建手机Agent的完整流程——从数据收集、模型训练到端侧部署与加速——完全开放,真正让“人人都能炼专属Agent”成为可能。这一突破性的进展无疑是人工智能领域的重磅AI新闻,预示着移动AI生态的全新变革。
破局者登场:MobiAgent是什么?
MobiAgent 是一套集“数据捕获、模型训练、推理加速、自动评测”于一体的四位一体开源框架。它彻底打通了移动智能体从概念到落地的“最后一公里”,其核心目标是大幅降低开发门槛,让任何人都能为自己或他人创建功能强大、运行高效的个性化手机Agent。
与依赖云端强大算力的大模型(如ChatGPT)不同,MobiAgent更专注于端侧部署,这意味着您的私人数据和操作习惯可以保留在本地设备上,既保证了隐私安全,又实现了更快的响应速度。它的出现,为AI技术在个人设备上的普及和应用开辟了全新的想象空间。
揭秘核心技术(一):AI如何学会“玩手机”?
要让AI像人一样熟练操作手机App,首先需要高质量的“教材”。MobiAgent为此设计了一套AI辅助的敏捷数据收集流水线。
- 轻量级操作录制:通过一个小工具,MobiAgent可以轻松记录下人类用户在手机上的所有操作轨迹,如点击、滑动和输入。
- AI“脑补”思考过程:仅有操作记录还不够,AI需要理解每一步背后的“意图”。MobiAgent利用视觉语言模型(VLM),观察操作录屏,自动生成每一步的思考逻辑和决策过程,形成高质量的训练数据。
- 自动化数据“精炼”:生成的数据会经过一个自动化流水线进行优化,平衡任务难度、调整信息长度,确保训练出的Agent模型具备强大的泛化能力。
在模型“大脑”的设计上,MobiAgent的MobiMind模型采用了分工明确的“三人小组”架构:
* 规划师 (Planner):负责理解复杂任务,并将其拆解成一个个可执行的小步骤。
* 决策者 (Decider):观察当前手机屏幕,结合任务目标,决定下一步具体该做什么。
* 执行者 (Grounder):将“点击搜索按钮”这类抽象指令,精准地转换为屏幕上的坐标并执行点击。
这种模块化的设计不仅提升了训练效率,也让Agent的行为更加精准和可靠。
揭秘核心技术(二):让AI拥有“肌肉记忆”
一个聪明的AI助手,如果反应迟钝,用户体验也会大打折扣。为此,MobiAgent团队开发了创新的AgentRR(Agent Record & Replay)加速框架。
这个框架的核心思想类似于人类的“肌肉记忆”。对于我们经常重复的任务,比如每天点开App签到,或者搜索附近的咖啡店,我们几乎是下意识完成的,无需每次都重新思考。AgentRR正是为AI赋予了这种能力。
它会将Agent执行过的任务轨迹以树状结构(ActTree)记录下来。当遇到新的、相似的任务时,一个超轻量的“潜意识模型”会迅速判断:“这个任务我做过,前几步可以直接复用!” 例如,无论是“搜附近的火锅店”还是“搜附近的电影院”,打开地图、点击搜索框这两步是完全相同的。AgentRR可以直接“重放”这段操作,跳过大模型的复杂思考过程,从而大幅提升效率。
测试数据显示,在模拟真实用户使用习惯(80%请求集中在20%任务)的场景下,动作复用率高达60%-85%,最终带来2到3倍的端到端任务性能提升。
真实场景大比拼:实测性能超越顶级大模型
理论再好,也要实战检验。为了公平、客观地评估Agent的真实能力,团队专门打造了一个更贴近现实的评测基准MobiFlow。它覆盖了国内主流的社交、影音、购物、旅行等多个领域的App,通过“里程碑”式的节点对任务完成度进行精确打分。
评测结果令人瞩目:7B规模的MobiAgent模型组合,在绝大多数App上的任务完成分都超越了包括GPT-5、Gemini 2.5 Pro在内的顶级闭源大模型。
特别是在购物、外卖这类操作流程复杂的任务上,MobiAgent的优势尤为明显。相比之下,一些通用大模型在执行任务时会“偷懒”,例如将所有需求一次性输入搜索框,过度依赖App自身的AI搜索能力,一旦遇到不支持的App,任务完成率便急剧下降。更关键的是,MobiAgent在所有测试中都能正确终止任务,而GPT-5甚至在11个App上出现了“无限循环”的卡死问题。
MobiAgent的出现,不仅在技术性能上树立了新的标杆,更重要的是,它通过彻底开源,将曾经属于少数科技巨头的强大能力交到了每一位开发者和AI爱好者手中。一个“能动口就不动手”的智能移动时代,正以前所未有的速度向我们走来。
想要了解更多前沿的AI资讯和人工智能技术,探索大模型的无限可能,欢迎访问AIGC导航(https://aigc.bar),获取最新的AI新闻和深度解读。
Loading...