MiniMax Agent 重磅更新:重新定义 Computer Use,AI 操控电脑进入全模态时代 | AI新闻
type
status
date
slug
summary
tags
category
icon
password
网址

引言:从命令行到图形界面的跨越
在人工智能高速发展的今天,AI 智能体(Agent)正逐渐从“只会聊天的对话框”演变为“能干活的数字员工”。上周 MiniMax 发布了 MMX-CLI,让开发者能够通过命令行调用其全模态能力。然而,现实办公场景中大量任务并非存在于终端,而是隐藏在各类本地软件、内部系统和复杂的图形用户界面(GUI)中。
近期,MiniMax 对其 Agent 桌面端进行了颠覆性的更新,正式推出了 Pocket 功能与 Computer Use 能力。这一举措不仅重新设计了 Agent 操作电脑的方式,更打破了软件间的“孤岛”,让 AI 能够像人类一样观察屏幕、操作键鼠。本文将深入解读这次更新背后的技术逻辑及其对 AGI 进程的推动作用。更多前沿 AI资讯,欢迎访问 AI门户。
核心更新:Pocket 与 Computer Use 的协同效应
此次更新最直观的改变在于任务触发与执行路径的重构。通过 Pocket 功能,用户可以将桌面智能体“装进兜里”。
- 全时段远程操控:支持飞书、微信、Slack 等主流 IM 软件。用户只需在手机端发送指令,Agent 即可在远程电脑上执行任务,并将结果回传。
- Computer Use 视觉化操作:不再依赖于 API,Agent 可以直接识别屏幕上的 UI 元素。无论是本地安装的设计工具,还是没有公开接口的内部报表系统,Agent 都能通过视觉感知完成点击、拖拽和输入。
例如,在“远程找文件”场景中,Agent 能在杂乱的桌面上精准定位 PDF 并发送给用户;在“筛选简历”场景中,它能跨应用读取文件并自动在飞书文档中生成分析报告。这种跨软件的连贯操作,标志着 LLM 在实际应用场景中的落地能力迈上了新台阶。
技术拆解:为什么不再提供“万能工具”?
在 人工智能 领域,实现 Computer Use 的常规做法是给模型一个统一的“截图+点击”工具,但这往往导致精度不足。MiniMax 采取了更精细化的“工具拆解”策略,将桌面操作划分为四个独立领域:
- Desktop Control:负责基础的像素级操作,如滚动、拖拽及修饰键组合。
- Window Manager:直接调用系统 API 进行窗口管理(聚焦、缩放、启动),避开了视觉识别的延迟。
- Browser Engine:利用 DOM 操作和 CSS 选择器进行结构化导航,确保在网页端的精准度远超像素识别。
- Clipboard:通过系统剪贴板实现跨应用的数据传递,保证了数据流转的可靠性。
这种“工具矩阵”的设计思路,配合 60 多个专用工具,让 Agent 能够根据任务类型选择最优路径,极大地提升了任务执行的成功率。
视觉感知与“截图-验证-行动”循环
为了让模型在不同分辨率(如 MacBook Retina 屏与外接 4K 屏)下都能“看清”屏幕,MiniMax 引入了坐标系统统一化技术。模型输出 0 到 1 之间的相对位置,再由系统换算为真实坐标,消除了硬件差异带来的偏差。
此外,针对长流程任务容易“断链”的问题,MiniMax 设计了截图-验证-行动(SVA)循环:
* 每步验证:每执行一个动作,系统自动截图让模型确认效果。
* 自动诊断:如果操作未达到预期,Agent 会进入诊断流程,尝试替代方案(如将鼠标点击改为快捷键)。
* 主动反馈:在尝试多次失败后,Agent 会停止盲目操作,向用户报告具体卡点。这种机制显著降低了复杂任务的崩溃率,是 AI日报 中值得关注的技术突破。
安全边界:IM 驱动的远程授权机制
当 Agent 拥有了操作电脑的高级权限,安全性便成为核心议题。MiniMax 将权限管理深度集成到 IM 流程中。当 Agent 涉及删除文件、修改系统设置等高危动作时,会向用户的飞书或微信发送交互卡片。
用户通过点击确认或发送文本指令进行授权,确保每一个关键动作都在监控之下。这种“人在回路”(Human-in-the-loop)的设计,既保留了远程办公的便利,又筑牢了安全防线,为 Prompt 触发的自动化流程提供了合规保障。
结论与展望:走向真实的 AGI 办公环境
MiniMax Agent 的这次更新,展示了 大模型 从“语言理解”向“环境交互”进化的清晰路径。虽然目前在复杂界面的泛化能力和长任务稳定性上仍有提升空间,但其展示的工程化思维——即如何稳定、准确、安全地让 AI 操控物理设备——为行业树立了标杆。
随着 openai、claude 等厂商在智能体领域的持续发力,未来的办公模式将发生翻天覆地的变化。想要了解更多关于 AI变现、人工智能 趋势及深度教程,请持续关注 AI新闻门户。
Loading...
.png?table=collection&id=cbe6506e-1263-8358-a4d7-07ce62fcbb3f&t=cbe6506e-1263-8358-a4d7-07ce62fcbb3f)