MiniMax于今日为其桌面端代理程序推出了两项新功能:Pocket(测试版)和Computer Use。
Pocket使用户能够通过主流即时通讯软件如飞书、微信或Slack远程向Agent下达指令,而Computer Use则赋予了代理程序操作电脑本地应用及系统设置的能力。
近期,MiniMax还发布了命令行工具MMX-CLI,允许用户在终端中调用代理的全模态功能。此次更新进一步强化了图形界面的操作能力,并通过即时通讯软件提供了一个统一的远程接入点,使用户即使不在电脑前也能随时启动Agent执行任务。
远程控制与图形界面操作
Pocket是一个让Agent能够接收来自IM平台指令的功能模块,允许用户在飞书或微信等应用程序中向代理发送命令,并得到反馈。其实用场景在于远程操控,即便没有身处电脑旁,也能通过手机调度桌面端的代理。
Computer Use功能则使代理具备了操作图形界面的能力,能够识别屏幕内容并模拟鼠标和键盘动作执行任务,如调整系统偏好设置或在多个应用程序间移动数据等。
MiniMax展示了几个使用IM与Computer Use结合的具体案例。
1、远程找文件。
指令:请查看我的桌面上是否有一个名为“2025报告”的PDF文件,并将其发送给我。

代理程序可以远程定位到目标文件并直接将其发回给用户,无需打开电脑。实际演示中显示,代理能够准确识别出关键词并将正确的文档通过对话传送给用户。
操作本地软件和系统设置
用户可以通过指令让Agent开启系统偏好设置,关闭屏幕保护程序,并安排每日定时任务。
由于没有公开的命令行接口可供操作这些界面元素,代理必须基于图形界面来完成。它能够打开相应的设置页面、定位到指定面板并进行调整,在执行完所有步骤后将结果通过IM展示给用户。


技术实现:桌面控制拆分化
当前的Computer Use技术通常依赖于截图和像素坐标识别,这种方式虽然简单但精度有限。MiniMax则选择了一种更细致的方法,即将桌面操作分解成四个独立的工作模块来提高精确度。
具体来说,Desktop Control负责处理屏幕截图、鼠标动作(包括组合键)、键盘输入等;Window Manager用于管理窗口的状态和位置;Browser Engine负责网页元素的操作;而Clipboard则涉及系统剪贴板的读写操作。这些工具加起来使代理可以调度超过六十种不同的软件。
屏幕适配
由于不同显示器之间的分辨率差异较大,MiniMax采取了一种灵活的方法来处理这个问题:让模型输出相对位置信息,并由系统自动转换为实际坐标;截图也会根据屏幕的分辨率进行调整,以保证无论是在高分屏还是低分屏下都能清晰显示。
确保每一步操作的有效性
为了确保复杂任务的成功执行,MiniMax加入了验证环节。每次操作完成后都会自动截取当前界面并由模型判断是否成功完成。如果出现问题,则会尝试找到替代方案继续推进或暂停等待用户的进一步指示。
用户授权与安全性保障
在进行敏感操作之前,代理程序需要获取用户同意。例如,在执行文件删除等重要任务时,系统会在IM中向用户展示具体的操作内容并请求确认。对于不支持交互组件的平台,则通过文本指令完成授权。
操作电脑能力的发展
近期,AI Agent在操控电脑方面取得了显著进展,从最初的演示阶段逐渐步入实际应用领域。然而,识别复杂界面、执行长时间任务以及处理未知软件等方面仍面临挑战。
MiniMax的创新路径
通过即时通讯平台提供统一入口和分步骤验证机制等方式,MiniMax为AI Agent操作电脑提供了具体的产品化方案。未来这套方法的实际应用效果如何还需进一步观察用户反馈来确定。
MiniMax这次更新提供了一条具体的产品化路径:用IM做入口降低使用门槛,用工具域拆分提升操作精度,用逐步验证兜住多步任务的可靠性。至于这套方案在真实用户场景中能走多远,还需要更大范围的使用反馈来验证。

