龙虾也能用手机？揭秘GUI智能体从训练到部署的全链路解决方案

作者：世界网2026年4月20日科技1 阅读

ClawGUI团队向量子位投稿 | 公众号 QbitAI

AI自主观看屏幕、判断局势、规划消除路径并执行点击操作，无需人工介入或预设脚本。

观察它一步步完成方块的消除任务，会让人感到一种莫名的减压感。

这并非游戏作弊程序，而是一个通用图形用户界面智能体在“认真工作”：该智能体拥有与操作手机应用、填写表格和浏览网页相同的视觉理解和控制能力。之所以能玩转消消乐，是因为它真正掌握了“看懂屏幕并进行操作”的技能。

一个可以自主玩游戏的AI距离帮助你完成日常手机任务还有多远？这里说的不是简单的语音助手，而是像人类一样能够理解界面、滑动点击和执行复杂任务的智能体。

当前图形用户界面智能体的研究面临一项重大挑战：训练、评估及部署这三个环节彼此独立，难以实现闭环整合。模型在仿真环境中完成训练后，在真实设备上缺乏相应的工程化路径；不同框架下的评估标准不一，无法进行有效的横向比较；而将模型部署到实际设备时，则需要单独建立一套基础设施。这三个步骤各自为战，整体推进效率低下。

ZJU-REAL团队近期推出了一款名为ClawGUI的开源框架，该框架涵盖了图形用户界面智能体在线强化学习训练、标准化评估以及真实设备部署的完整生命周期。它不仅仅是一个简单的工具组合，而是一条完整的流水线：使用ClawGUI-RL进行训练，利用ClawGUI-Eval进行评估，并通过OpenClaw-GUI实现部署。

该框架支持一个仅有2B参数的小型模型ClawGUI-2B，在MobileWorld基准测试中获得了17.1 SR的成绩，远超基线的11.1，接近于8B模型的表现水平。

ClawGUI系统架构概述

ClawGUI-RL：助力图形界面智能体在真实环境中稳步提升

图形用户界面代理的在线强化学习训练需要与实际设备进行持续互动，包括截屏、解析、操作和反馈。这意味着训练基础设施不仅要有模型训练框架，还需要大规模环境仿真以及设备管理能力。ClawGUI-RL是目前开源社区中少数经过端到端验证的图形界面智能体在线强化学习解决方案之一。

ClawGUI-RL将整个训练基础设施分解为三层：环境控制、奖励机制和策略优化。

在环境层面，所有设备后端（包括Docker虚拟机和物理手机）被统一抽象成同一接口，这意味着训练代码无需区分底层是模拟器还是真实设备。每个环境遵循“重置→执行→评估→回收”的标准生命周期，并配合备用服务器轮转及周期性重启机制以确保长时间运行的稳定性。

奖励层面，ClawGUI-RL采用了二元结果奖励加上逐步过程奖励的设计。在任务结束时给出成功或失败的信号，在每一步操作后根据前后截图和历史动作判断当前步骤的有效性，并综合计算最终得分。这种密集反馈显著解决了图形用户界面长序列决策中的稀疏奖励问题。

在策略优化层面，ClawGUI-RL支持GRPO、GiGPO等多种主流强化学习算法，并提供统一的训练接口供研究者根据任务特性灵活选择和对比不同策略。

ClawGUI-RL架构图

虚拟环境与真机训练

基于Docker的Android虚拟环境使ClawGUI-RL能够同时运行大量虚拟设备。内置的备用服务器切换机制保证了训练过程中的稳定性，当某容器截图失败或设备出现问题时，系统会自动切换到备用服务继续进行训练。团队还提供了经过验证的真实手机端在线强化学习训练流程，物理手机和云手机均可以接入。真实环境下的交互协议与虚拟环境完全一致，为后续大规模云端部署奠定了基础。

过程奖励模型（PRM）：每一步操作都有评分

根据传统GRPO，在一次任务结束后只会给出一个单一的成功或失败分数，中间步骤的好坏无法区分。ClawGUI-RL通过引入过程奖励模型改变了这一点，对每一个动作进行评估并提供更密集的反馈信号。

实验结果

以MAI-UI-2B为基础，ClawGUI-2B在MobileWorld基准测试中的表现如下：

关键数据：ClawGUI-2B达到了17.1 SR的成绩，大幅领先于基线模型MAI-UI-2B（11.1），提升幅度为6%。一个仅有2B参数的小型模型已经接近了8B参数模型的水平。

ClawGUI-Eval：95.8%的复现率确保评测结果可靠

图形界面模型评估领域长期以来面临一致性问题，不同框架和实现细节会导致同一模型的测试结果存在显著差异。ClawGUI-Eval通过标准化的三阶段流水线系统性地解决了这些问题。

ClawGUI-Eval评测框架覆盖了6大基准（ScreenSpot-Pro、ScreenSpot-V2、UIVision等），支持11+种模型，并在48个官方基准中成功复现了46个，总体复现率为95.8%。此外还首次对Gemini 3.1 Pro进行了评测。

复现经验总结

团队总结的关键复现经验比数据本身更有价值：

1. 坐标系统不匹配会导致准确率归零。Qwen2.5-VL输出的是绝对像素坐标，而Qwen3-VL则是相对化的0-1区间值，两者之间需要进行转换。

2. 多模型接入支持AutoGLM、MAI-UI等多种模型；个性化记忆功能能够自动学习用户偏好，并在跨任务间持续复用；每次执行都会以结构化形式保存为一个“Episode”，便于回放和数据集构建；基于Gradio的Web UI允许设备管理、任务执行与记忆查看。

未来展望：图形界面智能体的发展空间巨大

在CLI Agent领域，Claude Code、Gemini CLI等项目正在大热。然而一个问题浮现：GUI智能体是否还有必要存在？

研究团队认为，GUI的故事还远未结束，CLI与GUI的融合或许是通向通用代理的重要路径。

人类短期内无法完全摆脱图形界面。移动互联网上绝大多数交互发生在图形界面上，如外卖、打车等服务都是通过可视化的操作完成的。至少在可预见的未来内，图形界面仍将是数字世界的主要入口之一。

许多应用程序没有API接口可供CLI直接访问，例如微信和银行应用只有图形界面，而无明确的数据接口或命令行工具支持。CLI负责高效执行任务；GUI则负责与人类用户进行直观交互和感知反馈。两者更像是互补而非替代关系。

GUI的“可见性”提供了一种独特的信任机制。如果代理在执行过程中需要处理支付操作，而这些动作是以看不见的方式完成的话，一旦发生错误或意外情况如何承担责任？相比之下，在关键步骤中能够看到屏幕上实际发生的交互过程，并随时介入，则更能保证用户的可控性和安全感。

实时在线强化学习的技术挑战尚未完全解决。图形界面智能体的学习需要与真实应用进行互动，登录验证、反爬机制及动态UI变化等都增加了大规模训练的难度。ClawGUI-RL所采用的备用服务器切换和周期性重启策略是初步尝试，但距离实现生产级的大规模在线强化学习还有很长一段路要走。

ClawGUI团队计划进一步开发和完善其产品线：包括自然语言手机操控与评测功能；支持扩展性的移动端在线强化学习训练基础设施；提供标准化的评估工具包等。后续还将推进在真实设备上的部署工作，直接安装于用户手中避免云端隐私泄露风险。

ClawGUI旨在探索一个全新的可能性：当打通了图形界面智能体从训练、评估到部署全过程后，它能走多远？CLI与GUI的合作又能释放出怎样的潜力？

通过ClawGUI-RL实现了图形界面代理的在线强化学习从虚拟环境向真实设备迁移；而ClawGUI-Eval则为社区提供了一套可信的评测标准。此外，OpenClaw-GUI将这些智能体技术带到了实际应用中。

目前项目已开放源代码，并欢迎更多人关注和支持，让更多的人了解图形界面代理的可能性。

项目地址：https://github.com/ZJU-REAL/ClawGUI

项目主页：https://zju-real.github.io/ClawGUI-Page/

研究团队倾向于认为：GUI的故事远没有结束，CLI+GUI的融合或许是通往通用Agent的一条重要路径。

人类短期内离不开GUI。从文字到图片到视频，越容易被感知的媒介越具备传播优势。外卖、打车、社交、购物，移动互联网绝大多数的交互发生在图形界面上。至少在可见的未来，GUI仍将是数字世界的主要入口。

不是所有App都有API。微信、银行、大量企业内部系统只有图形界面。CLI面向Agent执行，高效干活；GUI面向人类理解，感知和交互。两者更像是互补关系而非替代关系。

GUI的「可见性」提供了一种独特的信任机制。假如Agent在执行任务时涉及支付操作，CLI以用户看不见的方式直接完成了付款，造成的损失谁来承担？GUI操作到关键步骤时，用户可以看到屏幕上正在发生什么、随时介入。这种可控性可能是纯CLI方案较难提供的。

Online RL的工程挑战远未被解决。GUI Agent的RL训练需要与真实App交互，登录验证、反爬机制、动态UI变化，大规模RL Scaling的稳定性仍是行业难题。ClawGUI-RL的Spare Server轮转和周期性重启机制是一个初步的探索，距离大规模生产级训练还有很长的路要走。

路线图

ClawGUI的规划不止于此：OpenClaw-GUI支持自然语言手机操控与评测；ClawGUI-RL可扩展的Mobile Online RL训练基础设施，支持PRM逐步奖励；ClawGUI-Eval标准化评测套件，6个Benchmark，95%+复现率；ClawGUI-2B达到17.1 SR（基线11.1）；后续将推进真机部署OpenClaw-GUI，直接部署在手机上避免云端隐私泄露；Desktop / Web Online RL，将在线RL扩展至桌面和网页环境；以及基于OPD算法的实时强化学习。

总结

ClawGUI不是要证明GUI比CLI更好，而是想探索一种可能性：训练、评测、部署打通之后，GUI智能体能走多远？CLI和GUI的协作又能释放出怎样的潜力？

ClawGUI-RL让GUI Agent的在线训练从虚拟环境走向真机，ClawGUI-Eval为社区提供了一套可信赖的评测标准，OpenClaw-GUI把GUI智能体从研究带到了真实设备。

项目已开源，欢迎Star支持，让更多人看到GUI Agent的可能性。

项目地址：
https://github.com/ZJU-REAL/ClawGUI

项目主页：
https://zju-real.github.io/ClawGUI-Page/

“”

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到[email protected]，深感抱歉，我们会做删除处理。