让AI替你玩手机!2B小模型通关三大难题
【文章导读】:2026年4月19日,ZJU-REAL团队发布了ClawGUI开源框架。它通过整合ClawGUI-RL(在线强化学习训练)、ClawGUI-Eval(标准化评测)和OpenClaw-GUI(真机部署),解决了GUI智能体训练、评测、部署环节割裂的难题。其2B小模型在MobileWorld基准上取得了17.1的成功率,超越基线。该研究意义在于为GUI智能体提供了一条从研发到真实应用落地的完整路径,探索了CLI与GUI协作的可能性。
你或许见过能写诗、能编程的AI,但一个能自己玩“消消乐”的AI,是不是听起来有点不一样?它不是游戏外挂,而是在“认真工作”——它正用着和你操作手机App、浏览网页时完全一样的视觉理解和点击能力。这个名叫ClawGUI的项目,就像一个“AI手机学徒”,正在试图学会“看懂屏幕并操作”这件事。
那么,一个会玩游戏的AI,离真正帮你完成日常手机操作还有多远?比如,不是用语音命令,而是让它自己打开外卖App,根据你的口味、预算和距离,筛选餐厅、下单支付,最后截图发给你确认。这背后,可不是一个简单的指令能解决的。
长久以来,研究这类图形界面智能体(GUI Agent)的科学家们,一直被一个老大难问题困扰:训练、评测、部署这三个环节,就像三个各自为政的部门,谁也瞧不上谁的工作流程。 模型在模拟器里练得挺好,一到真机上就水土不服;评测标准五花八门,A团队说我的模型准确率90%,B团队一测可能只有85%,谁说的对?最后,想把模型装到你的手机上,又得从头搭建一套复杂的工程系统。整个过程费时费力,成本极高。
但现在,来自ZJU-REAL的团队搞了个“一站式解决方案”,名叫ClawGUI。它不是一个简单的工具包,而是一条被打通的“流水线”:用ClawGUI-RL训练模型,用ClawGUI-Eval公正评测,再用OpenClaw-GUI部署到你的真机上。 最让人惊讶的是,基于这条流水线训练出来的一个“小个子”模型——只有2B参数(约20亿)的ClawGUI-2B,在一个叫MobileWorld的基准测试中,成功率(SR)达到了17.1,把之前同尺寸基线模型的11.1远远甩在身后,表现直逼一些8B(80亿)参数的“大块头”模型。
这就像一个小学生,通过一套科学高效的训练方法,在奥数竞赛中达到了初中生的水平。
一、 从“盲人摸象”到“步步为营”:AI如何学会“看”和“点”?
要让AI学会操作图形界面,最核心的方法是强化学习(Reinforcement Learning, RL)。你可以把它想象成训练一只宠物:AI(宠物)在手机环境(家)里做一个动作(比如点击某个图标),然后观察屏幕变化(环境反馈)和是否得到奖励(比如成功打开了目标App)。通过成千上万次的尝试,它逐渐学会哪些操作能带来“好结果”。
但这事儿说起来简单,做起来全是坑。ClawGUI-RL就是为了填这些坑而生的。
第一个大坑:环境太脆弱。 用成百上千个模拟器或真机同时训练AI,就像同时管理一个庞大的机房,死机、卡顿、截图失败是家常便饭。ClawGUI-RL的秘诀是**“统一接口”和“备用服务器轮转”**。它把所有设备(无论是Docker模拟器还是实体手机)都抽象成一套相同的指令接口,训练代码根本不用管底下是啥。同时,内置的“备用服务器”机制,能在某个设备“罢工”时瞬间切换,保证训练7x24小时不间断。
第二个,也是更关键的大坑:奖励太“稀疏”。 传统的训练方法,有点像只凭期末考试分数来教学生。AI完成一长串操作(比如从打开App到成功下单),只有最后成功了才给1分,失败了就是0分。中间它点了哪里、滑了哪里、有没有走弯路,老师(训练系统)完全不管。这导致AI学习效率极低,经常在错误的道路上瞎折腾。
ClawGUI-RL引入了一个聪明的“过程奖励模型(PRM)”。这相当于给AI配了一个“随堂老师”,每做一步操作就立刻打分。比如,在订外卖任务中,AI成功打开了外卖App,“随堂老师”可能给+0.1分;它正确点击了“美食”分类,再+0.1;但如果它误点了“打车”,老师就会给个低分或负分。这种“每一步都有反馈”的密集奖励,让AI能快速分辨哪些是有效操作,哪些是在浪费时间,学习路径清晰了太多。
二、 评测的“罗生门”与“定海神针”
模型练得好不好,总得有个公正的考试。但在GUI智能体领域,评测一度是个“罗生门”。不同团队用的评测框架、提示词格式、甚至坐标体系(像素坐标还是归一化坐标)都不同,导致同一个模型,在不同地方测出来的成绩能差好几个百分点。这还怎么比?怎么进步?
ClawGUI-Eval的目标,就是成为这个领域的“定海神针”——一套标准化、高复现率的评测体系。它覆盖了ScreenSpot-Pro、AndroidControl等6个主流评测基准,支持Qwen、Gemini、MAI-UI等超过11个主流模型。
它的厉害之处在于高达95.8%的复现率。什么意思?在48个有官方标准答案的评测项中,它能复现出46个几乎一致的结果。为了做到这一点,团队踩了无数坑,总结出的经验堪称“血泪史”:图文输入的先后顺序(先图后文还是先文后图)能影响结果;一句看似无关紧要的“你是一个有用的助手”系统提示,可能带来1%的性能提升;甚至连模型输出坐标时用的是“[0,999]”还是“[0,1000]”这种细微差别,都可能导致灾难性错误。
这些细节,就像精密仪器上的螺丝,拧错一丝一毫,整个机器就可能无法运转。 ClawGUI-Eval把所有这些细节都标准化、自动化了,让评测结果终于变得可信、可比。所有推理数据也已开源,任何人都能来验证。
三、 从实验室到你的口袋:一句话操控手机
训练和评测搞得再好,如果AI不能在你的手机上运行,那也是空中楼阁。OpenClaw-GUI就是为了让AI从实验室走进你的生活。
你可以把它理解为一个超级自动化助手,通过你常用的聊天软件(如飞书、QQ、钉钉等)就能驱动。在聊天窗口里,你发一句:“帮我把昨晚拍的最好看的三张照片,发到朋友圈,配文‘周末愉快’。”
接下来,神奇的事情发生了:你手机上的OpenClaw-GUI Agent会被唤醒,它自动截取当前屏幕,理解你的指令,然后开始规划操作——解锁手机、打开相册、智能筛选照片、点击分享到微信朋友圈、输入文字、点击发布……整个过程,你都能在屏幕上亲眼看到它一步一步地操作。
更有意思的是,它甚至把评测功能也集成了进去。你对它说:“帮我测一下Qwen3-VL模型在ScreenSpot-Pro基准上的成绩。”它就能自动在后台调用计算资源,完成整套评测流程,然后把结果报告给你。这本身就是一个绝佳的案例:繁重的计算任务(CLI模式)由后台默默高效完成,而交互和展示(GUI模式)则留给人机界面。 这或许揭示了未来智能体的一个形态:CLI与GUI并非取代关系,而是协作共生的“最佳拍档”。
四、 GUI过时了?不,它的故事才刚进入精彩章节
现在,通过命令行(CLI)与AI交互(比如让AI直接写代码、操作数据库)确实很火。于是有人问:未来都是直接下指令了,谁还需要AI去笨拙地“看”和“点”图形界面呢?
ClawGUI团队的观点很明确:GUI智能体的故事,远未结束。
首先,人类世界短期内离不开图形界面。点外卖、刷视频、网购、社交……我们绝大多数数字生活都发生在五光十色的屏幕上。只要人还需要通过屏幕来感知信息,GUI智能体就有存在的必要。
其次,不是所有应用都有开放的API(应用程序接口)。你的银行App、公司内部系统、甚至一些常用软件,并没有给AI留出直接操作的“后门”。想要自动化这些任务,AI唯一的选择就是像人一样,“看屏操作”。
第三,也是至关重要的一点:GUI提供了CLI难以替代的“可见性”和“信任感”。想象一下,你让AI帮你交电费。如果是纯CLI操作,你可能在毫无察觉的情况下,钱就付出去了。但GUI操作下,你能亲眼看到AI点开了支付App、输入了金额、跳转到了密码确认界面——在最后一步按下确认键的,仍然可以是你自己。这种可控性和透明度,对于涉及隐私、安全、支付的关键操作,可能是不可或缺的。
当然,这条路挑战巨大。让AI与复杂多变、充满反自动化机制的真实App进行大规模交互训练,工程难度如同在流沙上盖高楼。ClawGUI-RL的“备用服务器”机制只是初步尝试。但无论如何,ClawGUI项目为我们推开了一扇门:当训练、评测、部署被打通成一条顺畅的流水线后,GUI智能体到底能走多远?它与CLI智能体的协作,又将催生出怎样强大的通用人工智能(AGI)?
夜雨聆风