mobilegym
🌈 一个浏览器里运行的安卓模拟器,专为移动 GUI 智能体研究打造。它用完全可编程的结构化状态替代了真实设备,内置 28 个模拟应用和 416 个任务模板,配备确定性评判器,单机可并行 256 个实例。
Github地址
https://github.com/Purewhiter/mobilegym
在线体验
https://mobilegym.dev/
项目功能特性
状态完全透明,评判不再猜谜
真实设备上,AI 只能看到 UI 树,看不到余额、订单、聊天记录——研究者被迫用 VLM 做"看图猜话"的评判,错误率高达 10.2%。MobileGym 把整个环境变成一份结构化 JSON,评判器直接读取状态,毫秒级出结果,百万次评判也稳如磐石。
状态随意操控,RL 训练终于敢放开跑
真实 App 的数据存在加密数据库和服务器后端,重置不了,克隆不了。GRPO 这类群体强化学习需要大量并行 rollout,这在真机上近乎幻想。MobileGym 支持重置、注入、快照、克隆状态,256 个并行实例在一台服务器上跑得轻轻松松。
副作用无处藏身
真实世界里,转账就是真钱,注销就是永别。MobileGym 的沙箱里,AI 可以"犯错"一百万次。更关键的是,它能做全环境状态比对——意外关注了一个用户?误发了一条消息?这些真实设备根本捕捉不到的副作用,在这里一目了然。
轻到让人心疼
每个实例约 400 MB 内存、50 MB 磁盘。256 个实例并行,CPU 占用不到 10%。完整 256 任务评估,六分钟收工。这背后是 React 19、Vite 6、Zustand 5、Tailwind CSS v4 的精密咬合,也是研究者对"别让环境成为瓶颈"的执念。
Sim-to-Real 不是口号,是测过的数字
59 个信号任务上,模拟训练后的模型在真实 Redmi Note 12 Turbo 上跑出了 72.9% 的成功率,相比真机基线的 32.2%,提升 40.7 分。模拟端 76.7%,真实端 72.9%——95.1% 的保留率,说明这里练出来的不是"考试技巧",是真能迁移的本事。
AnswerSheet 协议:堵住作弊的缝隙
自由文本答案的时代过去了。Agent 必须填写结构化表单,声明字段类型。Chain-of-thought 的"泄露"再也无法刷分——你想作弊?系统不给你接口。
声明式导航,机器和人都能读懂
每个应用的每个屏幕、每次跳转、每个动作,都是有限状态机规格。静态分析能跑,BFS 能搜,轨迹能规划——运行时和任务编写工具复用同一套描述。
夜雨聆风