一个专为AI设计浏览器里运行的安卓模拟器,内置 28 个模拟应用和 416 个任务模板,配备确定性评判器,单机可并行 256 个实例.

mobilegym

🌈
一个浏览器里运行的安卓模拟器，专为移动 GUI 智能体研究打造。它用完全可编程的结构化状态替代了真实设备，内置 28 个模拟应用和 416 个任务模板，配备确定性评判器，单机可并行 256 个实例。

Github地址

https://github.com/Purewhiter/mobilegym

在线体验

https://mobilegym.dev/

已关注

关注

重播分享赞

项目功能特性

真实设备上，AI 只能看到 UI 树，看不到余额、订单、聊天记录——研究者被迫用 VLM 做"看图猜话"的评判，错误率高达 10.2%。MobileGym 把整个环境变成一份结构化 JSON，评判器直接读取状态，毫秒级出结果，百万次评判也稳如磐石。

状态随意操控，RL 训练终于敢放开跑

真实 App 的数据存在加密数据库和服务器后端，重置不了，克隆不了。GRPO 这类群体强化学习需要大量并行 rollout，这在真机上近乎幻想。MobileGym 支持重置、注入、快照、克隆状态，256 个并行实例在一台服务器上跑得轻轻松松。

真实世界里，转账就是真钱，注销就是永别。MobileGym 的沙箱里，AI 可以"犯错"一百万次。更关键的是，它能做全环境状态比对——意外关注了一个用户？误发了一条消息？这些真实设备根本捕捉不到的副作用，在这里一目了然。

每个实例约 400 MB 内存、50 MB 磁盘。256 个实例并行，CPU 占用不到 10%。完整 256 任务评估，六分钟收工。这背后是 React 19、Vite 6、Zustand 5、Tailwind CSS v4 的精密咬合，也是研究者对"别让环境成为瓶颈"的执念。

Sim-to-Real 不是口号，是测过的数字

59 个信号任务上，模拟训练后的模型在真实 Redmi Note 12 Turbo 上跑出了 72.9% 的成功率，相比真机基线的 32.2%，提升 40.7 分。模拟端 76.7%，真实端 72.9%——95.1% 的保留率，说明这里练出来的不是"考试技巧"，是真能迁移的本事。

自由文本答案的时代过去了。Agent 必须填写结构化表单，声明字段类型。Chain-of-thought 的"泄露"再也无法刷分——你想作弊？系统不给你接口。

每个应用的每个屏幕、每次跳转、每个动作，都是有限状态机规格。静态分析能跑，BFS 能搜，轨迹能规划——运行时和任务编写工具复用同一套描述。