手机AI助手为何总掉链子-夜雨聆风

手机AI助手为何总掉链子

你有没有遇到过这种情况——

跟朋友约了饭，AI助手说”已帮你添加到日历”。结果你到了餐厅，才发现日历里根本没有这条记录。

你想让AI帮你点个外卖，它说”好的，正在下单”，然后——就没有然后了。

不是AI不想帮你，是它根本不认识你的手机。

今天要说的这篇论文，解决的就是这个问题。

—

所有人都想做，但没有人做出来的东西

过去两年，手机AI助手是所有大厂都在押注的方向。

苹果做了Apple Intelligence，Google在推Gemini，国内华为、小米、OPPO也都在做自研系统。大家的愿景都很清晰：让AI真正替你操作手机，而不是只帮你查个天气、回个消息。

但有一个尴尬的现实——

这些系统，都！不！开！源！

什么意思？你可以体验，但没办法学习它的核心逻辑，更别说自己训练一个。更进一步说，每家都只在自己的封闭环境里训练，换一个品牌手机，换一个APP，功能就直接报废。

这就像所有人都想造汽车，但发动机图纸被锁在保险箱里，谁也拿不出来。

那有没有人做开源的？也有，但效果差很多——开源模型的成功率通常只有20%到30%，和各家闭源的60%+比，差了整整一倍。

为什么会这样？

核心原因：训练数据太难搞。

—

两个拦路虎：任务和轨迹

想训练一个能操作手机的AI，缺两样东西。

第一，任务指令。

你要告诉AI”帮我打开微信，找到聊天记录，给朋友发一条消息”——这个”任务描述”，得成千上万条，而且要覆盖各种手机、各种APP、各种操作场景。人工写？写到天荒地老。

第二，执行轨迹。

AI不只认识”要做什么”，还得知道”怎么做”。它需要看大量的”正确答案”——从打开APP到完成操作，每一步怎么点、怎么滑、怎么判断。这种东西，最值钱的生产资料，每家公司都捂着不让人看。

过去，开源社区在这两个问题上都卡住了。

任务不够多、不够多样；轨迹不够真、不够有错误恢复能力。

而这篇论文，第一次系统性地解决了这两个问题。

—

OpenMobile：把造AI的过程，也变成AI的工作

这篇论文叫 OpenMobile，来自南京大学、香港科技大学、上海AI Lab等单位。

它做的事情，用一句话概括就是：让AI自己合成训练AI需要的任务和轨迹，然后把训练好的AI放出来，所有人都能用。

整个框架分两个核心模块，拆开来看都很精妙。

模块一：任务合成流水线

怎么让AI生成高质量的任务描述？

OpenMobile的思路是先探索，再生成。

第一步，让一个”环境探索Agent”在真实手机上瞎溜达——点开APP，滑动页面，记录屏幕状态。这个过程就像一个好奇的人类用户，在不破坏手机的前提下，把所有能触达的地方都走一遍。

探索完了，它把所有走过的路径拼成一个”全局环境记忆”——一个巨大的图结构，记录了所有屏幕状态之间的关系：可以从A屏跳到B屏，可以从B屏调用日历功能，等等。

然后，关键的一步来了——

让大语言模型根据这个环境记忆，自己生成任务描述。

比如，模型看到”A屏是日历首页，B屏是新建日程页”，它就能生成一条指令：”帮我创建一个明天上午10点的会议日程”。

生成出来的任务，因为有真实的屏幕跳转图作为依据，每一条都是可执行的、 grounded 的，不是那种”听起来像人话但AI根本没法做”的废话指令。

模块二：策略切换的轨迹收集

任务有了，接下来要收集”正确示范”——怎么一步步完成这些任务。

这里有个经典难题：让AI自己学，还是让专家带着学？

纯靠自己学，叫模仿学习，成功率高但缺乏泛化能力；纯靠专家带，叫专家蒸馏，效果好但专家太贵，而且一旦遇到没见过的场景就傻眼。

OpenMobile的做法是动态切换——

用一个”学习者模型”先试着做任务，做对了继续，做错了就切换到”专家模型”接手纠偏。重点是：专家只在必要时刻出手，不是全程代劳。

这样收集到的轨迹，既包含成功完成任务的完整路径，也包含错误恢复的过程——这对训练AI真正有用，因为真实场景里，AI一定会犯错，关键是要能从错误里出来。

—

数字说话：开源，第一次打赢闭源

听起来有道理，效果怎么样？

论文在三个主流移动Agent benchmark上做了评测：AndroidWorld、AndroidLab、MobileWorld。

结果很震撼——

用OpenMobile合成数据微调出来的 Qwen2.5-VL，达到了 51.7% 的成功率；用 Qwen3-VL 更是跑出了 64.7%，远超所有其他开源方案。

作为参考，之前开源社区最好的成绩大约在30%左右，而OpenMobile直接翻了一倍。

更重要的是，它不仅比开源的好，也非常接近闭源系统的上限。这意味着，开源数据和开源模型，第一次在移动Agent这个任务上，站到了和闭源最强者接近的位置。

—

为什么这件事值得你关注

第一层：技术上的进步

OpenMobile证明了——数据质量问题，完全可以用合成方法解决。不需要花大价钱去买数据，也不需要靠人工标注磨很久。核心是你怎么设计合成管道，让生成出来的数据既多样、又 grounded、又有错误恢复信号。

这对整个AI Agent领域都是方法论上的贡献。

第二层：开源社区的胜利

目前绝大多数移动AI Agent的核心技术都是封闭的：训练数据不公开，核心方法不披露，版本更新靠自家团队黑箱迭代。

OpenMobile把整个pipeline开源了——从环境探索到任务合成，再到轨迹收集，全部代码和数据集都可以在GitHub上找到。

这意味着，任何一个有GPU的人，都可以用它的方法，训练自己的手机AI助手。不需要签约大厂，不需要买数据授权。

第三层：每一个人都能感受到的变化

如果移动Agent的能力持续提升，未来会变成什么样？

早上起来，你跟手机说”帮我整理一下昨天的聊天记录，把工作相关的内容生成一份简报，邮件发给老板”——然后你就可以去刷牙了。

这不是科幻，这是OpenMobile这类研究正在努力让它发生的方向。

—

总结

OpenMobile这篇论文，解决了移动AI Agent领域的两个核心问题：任务合成和轨迹收集。

它的核心思路很巧妙：用环境探索构建真实可执行的任务描述，用策略切换收集包含错误恢复的训练轨迹。两者结合，第一次让开源数据训练出的移动Agent，达到了接近闭源系统的水平。

更重要的是，它开源了所有东西。

当造AI的工具，也变成AI的工作——这件事本身，才是真正的进展。

— 论文来源：OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis，arXiv:2604.15093，南京大学、香港科技大学、上海AI Lab等