手机AI助手为何总掉链子
你有没有遇到过这种情况——
跟朋友约了饭,AI助手说”已帮你添加到日历”。结果你到了餐厅,才发现日历里根本没有这条记录。
你想让AI帮你点个外卖,它说”好的,正在下单”,然后——就没有然后了。
不是AI不想帮你,是它根本不认识你的手机。
今天要说的这篇论文,解决的就是这个问题。
—
所有人都想做,但没有人做出来的东西
过去两年,手机AI助手是所有大厂都在押注的方向。
苹果做了Apple Intelligence,Google在推Gemini,国内华为、小米、OPPO也都在做自研系统。大家的愿景都很清晰:让AI真正替你操作手机,而不是只帮你查个天气、回个消息。
但有一个尴尬的现实——
这些系统,都!不!开!源!
什么意思?你可以体验,但没办法学习它的核心逻辑,更别说自己训练一个。更进一步说,每家都只在自己的封闭环境里训练,换一个品牌手机,换一个APP,功能就直接报废。
这就像所有人都想造汽车,但发动机图纸被锁在保险箱里,谁也拿不出来。
那有没有人做开源的?也有,但效果差很多——开源模型的成功率通常只有20%到30%,和各家闭源的60%+比,差了整整一倍。
为什么会这样?
核心原因:训练数据太难搞。
—
两个拦路虎:任务和轨迹
想训练一个能操作手机的AI,缺两样东西。
第一,任务指令。
你要告诉AI”帮我打开微信,找到聊天记录,给朋友发一条消息”——这个”任务描述”,得成千上万条,而且要覆盖各种手机、各种APP、各种操作场景。人工写?写到天荒地老。
第二,执行轨迹。
AI不只认识”要做什么”,还得知道”怎么做”。它需要看大量的”正确答案”——从打开APP到完成操作,每一步怎么点、怎么滑、怎么判断。这种东西,最值钱的生产资料,每家公司都捂着不让人看。
过去,开源社区在这两个问题上都卡住了。
任务不够多、不够多样;轨迹不够真、不够有错误恢复能力。
而这篇论文,第一次系统性地解决了这两个问题。
—
OpenMobile:把造AI的过程,也变成AI的工作
这篇论文叫 OpenMobile,来自南京大学、香港科技大学、上海AI Lab等单位。
它做的事情,用一句话概括就是:让AI自己合成训练AI需要的任务和轨迹,然后把训练好的AI放出来,所有人都能用。
整个框架分两个核心模块,拆开来看都很精妙。
模块一:任务合成流水线
怎么让AI生成高质量的任务描述?
OpenMobile的思路是先探索,再生成。
第一步,让一个”环境探索Agent”在真实手机上瞎溜达——点开APP,滑动页面,记录屏幕状态。这个过程就像一个好奇的人类用户,在不破坏手机的前提下,把所有能触达的地方都走一遍。
探索完了,它把所有走过的路径拼成一个”全局环境记忆”——一个巨大的图结构,记录了所有屏幕状态之间的关系:可以从A屏跳到B屏,可以从B屏调用日历功能,等等。
然后,关键的一步来了——
让大语言模型根据这个环境记忆,自己生成任务描述。
比如,模型看到”A屏是日历首页,B屏是新建日程页”,它就能生成一条指令:”帮我创建一个明天上午10点的会议日程”。
生成出来的任务,因为有真实的屏幕跳转图作为依据,每一条都是可执行的、 grounded 的,不是那种”听起来像人话但AI根本没法做”的废话指令。
模块二:策略切换的轨迹收集
任务有了,接下来要收集”正确示范”——怎么一步步完成这些任务。
这里有个经典难题:让AI自己学,还是让专家带着学?
纯靠自己学,叫模仿学习,成功率高但缺乏泛化能力;纯靠专家带,叫专家蒸馏,效果好但专家太贵,而且一旦遇到没见过的场景就傻眼。
OpenMobile的做法是动态切换——
用一个”学习者模型”先试着做任务,做对了继续,做错了就切换到”专家模型”接手纠偏。重点是:专家只在必要时刻出手,不是全程代劳。
这样收集到的轨迹,既包含成功完成任务的完整路径,也包含错误恢复的过程——这对训练AI真正有用,因为真实场景里,AI一定会犯错,关键是要能从错误里出来。
—
数字说话:开源,第一次打赢闭源
听起来有道理,效果怎么样?
论文在三个主流移动Agent benchmark上做了评测:AndroidWorld、AndroidLab、MobileWorld。
结果很震撼——
用OpenMobile合成数据微调出来的 Qwen2.5-VL,达到了 51.7% 的成功率;用 Qwen3-VL 更是跑出了 64.7%,远超所有其他开源方案。
作为参考,之前开源社区最好的成绩大约在30%左右,而OpenMobile直接翻了一倍。
更重要的是,它不仅比开源的好,也非常接近闭源系统的上限。这意味着,开源数据和开源模型,第一次在移动Agent这个任务上,站到了和闭源最强者接近的位置。
—
为什么这件事值得你关注
第一层:技术上的进步
OpenMobile证明了——数据质量问题,完全可以用合成方法解决。不需要花大价钱去买数据,也不需要靠人工标注磨很久。核心是你怎么设计合成管道,让生成出来的数据既多样、又 grounded、又有错误恢复信号。
这对整个AI Agent领域都是方法论上的贡献。
第二层:开源社区的胜利
目前绝大多数移动AI Agent的核心技术都是封闭的:训练数据不公开,核心方法不披露,版本更新靠自家团队黑箱迭代。
OpenMobile把整个pipeline开源了——从环境探索到任务合成,再到轨迹收集,全部代码和数据集都可以在GitHub上找到。
这意味着,任何一个有GPU的人,都可以用它的方法,训练自己的手机AI助手。不需要签约大厂,不需要买数据授权。
第三层:每一个人都能感受到的变化
如果移动Agent的能力持续提升,未来会变成什么样?
早上起来,你跟手机说”帮我整理一下昨天的聊天记录,把工作相关的内容生成一份简报,邮件发给老板”——然后你就可以去刷牙了。
这不是科幻,这是OpenMobile这类研究正在努力让它发生的方向。
—
总结
OpenMobile这篇论文,解决了移动AI Agent领域的两个核心问题:任务合成和轨迹收集。
它的核心思路很巧妙:用环境探索构建真实可执行的任务描述,用策略切换收集包含错误恢复的训练轨迹。两者结合,第一次让开源数据训练出的移动Agent,达到了接近闭源系统的水平。
更重要的是,它开源了所有东西。
当造AI的工具,也变成AI的工作——这件事本身,才是真正的进展。
— 论文来源:OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis,arXiv:2604.15093,南京大学、香港科技大学、上海AI Lab等
夜雨聆风