乐于分享
好东西不私藏

手机AI助手为何总掉链子

手机AI助手为何总掉链子

你有没有遇到过这种情况——

跟朋友约了饭,AI助手说”已帮你添加到日历”。结果你到了餐厅,才发现日历里根本没有这条记录。

你想让AI帮你点个外卖,它说”好的,正在下单”,然后——就没有然后了。

不是AI不想帮你,是它根本不认识你的手机。

今天要说的这篇论文,解决的就是这个问题。

所有人都想做,但没有人做出来的东西

过去两年,手机AI助手是所有大厂都在押注的方向。

苹果做了Apple Intelligence,Google在推Gemini,国内华为、小米、OPPO也都在做自研系统。大家的愿景都很清晰:让AI真正替你操作手机,而不是只帮你查个天气、回个消息。

但有一个尴尬的现实——

这些系统,都!不!开!源!

什么意思?你可以体验,但没办法学习它的核心逻辑,更别说自己训练一个。更进一步说,每家都只在自己的封闭环境里训练,换一个品牌手机,换一个APP,功能就直接报废。

这就像所有人都想造汽车,但发动机图纸被锁在保险箱里,谁也拿不出来。

那有没有人做开源的?也有,但效果差很多——开源模型的成功率通常只有20%到30%,和各家闭源的60%+比,差了整整一倍。

为什么会这样?

核心原因:训练数据太难搞。

两个拦路虎:任务和轨迹

想训练一个能操作手机的AI,缺两样东西。

第一,任务指令。

你要告诉AI”帮我打开微信,找到聊天记录,给朋友发一条消息”——这个”任务描述”,得成千上万条,而且要覆盖各种手机、各种APP、各种操作场景。人工写?写到天荒地老。

第二,执行轨迹。

AI不只认识”要做什么”,还得知道”怎么做”。它需要看大量的”正确答案”——从打开APP到完成操作,每一步怎么点、怎么滑、怎么判断。这种东西,最值钱的生产资料,每家公司都捂着不让人看。

过去,开源社区在这两个问题上都卡住了。

任务不够多、不够多样;轨迹不够真、不够有错误恢复能力。

而这篇论文,第一次系统性地解决了这两个问题。

OpenMobile:把造AI的过程,也变成AI的工作

这篇论文叫 OpenMobile,来自南京大学、香港科技大学、上海AI Lab等单位。

它做的事情,用一句话概括就是:让AI自己合成训练AI需要的任务和轨迹,然后把训练好的AI放出来,所有人都能用。

整个框架分两个核心模块,拆开来看都很精妙。

模块一:任务合成流水线

怎么让AI生成高质量的任务描述?

OpenMobile的思路是先探索,再生成。

第一步,让一个”环境探索Agent”在真实手机上瞎溜达——点开APP,滑动页面,记录屏幕状态。这个过程就像一个好奇的人类用户,在不破坏手机的前提下,把所有能触达的地方都走一遍。

探索完了,它把所有走过的路径拼成一个”全局环境记忆”——一个巨大的图结构,记录了所有屏幕状态之间的关系:可以从A屏跳到B屏,可以从B屏调用日历功能,等等。

然后,关键的一步来了——

让大语言模型根据这个环境记忆,自己生成任务描述。

比如,模型看到”A屏是日历首页,B屏是新建日程页”,它就能生成一条指令:”帮我创建一个明天上午10点的会议日程”。

生成出来的任务,因为有真实的屏幕跳转图作为依据,每一条都是可执行的、 grounded 的,不是那种”听起来像人话但AI根本没法做”的废话指令。

模块二:策略切换的轨迹收集

任务有了,接下来要收集”正确示范”——怎么一步步完成这些任务。

这里有个经典难题:让AI自己学,还是让专家带着学?

纯靠自己学,叫模仿学习,成功率高但缺乏泛化能力;纯靠专家带,叫专家蒸馏,效果好但专家太贵,而且一旦遇到没见过的场景就傻眼。

OpenMobile的做法是动态切换——

用一个”学习者模型”先试着做任务,做对了继续,做错了就切换到”专家模型”接手纠偏。重点是:专家只在必要时刻出手,不是全程代劳。

这样收集到的轨迹,既包含成功完成任务的完整路径,也包含错误恢复的过程——这对训练AI真正有用,因为真实场景里,AI一定会犯错,关键是要能从错误里出来。

数字说话:开源,第一次打赢闭源

听起来有道理,效果怎么样?

论文在三个主流移动Agent benchmark上做了评测:AndroidWorld、AndroidLab、MobileWorld。

结果很震撼——

用OpenMobile合成数据微调出来的 Qwen2.5-VL,达到了 51.7% 的成功率;用 Qwen3-VL 更是跑出了 64.7%,远超所有其他开源方案。

作为参考,之前开源社区最好的成绩大约在30%左右,而OpenMobile直接翻了一倍。

更重要的是,它不仅比开源的好,也非常接近闭源系统的上限。这意味着,开源数据和开源模型,第一次在移动Agent这个任务上,站到了和闭源最强者接近的位置。

为什么这件事值得你关注

第一层:技术上的进步

OpenMobile证明了——数据质量问题,完全可以用合成方法解决。不需要花大价钱去买数据,也不需要靠人工标注磨很久。核心是你怎么设计合成管道,让生成出来的数据既多样、又 grounded、又有错误恢复信号。

这对整个AI Agent领域都是方法论上的贡献。

第二层:开源社区的胜利

目前绝大多数移动AI Agent的核心技术都是封闭的:训练数据不公开,核心方法不披露,版本更新靠自家团队黑箱迭代。

OpenMobile把整个pipeline开源了——从环境探索到任务合成,再到轨迹收集,全部代码和数据集都可以在GitHub上找到。

这意味着,任何一个有GPU的人,都可以用它的方法,训练自己的手机AI助手。不需要签约大厂,不需要买数据授权。

第三层:每一个人都能感受到的变化

如果移动Agent的能力持续提升,未来会变成什么样?

早上起来,你跟手机说”帮我整理一下昨天的聊天记录,把工作相关的内容生成一份简报,邮件发给老板”——然后你就可以去刷牙了。

这不是科幻,这是OpenMobile这类研究正在努力让它发生的方向。

总结

OpenMobile这篇论文,解决了移动AI Agent领域的两个核心问题:任务合成和轨迹收集。

它的核心思路很巧妙:用环境探索构建真实可执行的任务描述,用策略切换收集包含错误恢复的训练轨迹。两者结合,第一次让开源数据训练出的移动Agent,达到了接近闭源系统的水平。

更重要的是,它开源了所有东西。

当造AI的工具,也变成AI的工作——这件事本身,才是真正的进展。

— 论文来源:OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis,arXiv:2604.15093,南京大学、香港科技大学、上海AI Lab等