豆包手机买不到,我自己做了一个
去年 12 月,字节跳动联合中兴发布了豆包手机助手。
3499 块,3 万台,秒没。
二手价直接冲到 5000+。
我当时的心态就是:魔幻。
一台能听懂人话、能自己操作手机的 AI 手机,听起来像科幻片里的东西。但问题是——我连摸都摸不到。
我刷着闲鱼上那些翻倍的转卖链接,突然冒出个想法:既然买不到,我能不能找一个开源平替?
然后我就找到了它。
一个叫「肉包」的开源项目
对,你没看错,就叫肉包。
作者说这个名字没啥深意——就是不爱吃素。
这项目在 GitHub 上挂着,2000 多 Star,MIT 协议开源。一句话概括:它把阿里达摩院的 MobileAgent 框架,用 Kotlin 重写成了原生 Android 应用。
翻译成人话就是:以前你想让 AI 帮你操作手机,得拿数据线连电脑、装 Python 环境、跑脚本——截图靠电脑传,分析靠电脑算,指令靠电脑发。麻烦得要死。
肉包把这个流程全塞进了手机里。
装上 App,配好 API Key,说句话,它就开始自己干活。
不依赖电脑,不需要 Root,不用数据线。一部手机就够。
我当时看到这儿的时候,内心只有一个字:绝。
怎么做到的?
肉包的设计思路很妙,分两层。
上层是你对它说的话——「帮我点个外卖」「打开微信给老王发条消息」「导航去公司」。这叫 Skills 层,负责把你的人话翻译成任务。
下层是一堆原子操作——搜索 App、打开应用、DeepLink 跳转、截图、点击、滑动。这叫 Tools 层,负责真正动手。
中间夹着一个 Agent 大脑,移植自 MobileAgent。它的工作方式是:截图 → 分析屏幕 → 规划下一步 → 执行 → 反思 → 再截图,循环直到任务完成。
这个架构的灵感来源说出来你可能不信:Claude Code。
没错,就是 Anthropic 那个 AI 编程工具。它的 Tools + Skills 双层设计,被肉包的作者搬到了手机上。
还有一个神来之笔——它用 Shizuku 来获取系统权限。Shizuku 听过吧?就是那个不用 Root 也能执行 ADB 级别命令的框架。装好 Shizuku、开一次无线调试,肉包就能像系统级应用一样截图和模拟点击了。
我第一次看到它在桌面上自己打开美团、自己搜索菜品、自己往下滑的时候,那种感觉——
就像养了一只赛博树懒,慢是慢了点,但它是真的在干活。
它比豆包手机差在哪?
说实话,速度是个硬伤。
豆包手机是系统级的,从芯片到 OS 全打通了,响应快得像原生功能。肉包是应用层的,每一步都要截图发给大模型分析,再等模型返回指令——来回几轮,点个外卖能等一两分钟。
但换个角度想,豆包手机你买得到吗?
肉包还有一个豆包做不到的事:它支持你自己的模型。
阿里云通义千问、OpenAI GPT-4V、Claude,甚至你本地跑的 Ollama,全都能接。API Key 用 AES-256-GCM 加密存储,密钥锁在 Android Keystore 里。检测到支付页面还会自动暂停——安全性上算是用心的。
而且它还有一条「快速通道」。如果它判断你的任务高置信度——比如「帮我生成一张海报」,它不会傻傻地去操作修图 App,而是直接 DeepLink 唤起你手机里已经装好的 AI 应用,比如即梦、豆包。一步到位。
这个设计挺聪明。它承认自己不是万能的,把擅长的事交给擅长的 App。
它到底能干什么?
我拿手头一台吃灰两年的旧安卓试了几天,说说真实体验。
点外卖——能用,偏慢。它打开美团、搜索、选商家、加购物车、下单,每一步都要 VLM 分析一轮。中间如果网络波动或者模型抽风,就得重来。
发微信——能用,但有点傻。你告诉它「给老王发微信说晚上吃饭」,它会自己打开微信、找到老王、打字、发送。问题在于纯靠视觉识别,有时候点错了联系人。
导航——这个体验意外好。肉包内置了高德地图的 Skill,高置信度匹配后直接 DeepLink 跳转,秒开。
用一句话总结就是:它现在还像个实习助理,不完美,但真实存在。
而且作者更新很勤快。我看过它的 Release 记录,从 v1.0 到 v1.4.2,中间隔了不到一个月。每一个版本都在修硬伤——多模型服务商独立配置、API Key 加密、应用启动优化。
现在还在做 v2.0,准备加入无障碍服务混合模式和 UI 树感知,这两个搞定了,速度和精度都会上一个台阶。

这玩意儿改变了什么?
我一直在想一个问题:手机 AI 自动化的真正门槛在哪?
豆包手机的出现证明了一件事——用户在期待这个东西。3 万台秒没就是最好的投票。
但 3499 块、限量供应,这条路走不长久。
开源社区给了一个不一样的答案。肉包的作者不是什么大厂工程师,就是一个觉得「用 Python 搞手机自动化太蠢了」的程序员。他用 Kotlin 重写了一遍,开源出来,然后就火了。
这让我想起自己那些 GitHub 项目。最开始也就是解决一个自己的小痛点,没想到有人真的在用。
不懂底层技术不再是你不能拥有 AI 助理的借口。一部旧手机、一个开源 App、一个 API Key,你就有了。
连我这台吃灰两年的老安卓都跑得动,你也一定可以。
项目地址:github.com/Turbo1123/roubao
如果你也有台闲置的安卓,不妨装上试试。
体验不一定完美,但你会看到手机自动化的未来长什么样。
如果你有好玩的用法,欢迎评论区聊聊。也欢迎去 GitHub 给作者点个 ⭐️。
夜雨聆风