前阵子手机内存满了,清相册的时候翻到一堆截图——全是之前手动操作的"证据":凌晨两点抢茅台的手速、外卖凑满减的计算器、淘宝双十一算优惠的草稿纸…
当时就想,有没有一个东西能替我干这些?
PC 端 Agent 这两年已经卷出花了,Claude Code、Codex CLI、Hermes,一个个在终端里呼风唤雨。但手机端呢?大多数 AI App 还停留在"聊天窗口"阶段——你打字,它回字,完了。
直到在 linux.do 刷到老哥发的一个项目,眼前一亮。
一个能"看"屏幕的 AI
OpenOmniBot 做的事情很简单:让 AI 真正操作你的手机。
不是说"打开微信发消息"就完了的那种。它是完整闭环——理解屏幕画面 → 决策下一步 → 执行操作 → 反思结果。
用的是 Android 无障碍服务读屏幕、视觉模型理解界面,然后模拟人的手势去点、滑、输入。你在手机上能干的,它基本都能干。

讲道理,这个 demo 图让我想起第一次用 Claude Computer Use 的感觉——看它自己挪鼠标点来点去,有点科幻又有点毛骨悚然。
不止是点屏幕
这项目野心比我想象的大得多。除了屏幕操作,它还塞了:
终端环境。 集成了 ReTerminal + Termux,手机上跑完整 Linux 命令行。ssh 进服务器、写脚本、跑 Python,不用开电脑。
技能系统。 跟 Hermes Agent 的 Skills 一个路子,可以给 Agent 装各种"技能包",扩展能力边界。
MCP 协议。 对,就是那个 Model Context Protocol,能接外部工具服务器。
远程桥接。 代码里有个 tools/codex-bridge,可以把 OpenAI Codex 的能力桥接到手机上——你在电脑上用 Codex 写的自动化流程,手机端也能跑。
本地推理。 集成 OmniInfer,可以跑端侧模型,不用联网也能用。

说真的,看到这个技术栈第一反应是"这玩意儿装完得占多大"——结果有标准版(不含本地推理)和完整版(带端侧模型)两个版本,按需选择。
能拿来干嘛
除了上面说的抢茅台、凑满减这些"摸鱼场景",正经用途也不少:
定时检查某个 App 的数据变化并推送通知 自动处理重复性的手机操作(批量发朋友圈、整理相册) 把手机变成远程运维终端(ssh + MCP + 屏幕感知) 给不太会用智能手机的长辈配置一个"AI 助手"
当然,目前还是早期阶段(v0.5.x),稳定性肯定不如 PC 端那些成熟 Agent。无障碍服务的兼容性、不同 Android 厂商的魔改 ROM,都是坑。
但方向是对的。手机端 Agent 早晚会像 PC 端一样普及,只是时间问题。
项目地址:https://github.com/omnimind-ai/OpenOmniBot
夜雨聆风