手机也可以“养虾”?手机版的openclaw,这个开源项目让 AI 替你操作手机,连命令行都能跑

前阵子手机内存满了，清相册的时候翻到一堆截图——全是之前手动操作的"证据"：凌晨两点抢茅台的手速、外卖凑满减的计算器、淘宝双十一算优惠的草稿纸…

当时就想，有没有一个东西能替我干这些？

PC 端 Agent 这两年已经卷出花了，Claude Code、Codex CLI、Hermes，一个个在终端里呼风唤雨。但手机端呢？大多数 AI App 还停留在"聊天窗口"阶段——你打字，它回字，完了。

直到在 linux.do 刷到老哥发的一个项目，眼前一亮。

一个能"看"屏幕的 AI

OpenOmniBot 做的事情很简单：让 AI 真正操作你的手机。

不是说"打开微信发消息"就完了的那种。它是完整闭环——理解屏幕画面 → 决策下一步 → 执行操作 → 反思结果。

用的是 Android 无障碍服务读屏幕、视觉模型理解界面，然后模拟人的手势去点、滑、输入。你在手机上能干的，它基本都能干。

讲道理，这个 demo 图让我想起第一次用 Claude Computer Use 的感觉——看它自己挪鼠标点来点去，有点科幻又有点毛骨悚然。

这项目野心比我想象的大得多。除了屏幕操作，它还塞了：

终端环境。 集成了 ReTerminal + Termux，手机上跑完整 Linux 命令行。ssh 进服务器、写脚本、跑 Python，不用开电脑。

技能系统。 跟 Hermes Agent 的 Skills 一个路子，可以给 Agent 装各种"技能包"，扩展能力边界。

MCP 协议。 对，就是那个 Model Context Protocol，能接外部工具服务器。

远程桥接。 代码里有个 tools/codex-bridge，可以把 OpenAI Codex 的能力桥接到手机上——你在电脑上用 Codex 写的自动化流程，手机端也能跑。

本地推理。 集成 OmniInfer，可以跑端侧模型，不用联网也能用。

说真的，看到这个技术栈第一反应是"这玩意儿装完得占多大"——结果有标准版（不含本地推理）和完整版（带端侧模型）两个版本，按需选择。

除了上面说的抢茅台、凑满减这些"摸鱼场景"，正经用途也不少：

当然，目前还是早期阶段（v0.5.x），稳定性肯定不如 PC 端那些成熟 Agent。无障碍服务的兼容性、不同 Android 厂商的魔改 ROM，都是坑。

但方向是对的。手机端 Agent 早晚会像 PC 端一样普及，只是时间问题。

项目地址：https://github.com/omnimind-ai/OpenOmniBot