把任何App变成Agent Skill?这个开源项目太香了

啊。

我被国内 APP 的封闭程度蠢笑了很久。

微信、QQ、抖音、淘宝...这些国民级 APP，哪个不是层层设防？身份验证、加密算法、反爬虫机制...你想让 AI 去自动化操作这些玩意儿？难度跟在火星种土豆差不多。

直到我发现了 Turix CUA。2.3K Star，开源不久。但这个项目的思路让我觉得，AI 操纵 APP 这事儿，可能真的快成了。

https://github.com/TurixAI/TuriX-CUA

CUA 是什么？

CUA = Computer Use Agent，计算机操作智能体。

说人话就是：让 AI 能像人一样操作电脑。

它不调用任何 APP 的 API，也不破解什么底层协议。它干的事情很简单：看屏幕→理解画面→模拟鼠标点击→模拟键盘输入。

就像一个真正的人坐在电脑前一样。大模型是 AI 的大脑，CUA 就是 AI 的手和眼。

你想让 AI 帮你查微信指数、自动通过好友请求、帮你回消息...

这些事儿如果靠 APP 官方 API 来解决，需要：

但 CUA 根本不需要这些。它直接模拟人操作——速度大概比人慢一半，但没有封号风险，因为它就是在模拟正常人的鼠标点击和滑动，根本不涉及协议层面的操作。

这就是为什么很多做自动化的人最终都转向了 CUA 方案——它不挑 APP，不挑场景，只要你能看到屏幕，它就能操作。

Turix 最骚的地方在于：它可以被当成一个底层能力模块，接入到任何 Agent 框架里当 Skill 用。

你可以把它接入到 OpenClaw、Claude Code、Codex、各种 Agent 里，让它们瞬间获得操作 APP 的能力。

这相当于给每个 Agent 都配备了一双可以操作电脑的手。

Codex 桌面版最近也更新了 CUA 功能，但在操作速度上会比 Turix 桌面版稍慢。而且 Codex 点击时会抢鼠标，Turix 也会抢，希望能尽快优化。

但 Turix 的优势在于完全开源。你可以随意给它更换更强大的视觉大模型底座，上限很高。

官方还自研了专门针对 GUI 操作微调的模型：turix-brain 和 turix-actor。官方推荐组合效果最佳。注册之后，账户余额里会自动躺 100 万 Tokens，可以先白嫖一波。

Prompt：打开微信，打开左侧栏的通讯录，展开新的朋友，从最上面开始，一个一个点击它们前往验证...

看着鼠标自动在屏幕上有条不紊地点击、验证通过、返回、再点击下一个...这种把重复劳动甩给 AI 的爽感，绝了。

Prompt：打开微信，打开微信指数小程序，搜索 OpenClaw，查看目前热度。

它极其精准地找到了微信指数小程序，最终查询到热度。整个流程一气呵成。

Prompt：打开微信，搜索元宝，给元宝发消息，扮演她的男朋友跟它闲聊，聊5轮结束。

打字发送的过程极其丝滑。角色扮演也相当入戏，开口就是："宝贝，在干嘛呢？想你啦～"🤣

但也暴露出了一个问题：它容易聊嗨。对数字不敏感，对话轮数会远远超出你规定的次数。

Prompt：帮我给这个开源项目提一个 issue，执行 CUA 任务的时候对数字不敏感，希望尽快优化。

它会丝滑地打开浏览器，登录 GitHub，填写标准的 issue 信息并顺利提交。这就是所谓的"套娃"——让 AI 自己给自己提 bug。

从技术角度看，让 Agent 操纵 APP，最稳定的方案绝对是底层 API 或 CLI。

但现实是：国内互联网处处建护城河，愿意主动开放接口的 APP 少得可怜。

所以在未来一段时间内，CUA 还是最具普适性的 APP 自动化方案。

而且 CUA 会进化。等操作速度和准确度再提升一个档次，传统的 RPA 行业就危险了。

RPA 需要程序员写复杂的抓取脚本，网页改版脚本就得重写，上手门槛很高。

CUA 完全不同。你用大白话下指令，它如果成功执行一次，能立刻把这套操作沉淀成一个 Skill。下次再让它干同样的活，直接调用这个 Skill 就行。

这就相当于你花十分钟教会一个徒弟，以后这活儿就是他的了。

工具的上限，决定了你能做事情的边界。

你想让它帮你操纵什么 APP？评论区一起开脑洞～