啊。
我被国内 APP 的封闭程度蠢笑了很久。
微信、QQ、抖音、淘宝...这些国民级 APP,哪个不是层层设防?身份验证、加密算法、反爬虫机制...你想让 AI 去自动化操作这些玩意儿?难度跟在火星种土豆差不多。
直到我发现了 Turix CUA。2.3K Star,开源不久。但这个项目的思路让我觉得,AI 操纵 APP 这事儿,可能真的快成了。
https://github.com/TurixAI/TuriX-CUA
CUA 是什么?
CUA = Computer Use Agent,计算机操作智能体。
说人话就是:让 AI 能像人一样操作电脑。
它不调用任何 APP 的 API,也不破解什么底层协议。它干的事情很简单:看屏幕→理解画面→模拟鼠标点击→模拟键盘输入。
就像一个真正的人坐在电脑前一样。大模型是 AI 的大脑,CUA 就是 AI 的手和眼。
为什么 CUA 比 API 更实用?
你想让 AI 帮你查微信指数、自动通过好友请求、帮你回消息...
这些事儿如果靠 APP 官方 API 来解决,需要:
- 1. 微信官方开放接口 → 不可能
- 2. 申请开发者资质 → 麻烦
- 3. 搞定各种鉴权机制 → 更麻烦
但 CUA 根本不需要这些。它直接模拟人操作——速度大概比人慢一半,但没有封号风险,因为它就是在模拟正常人的鼠标点击和滑动,根本不涉及协议层面的操作。
这就是为什么很多做自动化的人最终都转向了 CUA 方案——它不挑 APP,不挑场景,只要你能看到屏幕,它就能操作。
Turix 架构牛在哪?
Turix 最骚的地方在于:它可以被当成一个底层能力模块,接入到任何 Agent 框架里当 Skill 用。
你可以把它接入到 OpenClaw、Claude Code、Codex、各种 Agent 里,让它们瞬间获得操作 APP 的能力。
这相当于给每个 Agent 都配备了一双可以操作电脑的手。
Codex 桌面版最近也更新了 CUA 功能,但在操作速度上会比 Turix 桌面版稍慢。而且 Codex 点击时会抢鼠标,Turix 也会抢,希望能尽快优化。
但 Turix 的优势在于完全开源。你可以随意给它更换更强大的视觉大模型底座,上限很高。
官方还自研了专门针对 GUI 操作微调的模型:turix-brain 和 turix-actor。官方推荐组合效果最佳。注册之后,账户余额里会自动躺 100 万 Tokens,可以先白嫖一波。
实测案例
1. 微信全自动通过好友请求
Prompt:打开微信,打开左侧栏的通讯录,展开新的朋友,从最上面开始,一个一个点击它们前往验证...
看着鼠标自动在屏幕上有条不紊地点击、验证通过、返回、再点击下一个...这种把重复劳动甩给 AI 的爽感,绝了。
2. 微信指数查询自动化
Prompt:打开微信,打开微信指数小程序,搜索 OpenClaw,查看目前热度。
它极其精准地找到了微信指数小程序,最终查询到热度。整个流程一气呵成。
3. 赛博男友在线代聊
Prompt:打开微信,搜索元宝,给元宝发消息,扮演她的男朋友跟它闲聊,聊5轮结束。
打字发送的过程极其丝滑。角色扮演也相当入戏,开口就是:"宝贝,在干嘛呢?想你啦~"🤣
但也暴露出了一个问题:它容易聊嗨。对数字不敏感,对话轮数会远远超出你规定的次数。
4. 自动提 Bug
Prompt:帮我给这个开源项目提一个 issue,执行 CUA 任务的时候对数字不敏感,希望尽快优化。
它会丝滑地打开浏览器,登录 GitHub,填写标准的 issue 信息并顺利提交。这就是所谓的"套娃"——让 AI 自己给自己提 bug。
CUA 将如何颠覆 RPA?
从技术角度看,让 Agent 操纵 APP,最稳定的方案绝对是底层 API 或 CLI。
但现实是:国内互联网处处建护城河,愿意主动开放接口的 APP 少得可怜。
所以在未来一段时间内,CUA 还是最具普适性的 APP 自动化方案。
而且 CUA 会进化。等操作速度和准确度再提升一个档次,传统的 RPA 行业就危险了。
RPA 需要程序员写复杂的抓取脚本,网页改版脚本就得重写,上手门槛很高。
CUA 完全不同。你用大白话下指令,它如果成功执行一次,能立刻把这套操作沉淀成一个 Skill。下次再让它干同样的活,直接调用这个 Skill 就行。
这就相当于你花十分钟教会一个徒弟,以后这活儿就是他的了。
工具的上限,决定了你能做事情的边界。
你想让它帮你操纵什么 APP?评论区一起开脑洞~
夜雨聆风