Turrix CUA:让AI操控任何App的开源神器,像人一样看屏幕、点按钮
当 AI 能像人一样「看」屏幕、「点」按钮,任何 App 都能被自动化。Turrix CUA 正在让这个愿景变成现实——已获 2.3K GitHub 星。
CUA(Computer Use Agent)是 AI Agent 的一个新方向:让 AI 不只是处理文本、调用 API,而是像人一样「看」屏幕、「点」按钮、「滑动」页面。
2024 年底,Claude 发布 Computer Use 功能,让 AI 能操控浏览器。但问题在于:只能操控网页,无法触及桌面应用。
Turrix CUA 填补了这个空白——让 AI 能操控电脑上运行的任何 App,包括微信、飞书、微信读书、OA 系统等封闭应用。
Turrix CUA 核心能力
1. 视觉识别 + 模拟点击
Turrix CUA 不依赖 API 或自动化接口,而是通过「看」屏幕来操作:
- • 视觉识别:截屏 → AI 分析界面元素位置
- • 坐标定位:确定按钮、输入框的精确坐标
- • 模拟点击:发送系统级点击事件
这意味着:只要人能看到、能点的,AI 就能操作。
2. 将封闭 App 转化为 Agent 技能
传统自动化的痛点:很多 App 没有开放 API。
- • 微信没有官方 API
- • 企业内部 OA 系统无法对接
- • 银行 App 不支持自动化
Turrix CUA 的解决方案:绕过 API,直接操控界面。
3. 支持持久化 Skill 定义
一次定义,重复使用:
skill:
name: wechat-auto-accept-friend
description: 自动通过微信好友请求
steps:
- 打开微信
- 切换到通讯录标签
- 点击新的朋友
- 点击接受
典型应用场景
场景一:微信好友自动通过
痛点:社群运营每天要处理几十个好友请求,手动通过费时。
Turrix CUA 方案:
- 1. AI 定时截屏检测是否有新的好友请求
- 2. 识别「新的朋友」红点
- 3. 自动点击进入,逐个点击「接受」
- 4. 可选:发送欢迎语
场景二:指数查询与监控
痛点:某些数据平台没有 API,需要人工登录查看。
Turrix CUA 方案:
- 1. 定时启动浏览器
- 2. 自动登录指定网站
- 3. 导航到数据页
- 4. 截取关键数据区域
- 5. OCR 识别数值
- 6. 存入数据库或发送通知
场景三:自动填报 OA 系统
痛点:企业内部 OA 系统没有批量导入功能,逐条手动填写。
Turrix CUA 方案:
- 1. 读取 Excel 数据源
- 2. 打开 OA 系统
- 3. 逐条填写表单
- 4. 自动提交
场景四:RPA 式办公自动化
结合大模型能力,实现复杂的工作流:
收到邮件 → AI 分析内容 → 决定动作:
├─ 需要报销 → 打开报销系统 → 填写表单 → 提交
├─ 需要回复 → 打开微信企微 → 发送消息
└─ 需要归档 → 打开网盘 → 上传附件
与 Claude Computer Use 的对比
| 特性 | Claude Computer Use | Turrix CUA |
|---|---|---|
| 运行环境 | 浏览器(网页) | 桌面(任何 App) |
| 目标应用 | 网页应用 | 本地 App + 网页 |
| 视觉识别 | Claude 内置 | 本地模型 + Claude |
| 开源情况 | 闭源 | ✅ 开源 |
| 自定义能力 | 有限 | 高度可定制 |
| 部署方式 | 云端 API | 本地运行 |
核心差异:Claude Computer Use 走官方路线,Turrix CUA 开源社区路线。后者更适合需要深度定制、对接内部系统的场景。
技术架构
用户请求
↓
大模型(Claude/GPT)理解意图
↓
任务分解 → 生成操作步骤
↓
Turrix CUA 执行引擎
├─ 截屏 → 视觉模型识别界面
├─ 坐标计算 → 确定点击位置
└─ 系统调用 → 模拟鼠标/键盘操作
↓
执行结果反馈
快速上手
安装
git clone https://github.com/turrix/cua.git
cd cua
pip install -r requirements.txt
配置
编辑 config.yaml:
model:
provider: anthropic # 或 openai
api_key: your-key
agent:
screen_capture_interval: 1 # 截屏间隔(秒)
click_delay: 0.5 # 点击后等待时间
运行示例
from turrix import Agent
agent = Agent()
agent.run("打开微信,找到张三,发送消息:你好")
注意事项
安全风险
- • ⚠️ AI 能操控你的电脑,可能误操作造成损失
- • ⚠️ 建议在虚拟机或沙箱环境运行
- • ⚠️ 敏感操作建议人工确认
合规问题
- • 某些 App 的用户协议禁止自动化操作
- • 微信官方对自动化持禁止态度,有封号风险
- • 建议仅用于个人效率提升,避免大规模商业使用
性能限制
- • 视觉识别需要时间,不如 API 直接
- • 复杂界面可能识别错误
- • 需要稳定的网络环境(调用大模型)
社区生态
Turrix CUA 已有 2.3K Star,社区正在贡献:
- • 预置 Skill 库:微信、飞书、钉钉等常见 App 的自动化脚本
- • 教程模板:如何编写自定义 Skill
- • 问题排查:常见错误和解决方案
总结
| 价值 | 说明 |
|---|---|
| 突破封闭 App | 无需 API,直接操控界面 |
| 零代码自动化 | 用自然语言描述任务 |
| 可复用 Skill | 一次定义,重复执行 |
| 边界 | 说明 |
|---|---|
| 不如 API 稳定 | 视觉识别有误差率 |
| 有封号风险 | 违反某些 App 的用户协议 |
| 需要人工监督 | 不建议完全无人值守 |
Turrix CUA 代表了 AI Agent 的一个重要方向:从「对话助手」变成「操作助手」。当 AI 不只是回答问题,而是替你干活,生产力的天花板才真正被打开。
GitHub 仓库:https://github.com/turrix/cua
夜雨聆风