乐于分享
好东西不私藏

Turrix CUA:让AI操控任何App的开源神器,像人一样看屏幕、点按钮

Turrix CUA:让AI操控任何App的开源神器,像人一样看屏幕、点按钮

当 AI 能像人一样「看」屏幕、「点」按钮,任何 App 都能被自动化。Turrix CUA 正在让这个愿景变成现实——已获 2.3K GitHub 星。

CUA(Computer Use Agent)是 AI Agent 的一个新方向:让 AI 不只是处理文本、调用 API,而是像人一样「看」屏幕、「点」按钮、「滑动」页面。

2024 年底,Claude 发布 Computer Use 功能,让 AI 能操控浏览器。但问题在于:只能操控网页,无法触及桌面应用。

Turrix CUA 填补了这个空白——让 AI 能操控电脑上运行的任何 App,包括微信、飞书、微信读书、OA 系统等封闭应用。

Turrix CUA 核心能力

1. 视觉识别 + 模拟点击

Turrix CUA 不依赖 API 或自动化接口,而是通过「看」屏幕来操作:

  • 视觉识别:截屏 → AI 分析界面元素位置
  • 坐标定位:确定按钮、输入框的精确坐标
  • 模拟点击:发送系统级点击事件

这意味着:只要人能看到、能点的,AI 就能操作。

2. 将封闭 App 转化为 Agent 技能

传统自动化的痛点:很多 App 没有开放 API。

  • • 微信没有官方 API
  • • 企业内部 OA 系统无法对接
  • • 银行 App 不支持自动化

Turrix CUA 的解决方案:绕过 API,直接操控界面

3. 支持持久化 Skill 定义

一次定义,重复使用:

skill:
  name:
 wechat-auto-accept-friend
  description:
 自动通过微信好友请求
  steps:

    -
 打开微信
    -
 切换到通讯录标签
    -
 点击新的朋友
    -
 点击接受

典型应用场景

场景一:微信好友自动通过

痛点:社群运营每天要处理几十个好友请求,手动通过费时。

Turrix CUA 方案

  1. 1. AI 定时截屏检测是否有新的好友请求
  2. 2. 识别「新的朋友」红点
  3. 3. 自动点击进入,逐个点击「接受」
  4. 4. 可选:发送欢迎语

场景二:指数查询与监控

痛点:某些数据平台没有 API,需要人工登录查看。

Turrix CUA 方案

  1. 1. 定时启动浏览器
  2. 2. 自动登录指定网站
  3. 3. 导航到数据页
  4. 4. 截取关键数据区域
  5. 5. OCR 识别数值
  6. 6. 存入数据库或发送通知

场景三:自动填报 OA 系统

痛点:企业内部 OA 系统没有批量导入功能,逐条手动填写。

Turrix CUA 方案

  1. 1. 读取 Excel 数据源
  2. 2. 打开 OA 系统
  3. 3. 逐条填写表单
  4. 4. 自动提交

场景四:RPA 式办公自动化

结合大模型能力,实现复杂的工作流:

收到邮件 → AI 分析内容 → 决定动作:
├─ 需要报销 → 打开报销系统 → 填写表单 → 提交
├─ 需要回复 → 打开微信企微 → 发送消息
└─ 需要归档 → 打开网盘 → 上传附件

与 Claude Computer Use 的对比

       

         
           
           
         

特性 Claude Computer Use Turrix CUA
运行环境 浏览器(网页) 桌面(任何 App)
目标应用 网页应用 本地 App + 网页
视觉识别 Claude 内置 本地模型 + Claude
开源情况 闭源 ✅ 开源
自定义能力 有限 高度可定制
部署方式 云端 API 本地运行

       

     

核心差异:Claude Computer Use 走官方路线,Turrix CUA 开源社区路线。后者更适合需要深度定制、对接内部系统的场景。

技术架构

用户请求
    ↓
大模型(Claude/GPT)理解意图
    ↓
任务分解 → 生成操作步骤
    ↓
Turrix CUA 执行引擎
    ├─ 截屏 → 视觉模型识别界面
    ├─ 坐标计算 → 确定点击位置
    └─ 系统调用 → 模拟鼠标/键盘操作
    ↓
执行结果反馈

快速上手

安装

git clone https://github.com/turrix/cua.git
cd
 cua
pip install -r requirements.txt

配置

编辑 config.yaml

model:
  provider:
 anthropic  # 或 openai
  api_key:
 your-key

agent:

  screen_capture_interval:
 1  # 截屏间隔(秒)
  click_delay:
 0.5  # 点击后等待时间

运行示例

from turrix import Agent

agent = Agent()
agent.run("打开微信,找到张三,发送消息:你好")

注意事项

安全风险

  • • ⚠️ AI 能操控你的电脑,可能误操作造成损失
  • • ⚠️ 建议在虚拟机或沙箱环境运行
  • • ⚠️ 敏感操作建议人工确认

合规问题

  • • 某些 App 的用户协议禁止自动化操作
  • • 微信官方对自动化持禁止态度,有封号风险
  • • 建议仅用于个人效率提升,避免大规模商业使用

性能限制

  • • 视觉识别需要时间,不如 API 直接
  • • 复杂界面可能识别错误
  • • 需要稳定的网络环境(调用大模型)

社区生态

Turrix CUA 已有 2.3K Star,社区正在贡献:

  • 预置 Skill 库:微信、飞书、钉钉等常见 App 的自动化脚本
  • 教程模板:如何编写自定义 Skill
  • 问题排查:常见错误和解决方案

总结

       

         
           
           
         

价值 说明
突破封闭 App 无需 API,直接操控界面
零代码自动化 用自然语言描述任务
可复用 Skill 一次定义,重复执行

       

     
       

         
           
           
         

边界 说明
不如 API 稳定 视觉识别有误差率
有封号风险 违反某些 App 的用户协议
需要人工监督 不建议完全无人值守

       

     

Turrix CUA 代表了 AI Agent 的一个重要方向:从「对话助手」变成「操作助手」。当 AI 不只是回答问题,而是替你干活,生产力的天花板才真正被打开。

GitHub 仓库:https://github.com/turrix/cua