只要人能点到的地方,AI 也能点。
01 一个现实问题
在国内,你想让 AI 帮你自动化操作某个 APP,大概率会遇到一个问题:
没有 API,没有 CLI,什么都调不了。
大厂们忙着建护城河,谁也不愿意把底层接口开放出来。于是,开发者们陷入了两难——
要么自己写 RPA 脚本,网页一改版就得重写,维护成本高得吓人。要么只能干等着厂商开放接口,遥遥无期。
现在,有个开源项目给出了一条新路:让 AI 像人一样看屏幕、动鼠标、敲键盘。
它叫 TuriX-CUA,全称 Computer Use Agent(计算机操作智能体)。
开源不久,GitHub 已经拿下 2.3K+ Stars,还在快速涨。
GitHub 项目地址:https://github.com/TurixAI/TuriX-CUA

02 TuriX 是什么
简单说,TuriX 是一个基于视觉语言模型(VLM)的桌面自动化框架。
如果说大模型是 AI 的"大脑",那 TuriX 就是 AI 的"眼睛和手":
• 看(See):每隔几秒截一张屏幕的图 • 想(Think):分析当前屏幕内容,判断下一步该做什么 • 动(Act):模拟鼠标点击、键盘输入,执行操作
它不同于传统 RPA 和 API 调用——只要人能点到的地方,TuriX 也能点。
跨平台支持:
• ✅ macOS • ✅ Windows • ✅ Linux(Ubuntu 等发行版) 
03 技术架构:四角色协同
TuriX 最硬核的地方,是它的 TuriX Parallelum 四角色协同架构。
大模型做 GUI 操作有个老问题:上下文太长、步骤多了就容易乱。TuriX 的解法是把任务拆成四个专业角色,各司其职:
角色分工
| Planner(规划者) | ||
| Brain(大脑) | ||
| Evaluator(评估者) | ||
| Executor(执行者) |
并行执行流水线
光有角色分工还不够。TuriX 做了一个巧妙的设计——并行执行流水线:
当执行者在假设前一步成功的基础上执行第 N 步操作时,评估者同时对第 N-1 步进行评估。
这意味着:在检查上一步的同时,下一步已经在跑了。既保证了执行成功率,又不拖慢速度。
对比单线程"执行→检查→再执行"的模式,这个设计让 TuriX 的操作速度比同类方案快了不少。
04 关键技术创新
1. 结构化文本 + 截图双输入
纯靠截图识别屏幕元素,准确率不够高。
TuriX 基于 macOS 的 AXUIElement 框架,把屏幕上的组件、边框位置等信息转成结构化文本数据,和截图一起喂给大模型。
结果:模型能输出更精准的节点索引,点击准确率大幅提升。
2. 自微调视觉模型
团队发现,大多数现成的 VLM 模型做不到像素级的 GUI 操作。
于是,他们基于 Qwen2.5-VL-72B 进行了微调,在桌面自动化任务测试中表现更出色。
官方数据:
• 在 OSWorld 风格的 Mac 基准测试中,成功率达到 80% • 在 OSWorld 基准测试中,成功率达到 64.2% • 内部测试集通过率超过 68%
3. Skills 机制
这是 TuriX 最让我兴奋的功能。
传统 RPA 需要你写代码脚本,而 TuriX 的 Skills 就是一堆 Markdown 文件:
---name: github-web-actionsdescription: 用于在浏览器中操作 GitHub(搜索仓库、点 Star 等)。---# GitHub Web Actions- 打开 GitHub,使用站内搜索并进入仓库页面。- 若需要登录,先向用户确认再继续。- 在继续之前确认 Star 按钮状态。流程是这样的:
1. 你用大白话给 AI 说一次要做什么 2. AI 磕磕绊绊地完成一次 3. 把操作流程沉淀成一个 Skill(Markdown 手册) 4. 下次再干同样的活,直接调用 Skill,更快、更稳
相当于花十分钟教了一个聪明的徒弟,以后这活儿就是他的了。
4. 可恢复的内存压缩
长任务容易因为上下文太长而失控。
TuriX 引入了可恢复的内存压缩机制,把历史信息压缩存储,需要时再展开。这样既能处理长时间任务,又不会因为上下文爆炸而翻车。
05 实际能干什么
浏览器操作
• 自动搜索 YouTube 视频并点赞 • 批量打开网页、填写表单 • 自动提交 GitHub Issue
日常应用
• 微信自动通过好友验证请求 • 邮件批量处理 • 文档类应用操作
系统设置
• Mac 系统偏好设置自动化 • 文件批量整理 • 跨应用数据搬运
集成到 Agent 框架
TuriX 不仅有自己的桌面应用,还能作为 Skill 接入各种 Agent 框架:
• OpenClaw — 已在 ClawHub 发布官方技能包 • Claude Code — 可直接调用 • Hermes Agent — 支持集成 • 其他支持 MCP 协议的框架
06 TuriX vs 竞品


TuriX 的优势:
• 完全开源,架构灵活,可以当底层能力模块接入任意框架 • 可随意更换视觉大模型底座,上限高 • 对中文支持更友好
TuriX 的不足:
• 操作时会抢鼠标(官方正在优化)
07 快速上手
方式 1:桌面应用(最简单)
访问官网下载对应系统的应用:
turix.ai方式 2:源码运行
# 1. 克隆仓库git clone https://github.com/TurixAI/TuriX-CUA.gitcd TuriX-CUA# 2. 创建 Python 3.12 环境conda create -n turix_env python=3.12conda activate turix_env# 3. 安装依赖pip install -r requirements.txt# 4. 配置 API Key(config.json){ "agent": { "model": "qwen/Qwen2.5-VL-72B", "api_key": "your_api_key", "use_plan": true, "use_skills": true }}# 5. 启动python examples/main.py方式 3:接入 OpenClaw
# 下载 skill 安装包,解压后放到 OpenClaw 技能目录# macOS / Linuxmkdir -p ~/.openclaw/workspace/skillscp -R turix-cua ~/.openclaw/workspace/skills/# Windows PowerShellmkdir "$HOME\.openclaw\workspace\skills"Copy-Item -Path ".\turix-cua" -Destination "$env:USERPROFILE\.openclaw\workspace\skills" -Recurse -Force08 路线图
TuriX 的迭代节奏很快,来看看他们的规划:
09 项目信息
• GitHub:https://github.com/TurixAI/TuriX-CUA • 官网:https://turix.ai • OpenClaw Skill:https://clawhub.ai/Tongyu-Yan/turix-cua
写在最后
让 Agent 操纵 APP 的终极方案,底层 API 调用无疑是最稳定、最高效的。
但面对国内互联网处处建护城河的现实,CUA(计算机视觉操作)在未来一段时间内,就是最具普适性的自动化方案。
TuriX 的价值不只是"又一个 CUA 工具"——而是它把这套能力做成了标准化、可集成、可扩展的基础设施。
花十分钟教一个 AI 徒弟,以后这活儿就是他的了。
夜雨聆风