让 AI 接管你的电脑!这个 Agent 凭什么 2.3K Stars 还在涨

只要人能点到的地方，AI 也能点。

01 一个现实问题

在国内，你想让 AI 帮你自动化操作某个 APP，大概率会遇到一个问题：

没有 API，没有 CLI，什么都调不了。

大厂们忙着建护城河，谁也不愿意把底层接口开放出来。于是，开发者们陷入了两难——

要么自己写 RPA 脚本，网页一改版就得重写，维护成本高得吓人。要么只能干等着厂商开放接口，遥遥无期。

现在，有个开源项目给出了一条新路：让 AI 像人一样看屏幕、动鼠标、敲键盘。

它叫 TuriX-CUA，全称 Computer Use Agent（计算机操作智能体）。

开源不久，GitHub 已经拿下 2.3K+ Stars，还在快速涨。

GitHub 项目地址：https://github.com/TurixAI/TuriX-CUA

02 TuriX 是什么

简单说，TuriX 是一个基于视觉语言模型（VLM）的桌面自动化框架。

如果说大模型是 AI 的"大脑"，那 TuriX 就是 AI 的"眼睛和手"：

• 看（See）：每隔几秒截一张屏幕的图
• 想（Think）：分析当前屏幕内容，判断下一步该做什么
• 动（Act）：模拟鼠标点击、键盘输入，执行操作

它不同于传统 RPA 和 API 调用——只要人能点到的地方，TuriX 也能点。

跨平台支持：

• ✅ macOS
• ✅ Windows
• ✅ Linux（Ubuntu 等发行版）

03 技术架构：四角色协同

TuriX 最硬核的地方，是它的 TuriX Parallelum 四角色协同架构。

大模型做 GUI 操作有个老问题：上下文太长、步骤多了就容易乱。TuriX 的解法是把任务拆成四个专业角色，各司其职：

角色分工

角色	职责	类比
Planner（规划者）	理解用户意图，制定分步计划	项目经理
Brain（大脑）	根据当前屏幕状态，决定具体操作	执行者
Evaluator（评估者）	评估每一步是否成功执行	质检员
Executor（执行者）	模拟鼠标键盘操作	操作工

并行执行流水线

光有角色分工还不够。TuriX 做了一个巧妙的设计——并行执行流水线：

当执行者在假设前一步成功的基础上执行第 N 步操作时，评估者同时对第 N-1 步进行评估。

这意味着：在检查上一步的同时，下一步已经在跑了。既保证了执行成功率，又不拖慢速度。

对比单线程"执行→检查→再执行"的模式，这个设计让 TuriX 的操作速度比同类方案快了不少。

04 关键技术创新

1. 结构化文本 + 截图双输入

纯靠截图识别屏幕元素，准确率不够高。

TuriX 基于 macOS 的 AXUIElement 框架，把屏幕上的组件、边框位置等信息转成结构化文本数据，和截图一起喂给大模型。

结果：模型能输出更精准的节点索引，点击准确率大幅提升。

2. 自微调视觉模型

团队发现，大多数现成的 VLM 模型做不到像素级的 GUI 操作。

于是，他们基于 Qwen2.5-VL-72B 进行了微调，在桌面自动化任务测试中表现更出色。

官方数据：

• 在 OSWorld 风格的 Mac 基准测试中，成功率达到 80%
• 在 OSWorld 基准测试中，成功率达到 64.2%
• 内部测试集通过率超过 68%

3. Skills 机制

这是 TuriX 最让我兴奋的功能。

传统 RPA 需要你写代码脚本，而 TuriX 的 Skills 就是一堆 Markdown 文件：

---name: github-web-actionsdescription: 用于在浏览器中操作 GitHub（搜索仓库、点 Star 等）。---# GitHub Web Actions- 打开 GitHub，使用站内搜索并进入仓库页面。- 若需要登录，先向用户确认再继续。- 在继续之前确认 Star 按钮状态。

流程是这样的：

1. 你用大白话给 AI 说一次要做什么
2. AI 磕磕绊绊地完成一次
3. 把操作流程沉淀成一个 Skill（Markdown 手册）
4. 下次再干同样的活，直接调用 Skill，更快、更稳

相当于花十分钟教了一个聪明的徒弟，以后这活儿就是他的了。

4. 可恢复的内存压缩

长任务容易因为上下文太长而失控。

TuriX 引入了可恢复的内存压缩机制，把历史信息压缩存储，需要时再展开。这样既能处理长时间任务，又不会因为上下文爆炸而翻车。

05 实际能干什么

浏览器操作

• 自动搜索 YouTube 视频并点赞
• 批量打开网页、填写表单
• 自动提交 GitHub Issue

日常应用

• 微信自动通过好友验证请求
• 邮件批量处理
• 文档类应用操作

系统设置

• Mac 系统偏好设置自动化
• 文件批量整理
• 跨应用数据搬运

集成到 Agent 框架

TuriX 不仅有自己的桌面应用，还能作为 Skill 接入各种 Agent 框架：

• OpenClaw — 已在 ClawHub 发布官方技能包
• Claude Code — 可直接调用
• Hermes Agent — 支持集成
• 其他支持 MCP 协议的框架

06 TuriX vs 竞品

TuriX 的优势：

• 完全开源，架构灵活，可以当底层能力模块接入任意框架
• 可随意更换视觉大模型底座，上限高
• 对中文支持更友好

TuriX 的不足：

• 操作时会抢鼠标（官方正在优化）

07 快速上手

方式 1：桌面应用（最简单）

访问官网下载对应系统的应用：

turix.ai

方式 2：源码运行

# 1. 克隆仓库git clone https://github.com/TurixAI/TuriX-CUA.gitcd TuriX-CUA# 2. 创建 Python 3.12 环境conda create -n turix_env python=3.12conda activate turix_env# 3. 安装依赖pip install -r requirements.txt# 4. 配置 API Key（config.json）{  "agent": {    "model": "qwen/Qwen2.5-VL-72B",    "api_key": "your_api_key",    "use_plan": true,    "use_skills": true  }}# 5. 启动python examples/main.py

方式 3：接入 OpenClaw

# 下载 skill 安装包，解压后放到 OpenClaw 技能目录# macOS / Linuxmkdir -p ~/.openclaw/workspace/skillscp -R turix-cua ~/.openclaw/workspace/skills/# Windows PowerShellmkdir "$HOME\.openclaw\workspace\skills"Copy-Item -Path ".\turix-cua" -Destination "$env:USERPROFILE\.openclaw\workspace\skills" -Recurse -Force

08 路线图

TuriX 的迭代节奏很快，来看看他们的规划：

时间	功能	状态
2025 Q3	终止与恢复	✅ 已完成
2025 Q3	Windows 支持	✅ 已完成
2025 Q4	下一代 AI 模型	✅ 已完成
2025 Q4	规划器 + 多智能体架构	✅ 已完成
2026 Q1	Ollama 支持	✅ 已完成
2026 Q1	Skills 机制	✅ 已完成
2026 Q1	OpenClaw 技能	✅ 已完成
2026 Q1	Linux 支持	✅ 已完成
2026 Q2	浏览器自动化（类 Chrome）	🔄 规划中
2026 Q2	长期记忆	🔄 规划中
2026 Q2	示范学习	🔄 规划中

09 项目信息

• GitHub：https://github.com/TurixAI/TuriX-CUA
• 官网：https://turix.ai
• OpenClaw Skill：https://clawhub.ai/Tongyu-Yan/turix-cua

写在最后

让 Agent 操纵 APP 的终极方案，底层 API 调用无疑是最稳定、最高效的。

但面对国内互联网处处建护城河的现实，CUA（计算机视觉操作）在未来一段时间内，就是最具普适性的自动化方案。

TuriX 的价值不只是"又一个 CUA 工具"——而是它把这套能力做成了标准化、可集成、可扩展的基础设施。

花十分钟教一个 AI 徒弟，以后这活儿就是他的了。