auto-openclaw:让 OpenClaw 拥有操作电脑的能力-夜雨聆风

auto-openclaw:让 OpenClaw 拥有操作电脑的能力

在大多数人的印象中，AI 智能体往往只能处理文本任务，无法直接与电脑界面交互。但随着视觉语言模型（VLM）的发展，这种局面正在被打破。今天，我们要介绍的 auto-openclaw 项目，就是一个将 UI-TARS 视觉语言模型与 OpenClaw 集成的创新方案，让 AI 能够像人一样看屏幕、点鼠标、打键盘。

一、项目简介：让 AI 拥有桌面操作能力

auto-openclaw 是一个基于 UI-TARS Desktop 修改的项目，将其 CLI 作为 OpenClaw 的 skill 接入，实现了 AI 智能体对桌面的自动化操作。通过视觉语言模型的能力，AI 可以理解屏幕内容，然后执行相应的鼠标和键盘操作，完成各种 GUI 任务。

1. 工作原理

auto-openclaw 的工作流程非常清晰：

用户 → OpenClaw → ui-tars skill → UI-TARS CLI → 截屏 → VLM 推理 → 执行操作 → 循环                                                                                     ↓                                                         JSON Lines 反馈 ← 最终截图 ← 完成

简单来说，当用户向 OpenClaw 下达 GUI 任务时，系统会通过 UI-TARS CLI 截取屏幕，然后将截图发送给视觉语言模型进行分析。模型会根据任务要求和屏幕内容，生成相应的操作指令，如点击、输入文本、滚动等。这些操作会被执行，然后系统会再次截屏，循环这个过程直到任务完成。

2. 核心优势

视觉理解

利用 VLM 技术，AI 可以真正”看到”屏幕内容，而不仅仅是基于文本指令
自然语言交互

用户可以用自然语言直接下达 GUI 任务，无需编写复杂的脚本
跨平台支持

支持 Windows、MacOS 等多种操作系统
实时反馈

通过 JSON Lines 格式提供详细的操作反馈
易于集成

作为 OpenClaw 的 skill 接入，使用简单方便

二、安装配置：快速上手指南

要使用 auto-openclaw，需要完成以下几个步骤：

1. 前置要求

在开始安装之前，请确保你的系统满足以下要求：

Node.js >= 20
pnpm 9.10.0
OpenClaw 已安装
VLM API（推荐火山引擎 doubao-seed-2-0-pro-260215）

2. 克隆并构建项目

首先，你需要克隆项目代码并进行构建：

git clone https://github.com/yangzhuxinyzx/auto-openclaw.git
cd auto-openclaw
pnpm install

# 按顺序构建
cd packages/ui-tars/shared && pnpm run build && cd -
cd packages/ui-tars/sdk && pnpm run build && cd -
cd packages/ui-tars/operators/nut-js && pnpm run build && cd -
cd packages/ui-tars/cli && pnpm run build && cd -

# 全局链接 CLI
cd packages/ui-tars/cli && npm link

构建完成后，可以通过以下命令验证安装是否成功：

ui-tars --version        # 应输出 1.2.3
ui-tars start --help     # 应显示 --output 选项

3. 配置 VLM 模型

接下来，你需要配置视觉语言模型。创建 ~/.ui-tars-cli.json 文件，并填入以下内容：

{
  "baseURL": "https://ark.cn-beijing.volces.com/api/v3",
  "apiKey": "<你的 API Key>",
  "model": "doubao-seed-2-0-pro-260215",
  "useResponsesApi": true
}

auto-openclaw 支持任何 OpenAI 兼容的视觉语言模型 API，你可以根据自己的需求选择合适的模型。

4. 接入 OpenClaw

最后，将 skill 文件复制到 OpenClaw workspace：

mkdir -p ~/.openclaw/workspace/skills/ui-tars
cp skills/ui-tars/SKILL.md ~/.openclaw/workspace/skills/ui-tars/

OpenClaw 会自动发现并加载这个 skill，无需额外配置。

三、使用方法：让 AI 帮你操作电脑

安装配置完成后，你就可以在 OpenClaw 对话中直接下达 GUI 任务了。

1. 基本使用

在 OpenClaw 对话中，你可以直接用自然语言下达各种 GUI 任务，例如：

打开浏览器访问抖音
打开微信搜索某某发一条消息
打开记事本输入 Hello World

OpenClaw 会通过 auto-openclaw skill 来理解和执行这些任务。

2. 手动测试

如果你想单独测试 UI-TARS CLI 的功能，可以使用以下命令：

ui-tars start --target nut-js --query "点击桌面空白处" --output json

3. 高级参数

UI-TARS CLI 提供了一些高级参数，帮助你更好地控制任务执行：

-r, --resolution-scale <scale>

截图分辨率缩放比例（0.1-1.0），例如 0.5 表示半分辨率

用途：降低分辨率可以减少截图大小，加快模型推理速度，特别适合性能较低的设备
默认值：1（全分辨率）

--max-pixels <pixels>

图像预处理的最大像素数（默认值取决于模型版本）
--max-image-length <count>

发送给模型的历史图像最大数量（默认：5）

4. 停止任务

如果你需要中途停止正在执行的 UI-TARS 任务，可以使用 stop 命令：

ui-tars stop

这个命令会终止正在运行的 UI-TARS 进程，并清理相关的 PID 文件。

5. 输出格式

auto-openclaw 使用 JSON Lines 格式输出操作过程，每行一个事件：

event	含义	关键字段
`screenshot`	截屏	`loop` , `width`, `height`
`prediction`	模型决策	`action_type` , `thought`, `action_inputs`
`error`	出错	`message`
`done`	结束	`status` , `summary`, `screenshotPath`

退出码：0 成功 / 1 出错 / 2 需人工 / 3 用户中止

四、技术实现：相对原版的改动

auto-openclaw 基于 UI-TARS Desktop v0.3.0-beta.11 修改，主要做了以下改动：

packages/ui-tars/cli/

— 新增 --output json 结构化输出、退出码、操作摘要、最终截图保存，新增 stop 命令，新增 -r 分辨率缩放参数
packages/ui-tars/operators/nut-js/

— type 操作剪贴板 fallback、scroll 改进、wait 缩短

这些改动使得 UI-TARS CLI 更加适合作为 OpenClaw 的 skill 使用，提供了更清晰的操作反馈和更稳定的执行效果。

五、应用场景：auto-openclaw 的潜力

auto-openclaw 可以应用于多种场景，为用户提供便利：

1. 日常办公自动化

自动填写表单
批量处理文件
自动化数据录入
定时执行重复性任务

2. 软件测试

自动化 GUI 测试
模拟用户操作流程
发现界面 bug

3. 个人助手

帮助用户完成复杂的电脑操作
提供可视化的操作指导
解放用户的双手，让电脑操作更加轻松

六、总结

auto-openclaw 项目通过将 UI-TARS 视觉语言模型与 OpenClaw 集成，实现了 AI 智能体对桌面的自动化操作。这是 AI 技术在桌面自动化领域的重要应用，为用户提供了一种全新的与电脑交互的方式。

通过 auto-openclaw，用户可以用自然语言直接下达 GUI 任务，而无需关心具体的操作步骤。AI 会通过视觉理解屏幕内容，然后执行相应的操作，完成任务。这种方式不仅提高了工作效率，也降低了用户的操作门槛。

未来，随着视觉语言模型的不断发展，auto-openclaw 有望支持更复杂的桌面操作任务，为用户带来更多便利。如果你对 AI 桌面自动化感兴趣，不妨尝试一下 auto-openclaw，体验 AI 操作电脑的神奇能力。

致谢

UI-TARS Desktop — ByteDance 开源的 GUI Agent 桌面应用（Apache-2.0）
OpenClaw — 开源自托管 AI Agent

License

Apache-2.0（继承自 UI-TARS Desktop）

龙虾+MCP自动签到领金币，废旧手机变身赚钱神器！

废旧安卓手机别扔！养匹”马”帮你干活

自动刷视频挣金币！用 ApkClaw 打造你的自动化“摸鱼”神器

一、 项目简介：让 AI 拥有桌面操作能力