乐于分享
好东西不私藏

auto-openclaw:让 OpenClaw 拥有操作电脑的能力

auto-openclaw:让 OpenClaw 拥有操作电脑的能力

在大多数人的印象中,AI 智能体往往只能处理文本任务,无法直接与电脑界面交互。但随着视觉语言模型(VLM)的发展,这种局面正在被打破。今天,我们要介绍的 auto-openclaw 项目,就是一个将 UI-TARS 视觉语言模型与 OpenClaw 集成的创新方案,让 AI 能够像人一样看屏幕、点鼠标、打键盘。

一、 项目简介:让 AI 拥有桌面操作能力

auto-openclaw 是一个基于 UI-TARS Desktop 修改的项目,将其 CLI 作为 OpenClaw 的 skill 接入,实现了 AI 智能体对桌面的自动化操作。通过视觉语言模型的能力,AI 可以理解屏幕内容,然后执行相应的鼠标和键盘操作,完成各种 GUI 任务。

1. 工作原理

auto-openclaw 的工作流程非常清晰:

用户 → OpenClaw → ui-tars skill → UI-TARS CLI → 截屏 → VLM 推理 → 执行操作 → 循环                                                                                     ↓                                                         JSON Lines 反馈 ← 最终截图 ← 完成

简单来说,当用户向 OpenClaw 下达 GUI 任务时,系统会通过 UI-TARS CLI 截取屏幕,然后将截图发送给视觉语言模型进行分析。模型会根据任务要求和屏幕内容,生成相应的操作指令,如点击、输入文本、滚动等。这些操作会被执行,然后系统会再次截屏,循环这个过程直到任务完成。

2. 核心优势

  • 视觉理解
    利用 VLM 技术,AI 可以真正”看到”屏幕内容,而不仅仅是基于文本指令
  • 自然语言交互
    用户可以用自然语言直接下达 GUI 任务,无需编写复杂的脚本
  • 跨平台支持
    支持 Windows、MacOS 等多种操作系统
  • 实时反馈
    通过 JSON Lines 格式提供详细的操作反馈
  • 易于集成
    作为 OpenClaw 的 skill 接入,使用简单方便

二、 安装配置:快速上手指南

要使用 auto-openclaw,需要完成以下几个步骤:

1. 前置要求

在开始安装之前,请确保你的系统满足以下要求:

  • Node.js >= 20
  • pnpm 9.10.0
  • OpenClaw 已安装
  • VLM API(推荐火山引擎 doubao-seed-2-0-pro-260215)

2. 克隆并构建项目

首先,你需要克隆项目代码并进行构建:

git clone https://github.com/yangzhuxinyzx/auto-openclaw.git
cd auto-openclaw
pnpm install

# 按顺序构建
cd packages/ui-tars/shared && pnpm run build && cd -
cd packages/ui-tars/sdk && pnpm run build && cd -
cd packages/ui-tars/operators/nut-js && pnpm run build && cd -
cd packages/ui-tars/cli && pnpm run build && cd -

# 全局链接 CLI
cd packages/ui-tars/cli && npm link

构建完成后,可以通过以下命令验证安装是否成功:

ui-tars --version        # 应输出 1.2.3
ui-tars start --help     # 应显示 --output 选项

3. 配置 VLM 模型

接下来,你需要配置视觉语言模型。创建 ~/.ui-tars-cli.json 文件,并填入以下内容:

{
  "baseURL": "https://ark.cn-beijing.volces.com/api/v3",
  "apiKey": "<你的 API Key>",
  "model": "doubao-seed-2-0-pro-260215",
  "useResponsesApi": true
}

auto-openclaw 支持任何 OpenAI 兼容的视觉语言模型 API,你可以根据自己的需求选择合适的模型。

4. 接入 OpenClaw

最后,将 skill 文件复制到 OpenClaw workspace:

mkdir -p ~/.openclaw/workspace/skills/ui-tars
cp skills/ui-tars/SKILL.md ~/.openclaw/workspace/skills/ui-tars/

OpenClaw 会自动发现并加载这个 skill,无需额外配置。

三、 使用方法:让 AI 帮你操作电脑

安装配置完成后,你就可以在 OpenClaw 对话中直接下达 GUI 任务了。

1. 基本使用

在 OpenClaw 对话中,你可以直接用自然语言下达各种 GUI 任务,例如:

  • 打开浏览器访问抖音
  • 打开微信搜索某某发一条消息
  • 打开记事本输入 Hello World

OpenClaw 会通过 auto-openclaw skill 来理解和执行这些任务。

2. 手动测试

如果你想单独测试 UI-TARS CLI 的功能,可以使用以下命令:

ui-tars start --target nut-js --query "点击桌面空白处" --output json

3. 高级参数

UI-TARS CLI 提供了一些高级参数,帮助你更好地控制任务执行:

  • -r, --resolution-scale <scale>
    截图分辨率缩放比例(0.1-1.0),例如 0.5 表示半分辨率
    • 用途:降低分辨率可以减少截图大小,加快模型推理速度,特别适合性能较低的设备
    • 默认值:1(全分辨率)
  • --max-pixels <pixels>
    图像预处理的最大像素数(默认值取决于模型版本)
  • --max-image-length <count>
    发送给模型的历史图像最大数量(默认:5)

4. 停止任务

如果你需要中途停止正在执行的 UI-TARS 任务,可以使用 stop 命令:

ui-tars stop

这个命令会终止正在运行的 UI-TARS 进程,并清理相关的 PID 文件。

5. 输出格式

auto-openclaw 使用 JSON Lines 格式输出操作过程,每行一个事件:

event
含义
关键字段
screenshot
截屏
loop

widthheight
prediction
模型决策
action_type

thoughtaction_inputs
error
出错
message
done
结束
status

summaryscreenshotPath

退出码:0 成功 / 1 出错 / 2 需人工 / 3 用户中止

四、 技术实现:相对原版的改动

auto-openclaw 基于 UI-TARS Desktop v0.3.0-beta.11 修改,主要做了以下改动:

  • packages/ui-tars/cli/
     — 新增 --output json 结构化输出、退出码、操作摘要、最终截图保存,新增 stop 命令,新增 -r 分辨率缩放参数
  • packages/ui-tars/operators/nut-js/
     — type 操作剪贴板 fallback、scroll 改进、wait 缩短

这些改动使得 UI-TARS CLI 更加适合作为 OpenClaw 的 skill 使用,提供了更清晰的操作反馈和更稳定的执行效果。

五、 应用场景:auto-openclaw 的潜力

auto-openclaw 可以应用于多种场景,为用户提供便利:

1. 日常办公自动化

  • 自动填写表单
  • 批量处理文件
  • 自动化数据录入
  • 定时执行重复性任务

2. 软件测试

  • 自动化 GUI 测试
  • 模拟用户操作流程
  • 发现界面 bug

3. 个人助手

  • 帮助用户完成复杂的电脑操作
  • 提供可视化的操作指导
  • 解放用户的双手,让电脑操作更加轻松

六、 总结

auto-openclaw 项目通过将 UI-TARS 视觉语言模型与 OpenClaw 集成,实现了 AI 智能体对桌面的自动化操作。这是 AI 技术在桌面自动化领域的重要应用,为用户提供了一种全新的与电脑交互的方式。

通过 auto-openclaw,用户可以用自然语言直接下达 GUI 任务,而无需关心具体的操作步骤。AI 会通过视觉理解屏幕内容,然后执行相应的操作,完成任务。这种方式不仅提高了工作效率,也降低了用户的操作门槛。

未来,随着视觉语言模型的不断发展,auto-openclaw 有望支持更复杂的桌面操作任务,为用户带来更多便利。如果你对 AI 桌面自动化感兴趣,不妨尝试一下 auto-openclaw,体验 AI 操作电脑的神奇能力。

致谢

  • UI-TARS Desktop — ByteDance 开源的 GUI Agent 桌面应用(Apache-2.0)
  • OpenClaw — 开源自托管 AI Agent

License

Apache-2.0(继承自 UI-TARS Desktop)

龙虾+MCP自动签到领金币,废旧手机变身赚钱神器!

废旧安卓手机别扔!养匹”马”帮你干活

自动刷视频挣金币!用 ApkClaw 打造你的自动化“摸鱼”神器