字节开源33.7k!这个AI真的会操作电脑,字节UI-TARS Desktop实测,附详细安装教程

事情是这样的。

上周看到字节开源了一个叫 UI-TARS Desktop 的项目，GitHub 上已经 33.7k+ 的热度了。说是让 AI 像人一样看屏幕、理解界面、操作鼠标键盘。

我当时就想，这不就是我一直想要的"数字员工"吗？你跟它说"帮我把这个 PDF 里的表格整理成 Excel"，它真的打开 PDF、找到表格、复制粘贴、调好格式。

测了3天，踩了几个坑，今天就跟大家聊聊这玩意到底怎么用，顺便把完整的安装教程也整理出来。

它到底是什么？

UI-TARS Desktop，是字节跳动开源的桌面级 GUI Agent。

翻译成人话就是，一个能看懂屏幕、会操作电脑的 AI 智能体。

它不像 ChatGPT 那样只能聊天，也不像传统脚本那样按固定流程执行。它能自己看屏幕，判断当前状态，然后决定下一步该点哪里、输入什么。

就像你雇了个实习生，坐在电脑前帮你干活。你只要告诉它要做什么，它自己想办法完成。

为什么需要这种东西？

这个问题我也问过自己。

传统自动化工具，比如 RPA，有个致命缺陷，只能按预设流程执行。界面一变就傻眼了。

举个例子，你要自动化"在京东买东西"。传统脚本是固定点击坐标（第3个按钮），一旦页面改版，按钮位置变了，脚本就挂了。

但 GUI Agent 不一样。它是看屏幕找到"搜索框"、输入商品名、找到"搜索按钮"、点击。不依赖固定坐标，而是像人一样理解界面语义。

这就是为什么它更灵活、更智能。

架构设计，三剑客怎么配合

UI-TARS Desktop 的核心是三个组件协同工作。

Operator（操作员），负责跟电脑硬件交互。干两件事，截图（把屏幕内容拍下来传给 AI）和执行（根据 AI 指令操作鼠标键盘）。目前支持好几种 Operator，包括 nut-js 的桌面自动化、专门操作浏览器的 WebOperator、还有手机控制的 MobileOperator。

UI-TARS Model（大脑），字节自研的多模态大模型，专门训练来理解 GUI 界面。输入是截图加任务描述再加历史操作记录，输出是下一步要执行的动作，比如"点击坐标 (100, 200)"或"输入文本 'hello'"。有两个版本，1.5 是基础版，1.6 是增强版，支持更复杂的推理和规划。

GUI Agent（协调员），负责把 Operator 和 Model 串联起来，管理整个任务流程。接收用户指令，然后循环执行：截图 → 传给模型 → 获取动作 → 执行动作 → 判断是否完成。

整个流程就是这样，一直循环，直到任务完成或者遇到无法处理的情况。

核心能力，不只是"点击"那么简单

我测试了一下，它支持的操作类型还挺全的。

鼠标操作包括单击、双击、右键点击、拖拽选择文本或移动文件、悬停显示提示。键盘操作包括输入文本、快捷键如 Ctrl+C/V、组合键。滚动操作支持页面上下滚动和横向滚动。还有等待与观察，等待页面加载、观察界面变化。

这些基础操作组合起来，就能完成复杂任务。填表单、做报表、发邮件，甚至玩游戏。

我让它帮我测试一个登录功能，尝试各种异常情况：空密码、错误密码、SQL 注入。它居然真的能自己判断该输入什么、点击哪里、观察错误提示。

两种模式，本地操作和远程控制

UI-TARS Desktop 提供两种使用模式。

Local Operator（本地操作员），让 AI 直接控制你本地的电脑。适合自动化日常办公任务、批量处理文件、测试软件界面。我自己测试的时候就用的这个模式，让它帮我把几个文件夹里的图片按日期重命名，效果还不错。

Remote Operator（远程操作员），让 AI 控制远程的电脑或浏览器。适合远程服务器管理、云端自动化测试、跨设备协作。

值得一提的是，Remote Browser Operator 完全免费，不需要任何配置，点击就能用。这个对不想折腾的人很友好。

详细安装教程（重点来了）

下面是我整理的完整安装教程，踩了几个坑才跑通的，大家可以参考。

环境要求

在安装之前，先确认你的环境。

项目	要求	我的配置
Node.js	≥ 18.0.0	v18.19.1
npm 或 bun	任意一个	bun 1.0.0
操作系统	Windows / Mac / Linux	macOS Sonoma
内存	≥ 8GB	16GB

如果你用 npm，建议升级到最新版本。

npm install -g npm@latest

我更推荐用 bun，启动速度更快。

# macOS 安装 bun
curl -fsSL https://bun.sh/install | bash

# Windows 安装 bun（用 PowerShell）
powershell -c "irm bun.sh/install.ps1 | iex"

方式一：CLI 快速启动（最推荐）

这是最简单的方式，适合快速体验。

步骤 1：全局安装 CLI 工具。

npx @ui-tars/cli start

第一次运行会自动下载依赖，可能需要几分钟。

步骤 2：配置 API。

运行后会提示你输入配置。

? baseURL: https://api.bytedance.com  # 字节的 API 地址
? apiKey: your-api-key-here           # 你的 API Key
? model: ui-tars-1.5                   # 模型版本

这里有个坑，API Key 需要去字节跳动的开发者平台申请。地址是：

https://console.volcengine.com/ark

注册账号 → 创建推理接入点 → 获取 API Key。

步骤 3：开始使用。

配置完成后，你就可以用自然语言控制电脑了。

# 示例命令
> 帮我打开 Chrome，搜索"今天天气"
> 把桌面上的截图都整理到"截图"文件夹里
> 打开这个 PDF，把第一页的表格复制到 Excel

方式二：桌面应用（适合非技术用户）

如果你不想折腾命令行，可以直接下载桌面版。

步骤 1：下载安装包。

去 GitHub Releases 页面下载对应系统的安装包。

https://github.com/bytedance/UI-TARS-desktop/releases

macOS 下载 .dmg 文件，Windows 下载 .exe 文件。

步骤 2：安装并启动。

双击安装包，按照提示完成安装。打开应用后，会提示你配置 API Key。

步骤 3：开始使用。

图形界面上有一个输入框，你直接输入任务描述就行。比如：

「帮我打开 Excel，新建一个表格，命名为'测试数据'」

方式三：从源码安装（适合开发者）

如果你想深度定制或者参与贡献，可以从源码安装。

步骤 1：克隆仓库。

git clone https://github.com/bytedance/UI-TARS-desktop.git
cd UI-TARS-desktop

步骤 2：安装依赖。

# 用 bun（推荐）
bun install

# 或者用 npm
npm install

步骤 3：配置环境变量。

在项目根目录创建 .env 文件。

touch .env

编辑 .env 文件，添加以下内容。

BASE_URL=https://api.bytedance.com
API_KEY=your-api-key-here
MODEL=ui-tars-1.5

步骤 4：启动项目。

# 启动桌面应用
bun run dev

# 或者启动 CLI
bun run cli

方式四：SDK 集成（嵌入到你自己的项目）

如果你是开发者，想把 UI-TARS 集成到自己的应用里，可以用 SDK。

步骤 1：安装依赖。

npm install @ui-tars/sdk @ui-tars/operator-nut-js

步骤 2：编写代码。

import { GUIAgent } from '@ui-tars/sdk';
import { NutJSOperator } from '@ui-tars/operator-nut-js';

const guiAgent = new GUIAgent({
  model: {
    baseURL: 'https://api.bytedance.com',
    apiKey: 'your-api-key-here',
    model: 'ui-tars-1.5'
  },
  operator: new NutJSOperator(),
});

// 运行任务
async function runTask() {
  const result = await guiAgent.run('打开 Chrome，搜索"天气"');
  console.log('任务完成:', result);
}

runTask();

步骤 3：运行脚本。

node your-script.js

常见安装问题

我踩了几个坑，整理出来给大家参考。

问题 1：npx @ui-tars/cli start 报错 "command not found"。

原因：Node.js 版本太低或者 npm 没配置好。

解决：升级 Node.js 到 18+，或者用 bun 替代。

bun x @ui-tars/cli start

问题 2：API Key 申请不下来。

原因：字节跳动的开发者平台需要实名认证。

解决：去火山引擎官网完成实名认证，然后创建推理接入点。

问题 3：截图识别不准。

原因：屏幕分辨率太高，截图压缩后 AI 识别不准。

解决：调整截图质量，或者降低屏幕分辨率。

问题 4：macOS 提示"无法验证开发者"。

原因：桌面应用没有签名。

解决：在"系统偏好设置" → "安全性与隐私"里手动允许。

问题 5：任务执行到一半卡住。

原因：复杂任务的规划不稳定，AI 会陷入循环。

解决：把任务拆成更小的步骤，或者人工介入。

实际应用场景，我测了几个

安装好之后，我让它做了一些实际任务，说说我的体验。

自动化办公：「帮我把这 10 个 PDF 里的表格都提取出来，汇总到一个 Excel 里。」

这个任务它完成得还不错。打开 PDF、滚动页面、找到表格、复制粘贴。不过有一个坑，如果 PDF 里的表格格式太复杂，它有时候会漏掉一些单元格，需要人工检查一下。

数据采集：「去这个网站，把前 5 页的商品名称和价格都爬下来。」

这个比较顺利。它自己滚动页面、找到商品信息、复制粘贴到 Excel。比写爬虫脚本快多了，而且不用分析网页结构。

软件测试：「帮我测试这个登录功能，尝试各种异常情况。」

这个是我最满意的。它能自己判断该输入什么、点击哪里、观察错误提示。比我手动测试效率高多了。

和同类项目相比，有什么区别？

我整理了一个对比表格。

项目	特点	适用场景
UI-TARS Desktop	纯视觉驱动、开源、字节出品	通用 GUI 自动化
Claude Computer Use	Claude 官方功能、云端运行	简单任务演示
OpenAI Operator	浏览器专用、云端运行	网页自动化
RPA 工具	固定流程、企业级	大规模重复任务

UI-TARS Desktop 的优势在于，开源免费 + 本地运行 + 纯视觉理解。

不过说实话，如果你只是想自动化几个简单的重复操作，写个脚本可能更省事。UI-TARS Desktop 更适合那些界面经常变、流程不够固定的场景。

安全与隐私提醒

让 AI 控制电脑是一把双刃剑，必须谨慎。

风险：

• AI 可能会误操作删除重要文件
• 如果模型被攻击可能导致安全问题
• 截图上传可能泄露敏感信息

建议：

• 在虚拟机或沙箱环境中运行
• 不要给 AI 管理员权限
• 敏感操作前人工确认
• 使用本地模型避免数据上传云端

GitHub 地址

https://github.com/bytedance/UI-TARS-desktop

总结

UI-TARS Desktop 代表了一个重要趋势，AI 正在从"能说"进化到"能做"。

以前的 AI 只能给你建议、帮你写代码，现在它可以直接操作软件、完成任务。这就像是 AI 从"顾问"变成了"员工"。

当然，这技术还在早期。操作成功率、安全性、复杂任务规划，都还有提升空间。但方向是明确的，未来的 AI 不仅能理解世界，还能改变世界。

如果你对 AI Agent 感兴趣，可以下载试试。按照上面的教程安装，测个几天，踩几个坑，感受一下这个方向的可能性。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧。

谢谢你看我的文章，我们，下次再见。