事情是这样的。
上周看到字节开源了一个叫 UI-TARS Desktop 的项目,GitHub 上已经 33.7k+ 的热度了。说是让 AI 像人一样看屏幕、理解界面、操作鼠标键盘。
我当时就想,这不就是我一直想要的"数字员工"吗?你跟它说"帮我把这个 PDF 里的表格整理成 Excel",它真的打开 PDF、找到表格、复制粘贴、调好格式。
测了3天,踩了几个坑,今天就跟大家聊聊这玩意到底怎么用,顺便把完整的安装教程也整理出来。
它到底是什么?
UI-TARS Desktop,是字节跳动开源的桌面级 GUI Agent。
翻译成人话就是,一个能看懂屏幕、会操作电脑的 AI 智能体。
它不像 ChatGPT 那样只能聊天,也不像传统脚本那样按固定流程执行。它能自己看屏幕,判断当前状态,然后决定下一步该点哪里、输入什么。
就像你雇了个实习生,坐在电脑前帮你干活。你只要告诉它要做什么,它自己想办法完成。
为什么需要这种东西?
这个问题我也问过自己。
传统自动化工具,比如 RPA,有个致命缺陷,只能按预设流程执行。界面一变就傻眼了。
举个例子,你要自动化"在京东买东西"。传统脚本是固定点击坐标(第3个按钮),一旦页面改版,按钮位置变了,脚本就挂了。
但 GUI Agent 不一样。它是看屏幕找到"搜索框"、输入商品名、找到"搜索按钮"、点击。不依赖固定坐标,而是像人一样理解界面语义。
这就是为什么它更灵活、更智能。
架构设计,三剑客怎么配合
UI-TARS Desktop 的核心是三个组件协同工作。
Operator(操作员),负责跟电脑硬件交互。干两件事,截图(把屏幕内容拍下来传给 AI)和执行(根据 AI 指令操作鼠标键盘)。目前支持好几种 Operator,包括 nut-js 的桌面自动化、专门操作浏览器的 WebOperator、还有手机控制的 MobileOperator。
UI-TARS Model(大脑),字节自研的多模态大模型,专门训练来理解 GUI 界面。输入是截图加任务描述再加历史操作记录,输出是下一步要执行的动作,比如"点击坐标 (100, 200)"或"输入文本 'hello'"。有两个版本,1.5 是基础版,1.6 是增强版,支持更复杂的推理和规划。
GUI Agent(协调员),负责把 Operator 和 Model 串联起来,管理整个任务流程。接收用户指令,然后循环执行:截图 → 传给模型 → 获取动作 → 执行动作 → 判断是否完成。
整个流程就是这样,一直循环,直到任务完成或者遇到无法处理的情况。
核心能力,不只是"点击"那么简单
我测试了一下,它支持的操作类型还挺全的。
鼠标操作包括单击、双击、右键点击、拖拽选择文本或移动文件、悬停显示提示。键盘操作包括输入文本、快捷键如 Ctrl+C/V、组合键。滚动操作支持页面上下滚动和横向滚动。还有等待与观察,等待页面加载、观察界面变化。
这些基础操作组合起来,就能完成复杂任务。填表单、做报表、发邮件,甚至玩游戏。
我让它帮我测试一个登录功能,尝试各种异常情况:空密码、错误密码、SQL 注入。它居然真的能自己判断该输入什么、点击哪里、观察错误提示。
两种模式,本地操作和远程控制
UI-TARS Desktop 提供两种使用模式。
Local Operator(本地操作员),让 AI 直接控制你本地的电脑。适合自动化日常办公任务、批量处理文件、测试软件界面。我自己测试的时候就用的这个模式,让它帮我把几个文件夹里的图片按日期重命名,效果还不错。
Remote Operator(远程操作员),让 AI 控制远程的电脑或浏览器。适合远程服务器管理、云端自动化测试、跨设备协作。
值得一提的是,Remote Browser Operator 完全免费,不需要任何配置,点击就能用。这个对不想折腾的人很友好。
详细安装教程(重点来了)
下面是我整理的完整安装教程,踩了几个坑才跑通的,大家可以参考。
环境要求
在安装之前,先确认你的环境。
| 项目 | 要求 | 我的配置 |
|---|---|---|
| Node.js | ≥ 18.0.0 | v18.19.1 |
| npm 或 bun | 任意一个 | bun 1.0.0 |
| 操作系统 | Windows / Mac / Linux | macOS Sonoma |
| 内存 | ≥ 8GB | 16GB |
如果你用 npm,建议升级到最新版本。
npm install -g npm@latest我更推荐用 bun,启动速度更快。
# macOS 安装 bun
curl -fsSL https://bun.sh/install | bash
# Windows 安装 bun(用 PowerShell)
powershell -c "irm bun.sh/install.ps1 | iex"方式一:CLI 快速启动(最推荐)
这是最简单的方式,适合快速体验。
步骤 1:全局安装 CLI 工具。
npx @ui-tars/cli start第一次运行会自动下载依赖,可能需要几分钟。
步骤 2:配置 API。
运行后会提示你输入配置。
? baseURL: https://api.bytedance.com # 字节的 API 地址
? apiKey: your-api-key-here # 你的 API Key
? model: ui-tars-1.5 # 模型版本这里有个坑,API Key 需要去字节跳动的开发者平台申请。地址是:
https://console.volcengine.com/ark注册账号 → 创建推理接入点 → 获取 API Key。
步骤 3:开始使用。
配置完成后,你就可以用自然语言控制电脑了。
# 示例命令
> 帮我打开 Chrome,搜索"今天天气"
> 把桌面上的截图都整理到"截图"文件夹里
> 打开这个 PDF,把第一页的表格复制到 Excel方式二:桌面应用(适合非技术用户)
如果你不想折腾命令行,可以直接下载桌面版。
步骤 1:下载安装包。
去 GitHub Releases 页面下载对应系统的安装包。
https://github.com/bytedance/UI-TARS-desktop/releasesmacOS 下载 .dmg 文件,Windows 下载 .exe 文件。
步骤 2:安装并启动。
双击安装包,按照提示完成安装。打开应用后,会提示你配置 API Key。
步骤 3:开始使用。
图形界面上有一个输入框,你直接输入任务描述就行。比如:
「帮我打开 Excel,新建一个表格,命名为'测试数据'」
方式三:从源码安装(适合开发者)
如果你想深度定制或者参与贡献,可以从源码安装。
步骤 1:克隆仓库。
git clone https://github.com/bytedance/UI-TARS-desktop.git
cd UI-TARS-desktop步骤 2:安装依赖。
# 用 bun(推荐)
bun install
# 或者用 npm
npm install步骤 3:配置环境变量。
在项目根目录创建 .env 文件。
touch .env编辑 .env 文件,添加以下内容。
BASE_URL=https://api.bytedance.com
API_KEY=your-api-key-here
MODEL=ui-tars-1.5步骤 4:启动项目。
# 启动桌面应用
bun run dev
# 或者启动 CLI
bun run cli方式四:SDK 集成(嵌入到你自己的项目)
如果你是开发者,想把 UI-TARS 集成到自己的应用里,可以用 SDK。
步骤 1:安装依赖。
npm install @ui-tars/sdk @ui-tars/operator-nut-js步骤 2:编写代码。
import { GUIAgent } from '@ui-tars/sdk';
import { NutJSOperator } from '@ui-tars/operator-nut-js';
const guiAgent = new GUIAgent({
model: {
baseURL: 'https://api.bytedance.com',
apiKey: 'your-api-key-here',
model: 'ui-tars-1.5'
},
operator: new NutJSOperator(),
});
// 运行任务
async function runTask() {
const result = await guiAgent.run('打开 Chrome,搜索"天气"');
console.log('任务完成:', result);
}
runTask();步骤 3:运行脚本。
node your-script.js常见安装问题
我踩了几个坑,整理出来给大家参考。
问题 1:npx @ui-tars/cli start 报错 "command not found"。
原因:Node.js 版本太低或者 npm 没配置好。
解决:升级 Node.js 到 18+,或者用 bun 替代。
bun x @ui-tars/cli start问题 2:API Key 申请不下来。
原因:字节跳动的开发者平台需要实名认证。
解决:去火山引擎官网完成实名认证,然后创建推理接入点。
问题 3:截图识别不准。
原因:屏幕分辨率太高,截图压缩后 AI 识别不准。
解决:调整截图质量,或者降低屏幕分辨率。
问题 4:macOS 提示"无法验证开发者"。
原因:桌面应用没有签名。
解决:在"系统偏好设置" → "安全性与隐私"里手动允许。
问题 5:任务执行到一半卡住。
原因:复杂任务的规划不稳定,AI 会陷入循环。
解决:把任务拆成更小的步骤,或者人工介入。
实际应用场景,我测了几个
安装好之后,我让它做了一些实际任务,说说我的体验。
自动化办公:「帮我把这 10 个 PDF 里的表格都提取出来,汇总到一个 Excel 里。」
这个任务它完成得还不错。打开 PDF、滚动页面、找到表格、复制粘贴。不过有一个坑,如果 PDF 里的表格格式太复杂,它有时候会漏掉一些单元格,需要人工检查一下。
数据采集:「去这个网站,把前 5 页的商品名称和价格都爬下来。」
这个比较顺利。它自己滚动页面、找到商品信息、复制粘贴到 Excel。比写爬虫脚本快多了,而且不用分析网页结构。
软件测试:「帮我测试这个登录功能,尝试各种异常情况。」
这个是我最满意的。它能自己判断该输入什么、点击哪里、观察错误提示。比我手动测试效率高多了。
和同类项目相比,有什么区别?
我整理了一个对比表格。
| 项目 | 特点 | 适用场景 |
|---|---|---|
| UI-TARS Desktop | 纯视觉驱动、开源、字节出品 | 通用 GUI 自动化 |
| Claude Computer Use | Claude 官方功能、云端运行 | 简单任务演示 |
| OpenAI Operator | 浏览器专用、云端运行 | 网页自动化 |
| RPA 工具 | 固定流程、企业级 | 大规模重复任务 |
UI-TARS Desktop 的优势在于,开源免费 + 本地运行 + 纯视觉理解。
不过说实话,如果你只是想自动化几个简单的重复操作,写个脚本可能更省事。UI-TARS Desktop 更适合那些界面经常变、流程不够固定的场景。
安全与隐私提醒
让 AI 控制电脑是一把双刃剑,必须谨慎。
风险:
- • AI 可能会误操作删除重要文件
- • 如果模型被攻击可能导致安全问题
- • 截图上传可能泄露敏感信息
建议:
- • 在虚拟机或沙箱环境中运行
- • 不要给 AI 管理员权限
- • 敏感操作前人工确认
- • 使用本地模型避免数据上传云端
GitHub 地址
https://github.com/bytedance/UI-TARS-desktop总结
UI-TARS Desktop 代表了一个重要趋势,AI 正在从"能说"进化到"能做"。
以前的 AI 只能给你建议、帮你写代码,现在它可以直接操作软件、完成任务。这就像是 AI 从"顾问"变成了"员工"。
当然,这技术还在早期。操作成功率、安全性、复杂任务规划,都还有提升空间。但方向是明确的,未来的 AI 不仅能理解世界,还能改变世界。
如果你对 AI Agent 感兴趣,可以下载试试。按照上面的教程安装,测个几天,踩几个坑,感受一下这个方向的可能性。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧。
谢谢你看我的文章,我们,下次再见。
夜雨聆风