那些没有 API 的老软件,AI 终于能操控了——字节这个 29k Star 项目的答案是:让 用眼睛看
📌 快速资源汇总
一、🔥 为什么我要聊这个工具
你有没有想过:AI 控制电脑,应该是什么样的?
大多数人的第一反应是:写脚本,调 API,接 Selenium,写 Playwright——用代码的方式操控计算机。
但这套路有一个根本性的问题:它需要应用提供接口。
浏览器有 DOM 可以操作。但桌面 App 呢?那些没有开放 API 的软件呢?你要改一个 Photoshop 设置,你要在一个老旧的企业内网系统里填一张表,你要在一个没有任何文档的软件里完成一系列操作——程序没有接口,怎么办?
人是怎么操作电脑的?
用眼睛看,用手点。看到按钮,点一下。看到输入框,打字进去。看到弹窗,根据内容决定点确定还是取消。
UI-TARS Desktop 的思路就是这样:用视觉语言模型替代”眼睛”——截屏,理解画面,决定下一步操作,执行鼠标键盘动作,再截屏,再判断。
它不依赖 DOM,不依赖 API,不依赖任何接口。只要能看到屏幕,就能操作。
这是一种接近人类操作方式的 Computer Use,而不是传统的程序自动化。
二、📦 这个项目是什么
项目名称:UI-TARS-desktop(TARS* 多模态 AI Agent Stack)
发布方:字节跳动(ByteDance)
⭐ Star 数:29.4k
🍴 Fork 数:2.9k
开源协议:Apache 2.0
技术栈:TypeScript 89.1%
学术论文:arXiv:2501.12326(UI-TARS 论文)

这个仓库包含两个子项目,定位不同,都值得分开说:
UI-TARS Desktop:本地桌面 GUI Agent,基于 UI-TARS 视觉语言模型,用”看屏幕”的方式操控你的电脑和浏览器,完全本地处理。
Agent TARS:通用多模态 AI Agent,CLI + Web UI,接 MCP,连各类真实世界工具,支持 Claude、豆包等多种模型,处理订机票、查信息、生成报告这类需要跨工具协作的任务。
一句话定位:字节出品的开源多模态 Agent 工具栈——UI-TARS Desktop 让 AI 用视觉控制桌面,Agent TARS 让 AI 跨工具完成复杂任务。
和传统电脑自动化的本质区别
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
三、⚙️ 核心功能,两个产品分开说
UI-TARS Desktop:视觉驱动的桌面 Agent
核心工作循环:
自然语言指令
↓
截取屏幕截图
↓
视觉语言模型分析画面("看到什么,应该做什么")
↓
输出操作动作(点击坐标、键盘输入、滚动)
↓
执行操作
↓
再截屏,确认结果
↓
循环直到任务完成
整个过程,模型不看 DOM,不调 API,只看截图。这意味着任何有界面的软件——无论是 VS Code、Excel、QQ、某个企业内网系统——都在它的控制范围内。
本地操作模式:
在你自己的机器上运行,使用 UI-TARS 模型(7B 或更大),完全本地处理,数据不离机。
# 下载 UI-TARS 模型
# 启动本地推理服务(Ollama 或 vLLM)
# 在 UI-TARS Desktop 里配置本地端点
远程操作模式(完全免费,v0.2.0 新增):
不需要本地 GPU,不需要任何配置——点一下,远程控制任何电脑或浏览器。
官方说的是”No configuration required: simply click”——真的就是点一下开始。
支持的模型:
-
• UI-TARS-1.5-7B(本地推理,ModelScope 可下载) -
• Seed-1.5-VL / Seed-1.6(字节 Seed 系列视觉语言模型) -
• 支持 ModelScope 部署
Agent TARS:通用多模态 CLI Agent
如果说 UI-TARS Desktop 是”AI 手”(操控界面),Agent TARS 是”AI 大脑”(规划和执行复杂任务)。
一条命令启动:
# 用 npx 直接跑,不需要安装
npx @agent-tars/cli@latest
# 全局安装(需要 Node.js >= 22)
npm install @agent-tars/cli@latest -g
# 用 Claude 模型
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-key
# 用字节豆包模型
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-key
核心能力:
① 混合浏览器控制:不是单纯的 GUI 点击,也不是单纯的 DOM 操作——三种策略自动切换:
-
• Visual Grounding(截图看界面点击) -
• DOM 操作(用结构化信息精准操作) -
• 混合策略(根据情况动态选择)
② Event Stream 协议:所有 Agent 行为以事件流形式传输,可以实时追踪 Agent 在做什么,调试,可视化。v0.3.0 新增了 Event Stream Viewer,可以实时看数据流。
③ MCP 深度集成:Agent TARS 的内核就是 MCP 构建的,天然支持挂载任何 MCP Server——你的代码库、数据库、外部 API,统统可以通过 MCP 接进来。
④ AIO Sandbox:v0.3.0 新增,隔离执行环境,所有工具在沙箱里跑,安全无副作用。
真实 Demo:Agent TARS 能做什么
订机票(Demo 截图可见):
"Please help me book the earliest flight from San Jose to New York
on September 1st and the last return flight on September 6th on Priceline"
Agent 打开浏览器,导航到 Priceline,搜索航班,按条件筛选,完成整个订票流程。
订酒店:
"I am in Los Angeles from September 1st to September 6th, with a budget of $5,000.
Please help me book a Ritz-Carlton hotel closest to the airport on booking.com"
加上:帮我整理一份交通指南。Agent 查完酒店,同时整理了一份从机场到酒店的交通说明。
生成图表(接 MCP):
"Draw me a chart of Hangzhou's weather for one month"
接了天气 MCP Server,获取数据,用图表 MCP 画出图,一次完成。
四、🚀 怎么装、怎么用
UI-TARS Desktop:下载安装
Step 1:去 Releases 页下载最新版:
https://github.com/bytedance/UI-TARS-desktop/releases/latest
支持 Windows 和 macOS,下载对应的安装包,双击安装。
[配图:UI-TARS Desktop 主界面截图]
Step 2:选择运行模式
远程模式(推荐新手,完全免费):
安装完直接打开,选择 Remote Operator,点击开始。不需要任何配置,直接可以用。
[配图:Remote Operator 一键启动界面截图]
本地模式(需要 GPU):
从 ModelScope 或 Hugging Face 下载 UI-TARS 模型:
# Hugging Face
ByteDance-Seed/UI-TARS-1.5-7B
# ModelScope(国内访问更快)
https://www.modelscope.cn/collections/UI-TARS-bccb56fa1ef640
在 UI-TARS Desktop 里配置本地模型端点,启动。
Step 3:用自然语言下指令
请帮我打开 VS Code 的自动保存功能,并把延迟设置为 500 毫秒
请帮我查一下 UI-TARS-Desktop 项目在 GitHub 上最新的开放 Issue
[配图:自然语言指令执行过程,截图序列展示]
Agent TARS:CLI 一条命令
# 最快的方式
npx @agent-tars/cli@latest
# 打开 Web UI
agent-tars --web
# 指定 Claude 模型
agent-tars --provider anthropic \
--model claude-sonnet-4-5 \
--apiKey sk-ant-xxx
CLI 启动后会打开一个 Web UI,在里面输入任务,实时看 Agent 执行过程。
接入 MCP Server:
// agent-tars.config.json
{
"mcp": {
"servers": {
"your-data-server": {
"command": "node",
"args": ["./your-mcp-server.js"]
}
}
}
}
五、💡 三个真实使用场景
场景一:AI 帮你操作那些”无接口”的老软件
背景:企业内网有一套老旧的 ERP 系统,没有 API,没有文档,每次需要从里面导数据都要手动点 30 个步骤,在特定的菜单里翻来找去。
操作:
请帮我从 ERP 系统里导出本月的采购订单,保存到桌面的 excel 文件里
UI-TARS Desktop 启动,截屏,识别 ERP 界面,找到正确的菜单路径,点击导航,找到导出功能,执行导出,保存文件。
效果:30 步手动操作变成一句话。因为是视觉识别而不是代码依赖,即使 ERP 界面改了布局,只要功能还在,Agent 还能找到。
这是传统 RPA(机器人流程自动化)工具的升级版——RPA 录制的是固定路径,UI-TARS 是真正理解界面的意图。
场景二:Agent TARS 当你的”在线旅行秘书”
背景:独立开发者出差,需要在多个网站比价,订机票、订酒店,还要整理一份行程单给公司报销。
操作:
我需要从上海飞北京,出发时间 5 月 20 日,返回 5 月 22 日,预算 3000 元以内。
帮我在携程上比较一下机票,选性价比最好的;再在美团上找一个距离会议地点(朝阳区)步行 20 分钟内的酒店。
最后帮我整理一份行程单,包括机票和酒店信息、总费用、和到达会议地点的路线建议。
Agent TARS 拆解任务:查机票 → 查酒店 → 整合信息 → 生成行程单,全程在浏览器里操作,最后输出一份完整的行程文档。
效果:原来需要自己打开好几个网站、比较信息、手动记录的一两个小时工作,压缩成一次等待。
场景三:开发者,用 MCP 扩展 Agent TARS 的能力
背景:AI 应用开发者,想让 Agent TARS 能查询自己的数据库,根据用户数据生成分析报告。
操作:
# 写一个 MCP Server,暴露数据库查询工具
# agent-tars.config.json 里挂上这个 Server
agent-tars --provider anthropic --model claude-3-7-sonnet-latest \
--apiKey your-key
配置完成后,在 Agent TARS 里直接说:
分析一下最近 30 天的用户留存数据,找出留存率最低的功能点,生成一份建议报告
Agent 自动调用数据库查询 MCP,拿到数据,用 Claude 分析,生成报告。
效果:把 AI 分析能力接进自己的业务数据,不需要单独搭建复杂的 AI 分析系统。
六、🐦 X 上的人怎么说
「UI-TARS Desktop 的远程操作模式是个惊喜——完全免费,点一下就能远程控制浏览器,这个我没想到字节会做开源。」
——早期用户,Discord 社区
「Agent TARS 和 OpenClaw 的核心区别是:前者更接近人类的工作方式,你给它一个任务它自己想怎么完成;后者更接近工程师的工作方式,你给它工具让它做精准操作。」
——开发者对比评论,X 平台
「29k Star 对一个视觉 GUI Agent 来说是很大的,说明有真实需求的人在看这个方向。」
——AI 研究者,X 平台
「字节有豆包的视觉模型,有飞书的工作流场景,做这个 Agent 不是无中生有,是有真实积累的。」
——产品分析,知乎评论
「订酒店那个 Demo 很说明问题——它不只是操控浏览器,它还看懂了页面上的信息,做了比较判断,不只是机械点击。」
——技术博主,X 平台
博主点评
这个项目和 GenericAgent 都在做”AI 控制电脑”,但底层路径完全不同。
GenericAgent 走的是工具注册路线——给 Agent 注册 bash、文件读写、ADB 等工具,Agent 调用工具完成任务。这条路依赖工具可以覆盖的范围。
UI-TARS Desktop 走的是视觉路线——Agent 直接”看”屏幕,用视觉语言模型理解界面,然后决定操作。这条路不依赖工具,覆盖范围理论上等于人能操作的所有软件。
两条路各有优势:工具路线更精准、更快;视觉路线更通用、更接近人类。
字节选择了更难但更通用的那条路,而且有论文支撑(arXiv),说明这不只是工程实践,背后有系统的研究。
七、🎯 值不值得装?我的判断
适合谁
-
• ✅ 想用 AI 操控桌面软件的开发者:尤其是那些没有 API 的老旧系统,视觉路线是唯一出路 -
• ✅ 想体验真正 Computer Use 的用户:不是浏览器插件,是真正接管桌面的 Agent -
• ✅ 有 GPU 的研究者和工程师:本地跑 UI-TARS 模型,完全私有,数据不离机 -
• ✅ 想用 MCP 扩展 Agent 能力的开发者:Agent TARS 的 MCP 集成很完善 -
• ✅ 需要多工具协作任务的人:订机票+订酒店+生成行程单这种跨应用任务
要说清楚的局限
-
• ⚠️ 视觉识别有失误率:模型有时候识别坐标不准,操作落偏,复杂界面上的小按钮是难点 -
• ⚠️ 本地模式需要显卡:UI-TARS-1.5-7B 本地跑需要有像样的 GPU,没显卡只能用远程模式 -
• ⚠️ 执行速度比代码自动化慢:每步都要截图、推理、执行,比 Playwright 脚本慢很多 -
• ⚠️ 复杂任务稳定性:步骤多的任务中途出错概率上升,需要人工监督 -
• ⚠️ 国内网络环境:Agent TARS 访问境外网站(Priceline 等)需要考虑网络配置
最后说一句
人类用眼睛和手操控电脑,AI 也可以——这是 UI-TARS 在证明的事情。它现在还不完美,但它选择的路径,比”给每个 App 写插件”更彻底,也更有未来。
字节做这件事,不只是工程实践,背后有学术研究。这个组合在国内 AI Agent 领域很少见。
夜雨聆风