如果你最近在看 computer use、GUI Agent,bytedance/UI-TARS-desktop 这个仓库很值得认真过一遍。
它表面上像个桌面 App,实际上已经长成一套 TARS 体系:桌面端、Agent TARS CLI/Web UI、SDK、browser operator、computer operator、MCP 接入都在同一个 monorepo 里。你把它只当成“会点鼠标的 demo”,反而会低估它。
先说结论

AI智能体学习网站:ai-agent-phd.com
- 想亲手体验 GUI Agent,值得试,优先从 Desktop 开始。
- 想做二次开发,真正值钱的是
@ui-tars/sdk、operator 抽象和上层 Agent TARS 基础设施。 - 想“装完就用、纯离线零配置”,先别抱太高预期。官方开源文档的主路径仍然要求你准备一个 OpenAI 兼容的视觉模型接口。
- quick start 文档写明 Remote Operator 服务原定于 2025 年 8 月 20 日 停止。以今天 2026 年 5 月 10 日 来看,默认按“官方免费远程服务已结束”准备方案更稳。
先把项目看明白

AI智能体学习网站:ai-agent-phd.com
这个仓库现在其实有两层。
一层是 UI-TARS Desktop,也就是 Electron 桌面应用,负责把 UI-TARS 模型变成你能直接操作浏览器和电脑的 GUI Agent。
另一层是 Agent TARS,这部分已经明显往“通用多模态 Agent Stack”走了。CLI、Web UI、Event Stream、MCP、Sandbox 这些能力都在往这里汇总。所以 README 顶部先讲 Agent TARS,再讲 Desktop,不是写乱了,而是仓库定位真的扩了。
目录结构也很说明问题:
apps/ui-tars是桌面应用本体。packages/ui-tars/sdk和 operator 包是给开发者做集成的。multimodal/tarko更像上层 agent infra。
一句话记住:UI-TARS 是模型内核,Desktop 是落地外壳,Agent TARS 是继续往上搭出来的工程框架。
保姆级上手

AI智能体学习网站:ai-agent-phd.com
第一步:先选最稳的路线
第一次体验,建议按这个顺序来:
- 先跑 本地 Browser Operator
- 再试 本地 Computer Operator
- 最后才考虑 远程
原因很简单。浏览器任务边界清楚,翻车成本低;电脑全局操作一旦理解错了,点错窗口、输错内容,体验会很差。
另外两个前提别漏掉:
- Browser Operator 需要本机装好 Chrome、Edge 或 Firefox。
- quick start 文档明确写着 单显示器 更稳,多显示器可能失败。
第二步:把桌面端装起来
官方 quick start 给了两条路:
- 去 GitHub Releases 下载最新版本。
- macOS 用户直接执行
brew install --cask ui-tars。
Mac 端装完后,要额外打开两个权限:
AccessibilityScreen Recording
Windows 流程简单很多,基本就是直接运行应用。
第三步:先把模型服务准备好
这里有个很多人第一次都会踩的坑。
README 容易给人一种“完全本地”的感觉,但开源文档的主路径并不是纯离线推理,而是你自己准备一个模型服务,再让桌面端去调用。而且这个服务最好符合 OpenAI 兼容接口。
官方文档给了两条最直接的路线。
如果你在国内环境里折腾,优先试 Doubao-1.5-UI-TARS:
Language:zh
VLM Provider:VolcEngine Ark for Doubao-1.5-UI-TARS
VLM Base URL:https://ark.cn-beijing.volces.com/api/v3
VLM API KEY:YOUR_API_KEY
VLM Model Name:doubao-1.5-ui-tars-250328
如果你更想自己控制 endpoint,就走 Hugging Face 部署 UI-TARS-1.5-7B:
Language:en
VLM Provider:Hugging Face for UI-TARS-1.5
VLM Base URL:https://your-endpoint/v1/
VLM API KEY:hf_xxx
VLM Model Name:tgi
但 Hugging Face 这条路别想得太轻松。官方部署文档里明确写了几件要命的小事:
- 7B 模型建议至少
L40S 1GPU 48G,文档也提到L4和A100。 - 容器参数里的输入长度和 token 上限要拉到 65536 这一档。
- 环境变量要补
CUDA_GRAPHS=0和PAYLOAD_LIMIT=8000000。
这些细节没处理,问题通常不是“模型不聪明”,而是“服务根本起不来”。
第四步:设置页先做这 4 件事
Provider、Base URL、Model Name三件套要严格匹配。- 先点
Check Model Availability,跑通了再发第一条指令。 - 如果模型支持
Responses API,可以开,文档明确说这样更省 token,也更快。 Max Loop默认是 100,但第一次体验我更建议先压到 25 到 50;Loop Wait Time默认 1000ms,页面慢的话可以加到 1500ms 到 2000ms。
前两条是官方要求,后两条是我看完文档后的实操建议。先稳,再快。
第五步:第一次任务怎么下
第一次不要上来就说“帮我处理今天所有工作”。
更稳的任务长这样:
- 打开 Chrome,搜索一个关键词,并总结前 3 条结果。
- 打开 VS Code 设置,把 Auto Save 延迟改成 500ms。
- 去某个网页下载图片,再压缩到指定大小。
这类任务有三个好处:目标边界清楚、结果好验证、出错也容易复盘。GUI Agent 现阶段最怕的不是不会点,而是目标太散。
论文笔记:这项目真正的底层价值在哪
先说清楚,有论文,但论文讲的是底层 UI-TARS 模型,不是桌面壳本身。
论文题目是 UI-TARS: Pioneering Automated GUI Interaction with Native Agents,arXiv 提交时间是 2025 年 1 月 21 日。这篇论文真正想做的,不是再造一个自动化框架,而是把 GUI Agent 往“原生智能体模型”推进。
它最值得记的点有 4 个:
- 尽量只看截图,不强依赖外部结构化包裹。
- 把跨平台动作统一进一个动作空间。
- 引入先思考再行动的 System 2 推理。
- 用反思式在线轨迹持续补数据,让模型从真实错误里继续学。
论文摘要里给出的结果已经很能打:OSWorld 上它压过了 Claude,AndroidWorld 上也强过当时的 GPT-4o。
而跟 Desktop 今天关系更紧的,其实是 UI-TARS-1.5。官方在 2025 年 4 月 17 日 的博客里明确说了,1.5 版是在原始 UI-TARS 路线上继续用强化学习增强“思考后行动”。公开资料里最抓眼的数字是 ScreenSpotPro 这一项,UI-TARS-1.5 做到 61.6%,明显高于 Claude 的 27.7% 和 OpenAI CUA 的 23.4%。
我觉得这里真正值得记住的一句话是:GUI Agent 的上限,不在于 prompt 写得多花,而在于模型能不能在连续交互里越来越会想。
仓库深挖:它现在在往哪儿走
如果你只想找一个桌面自动化 App,这个仓库会显得有点重;但如果你想看一个 GUI Agent 项目怎么从“模型 + 桌面演示”长成“模型 + 产品 + Agent Infra”,它很有代表性。
几个信号很明显。
第一,release 的重心已经上移。截至 2026 年 5 月 10 日,GitHub Releases 里最新正式版是 v0.3.0,发布时间是 2025 年 11 月 4 日,重点已经是 Agent TARS CLI、Event Stream Viewer、runtime settings、多工具流式调用和 AIO sandbox。
第二,桌面线还在,但更务实。release 页面还能看到 v0.2.4 这类桌面版本,更新描述里已经直接提到 remote operator 的 sunset,并把远程体验引向火山引擎版本。
第三,近期 commit 很工程化。我翻到的 2026 年提交里,有补 CSRF 和安全头的,也有修复 tool call JSON 截断问题、未知 provider 默认回退 OpenAI 兼容模式的。这种提交不花哨,但说明团队不是只在做 demo。
最终结论
UI-TARS Desktop 最值得看的地方,不是“AI 会点鼠标”这个表面效果,而是它把一条完整链路接起来了:模型、动作解析、operator、桌面端、SDK,再到更上层的 Agent TARS 基础设施。
如果你真要开始折腾,我给你的建议很直接:
- 第一次别碰远程,先跑本地 Browser Operator。
- 默认按 2025 年 8 月 20 日后官方免费 Remote Operator 已结束 来做方案。
- 先保证单显示器、浏览器已安装、模型可用,再谈效果。
- 设置页里先把
Check Model Availability跑通。 - 跑通桌面端后,下一步直接去看
@ui-tars/sdk,那部分才是这个仓库的长期价值。
我的最终判断是:它已经不只是一个“看起来很酷”的 GUI Agent 项目,而是一套正在从研究原型往通用 Agent 基础设施推进的开源样本。


夜雨聆风