字节开源「UI-TARS」:AI 不再只会聊天,它开始自己动鼠标了!

导读
【导读】字节跳动开源 GUI Agent 模型 UI-TARS，能直接看屏幕截图、操控鼠标键盘完成任务。GitHub 仓库 3.2 万星，论文 benchmark 多项超越 Claude 和 GPT-4o，模型权重、桌面应用、论文全部公开——AI 正在从对话框走进操作系统。

「帮我订张机票」——然后它真的打开浏览器订了

有个画面你可能还没习惯：

你对着电脑说，「帮我在 Priceline 上订 9 月 1 日旧金山到纽约的机票」。

然后 AI 打开了浏览器，找到了航班，填好了信息，一步一步点下去。

你没写一行代码，甚至没碰键盘。

▲ 中文 X 用户 axiaisacat 发帖介绍 UI-TARS 的开源能力和使用场景

这个场景来自 X 用户 axiaisacat 5 月 10 日发的一条帖子。他说字节跳动开源了一个 AI，叫UI-TARS——开源免费，本地运行，能直接操控你的电脑。

他举了几个例子：改 VS Code 的自动保存延迟、查杭州天气然后画成图表、订机票。

听起来像科幻？但这次有论文、有代码、有模型权重，全套开源。

这个项目到底是什么？

先别急着兴奋，拆清楚再说。

UI-TARS 其实是一整套技术栈，分成三层：

第一层：模型。bytedance/UI-TARS 是核心的视觉语言模型仓库，GitHub 上已经拿到1 万+ 星标。模型的论文发在 arXiv 上，标题是《UI-TARS: Pioneering Automated GUI Interaction with Native Agents》。论文摘要开头就定义了它的能力边界：

"UI-TARS is a native GUI agent model that solely perceives the screenshots as input and performs human-like interactions (e.g., keyboard and mouse operations)."

「UI-TARS 是一个原生 GUI agent 模型，只接收屏幕截图作为输入，执行类似人类的键盘和鼠标操作。」

第二层：桌面应用。bytedance/UI-TARS-desktop 是面向用户的桌面端，GitHub 上拿到了3.2 万星标、3200+ fork。官方 README 写得很明确：

"UI-TARS Desktop is a native GUI agent for your local computer."

「UI-TARS Desktop 是针对你本地电脑的原生 GUI agent。」

它提供了本地电脑操作（local computer operator）和浏览器操作（browser operator）两个核心能力，macOS 和 Windows 都支持。

第三层：Agent TARS 工具栈。这是更大的 agent 基础设施，接入了 MCP 工具协议，把 GUI agent 和终端、浏览器、文件系统串起来。不过要注意，The Decoder 的报道特别指出：Agent TARS 偏向浏览器/CLI/文件系统自动化，和 UI-TARS Desktop 的系统级 GUI 操作有区别，别把两个混在一起。

▲ bytedance/UI-TARS-desktop 仓库首页，3.2 万星标，Apache-2.0 开源协议

▲ bytedance/UI-TARS 模型/论文仓库，1 万+ 星标

「看屏幕、动鼠标」背后的技术路线

很多 agent 工具做的事情是：把自然语言翻译成脚本，然后执行。

UI-TARS 走的路线完全不同——它直接看屏幕截图，理解界面上有什么，然后决定下一步点哪里、输入什么。

论文把这个过程拆成了四个关键能力：

增强感知（Enhanced Perception）：模型需要从截图里识别出按钮、输入框、菜单、文字这些 GUI 元素的位置和含义。

统一动作建模（Unified Action Modeling）：不同平台——手机、电脑、浏览器——的点击、滑动、输入、滚动被归入同一套动作空间。模型学的是通用的「怎么操作界面」，而非为每个平台写一套规则。

System-2 推理：面对多步任务（比如订机票这种需要好几个页面跳转的操作），模型会分解任务、设定里程碑、在执行中反思——这借鉴了认知科学里「慢思考」的框架。

反思式在线训练（Reflective Online Traces）：团队在虚拟机里让模型真正执行 GUI 任务，收集交互轨迹，然后筛选、改进，用这些数据迭代训练模型。这解决了 GUI agent 最头疼的问题——高质量训练数据太少。

▲ UI-TARS 论文，2025 年 1 月提交至 arXiv

Benchmark：确实打出了成绩

在论文公布的初版 benchmark 里，UI-TARS 在多个 GUI agent 测试集上拿到了当时的最优成绩：

OSWorld
（跨应用桌面任务）：UI-TARS 得分 24.6（50步）/ 22.7（15步），Claude 对应得分 22.0 / 14.9
AndroidWorld
（安卓操作任务）：UI-TARS 得分 46.6，GPT-4o 得分 34.5

后续的 UI-TARS-1.5 版本成绩进一步提升。模型卡上公布的 OSWorld 数据：

模型	OSWorld
UI-TARS-72B-DPO	24.6
UI-TARS-1.5-7B	27.5
UI-TARS-1.5（完整版）	42.5

7B 小模型就已经超过了初版 72B 的表现——这说明架构和训练方法的优化带来的增益非常可观。

但这里有个重要前提：这些数字都在特定 benchmark 上测出来的，并不意味着 UI-TARS 在所有真实场景中都优于 GPT-4o 或 Claude。Benchmark 和日常使用之间的差距，做过机器学习的人都明白。

开源到什么程度？

这大概是这个项目最让开发者兴奋的部分。

模型权重：Hugging Face 上已经放出了 UI-TARS-1.5-7B，Apache-2.0 协议。采集时有 545 个点赞、超过 2.9 万次下载。

代码仓库：GitHub 上两个核心仓库——UI-TARS（模型）和 UI-TARS-desktop（桌面应用）——都是 Apache-2.0 协议。

论文：arXiv 可直接访问。

▲ UI-TARS-1.5-7B 模型卡，Apache-2.0 协议，基于 qwen2_5_vl 架构

相比之下，Anthropic 的 Computer Use 是商业 API，OpenAI 的 Operator 需要付费会员——字节这次把论文、模型权重、桌面应用一起推出来，在开源力度上确实走得更远。

中文开发者社区也注意到了这一点。X 上有开发者评论说字节在 GUI 理解方向一直有积累，豆包手机也用了类似的底层技术；也有人直接说「开源诚意拉满，但真正考验的是生态和安全性」。

别高兴太早：风险和限制都写在 README 里

官方自己在 UI-TARS 仓库的 Limitations 里列了四个问题，每一条都值得认真对待：

误用风险（Misuse）：模型能执行 GUI 任务，理论上也能处理认证挑战——也就是说，它可能被用来做你不希望 AI 做的事情。权限控制、操作审计、沙箱隔离，在部署前必须到位。

算力需求（Computation）：「开源免费本地跑」听起来很美，但实际运行需要模型推理服务、足够的显存和算力。7B 模型对消费级硬件来说已经有一定门槛，72B 就更不用说了。所谓「免费」只是指代码和权重不收费，运行成本另算。

幻觉问题（Hallucination）：模型可能误描述界面内容、错认 GUI 元素、选择次优操作。想象一下，它把「删除」按钮认成了「确认」——在无人监督的情况下，这类错误的后果可能很严重。

模型规模限制（Model Scale）：当前开源的 7B 版本没有专门针对游戏场景优化。不同版本之间的能力差异需要用户自己评估。

▲ VentureBeat 2025 年 1 月报道：ByteDance's UI-TARS can take over your computer

AI 从对话框走到操作系统：这个方向已经不可逆了

把 UI-TARS 放到更大的背景里看：

OpenAI 有 Operator，Anthropic 有 Computer Use，开源社区有 Browser Use、Midscene……所有人都在押同一个方向——让 AI 从「给你答案」变成「替你操作」。

UI-TARS 在这个赛道里的特殊之处在于：ByteDance 同时公开了论文、模型权重、GitHub 仓库和桌面应用，给了开发者一条完整的从模型到产品的路径。这种「全套开源」的做法，在 GUI agent 赛道里目前还比较少见。

但「能操作电脑」和「能安全可靠地操作电脑」之间，隔着的东西太多了——权限管理、操作确认、日志审计、误操作回滚、数据隐私保护……每一项都是工程上的硬仗。

现在模型已经证明了「看屏幕、动鼠标」在技术上可行。接下来的问题是：谁能把这个能力做到真正可信赖？

这场比赛才刚刚开始。

— END —