你以为AI只能聊天?字节放出的这个工具,已经开始替你操作电脑了

一个开源的多模态Agent栈，让AI直接看懂屏幕、点击鼠标、搞定重复劳动

你花在重复操作上的时间，其实是在透支自己的竞争力

两年我做自媒体矩阵的时候，每天要手动登录多个账号、截图、对比数据、调整参数。团队3个人，每天光操作电脑就4小时。后来朋友扔给我一个东西说“你试试这个”，我用了半小时把最烦的一个流程——批量截图并标注——完全自动化了。当时有种被降维打击的感觉：你以为AI还停留在回答问题，其实它已经能替你去“看”屏幕并“操作”界面了。

但真正让我写出这篇东西的，是后来我在付费社群里观察到的现象：90%的人死在了“手动重复操作”上。他们不是没有好工具，而是习惯性地用手去点，用眼去盯，用脑去记。每天8小时工作里，至少3小时是机械的点击和复制。你不是没花时间，你只是把时间花在了不会产生复利的地方。

为什么你明明很努力，效率却上不去

很多人卡住不是因为懒，而是因为信息路径错了。

你第一反应是去学Python、学RPA，然后发现写脚本卡在定位元素、调试XPath、处理弹窗异常。学了一周，自动化了一个登录，又发现软件更新了布局，脚本崩了。这不是没努力，是努力方式有问题——工具不会替你做判断，它只会放大你的判断。如果你的判断是“我应该学会所有底层技术”，那你正在用一个锤子去砍树。

真正的顺序应该是：先认知任务，再选择Agent，最后交给AI执行。而不是反过来：先找工具，再逼自己学会它，再痛苦地用。

字节跳动的这个项目，补的是哪一块短板

UI-TARS-desktop，以及它的母项目Agent TARS，是字节跳动在GitHub开源的多模态AI Agent栈。它解决的核心问题是：让AI像人一样看懂屏幕并用光标操作。

传统的自动化需要你写代码定位元素，或者依赖DOM。而这个项目直接用视觉语言模型（VLM）识别屏幕上的按钮、输入框、文本，然后模拟鼠标和键盘操作。你不用教它图片标签是什么，它自己就能看明白。

它有两条产品线：

Agent TARS
：一个CLI/Web UI的通用Agent，适合在终端或浏览器里执行复杂任务，还能通过MCP协议调用真实世界的工具（比如查天气、订酒店）。
UI-TARS Desktop
：一个原生桌面应用，直接操控你的电脑或远程电脑。

两个核心：本地操作（你的电脑）和远程操作（另一台电脑或浏览器）。都是免费的。

它真正厉害的地方，不是功能而是思路

从README展示的能力来看，我提炼了几个真正值得关注的亮点：

1. 自然语言直接下指令，完全零代码

你告诉它：“帮我在VS Code里打开自动保存，并把延迟设为500毫秒。”它就能自动打开VS Code，找到设置，修改参数，然后确认。这不是写脚本，这是直接对话。

2. 远程计算机操作，打通了物理隔离

v0.2.0版本引入了远程操作功能：你可以控制另一台电脑的屏幕和浏览器，不需要对方装任何软件。这解决了运维、测试、远程协助里最头疼的问题——以前用TeamViewer还要对方同意，现在AI替你点。

3. 跨平台且本地处理隐私

支持Windows、macOS、浏览器，且数据处理都在本地。对于敏感数据的工作场景，这是一个硬门槛。

4. 基于MCP的工具生态

Agent TARS内置MCP集成，可以连接真实世界的API和工具。比如订酒店、画图表、查天气。这不是一个孤立的电脑操作器，而是一个能调用外部信息的Agent。

推荐用法：想清楚三个场景再用

别一上来就想“我要自动化整个工作流”。建议从高频、低风险、单步骤的任务开始：

软件配置自动化
：调整开发工具的设置、安装插件、切换主题。
浏览器重复操作
：批量检查GitHub issue状态、对比不同页面数据、截图保存。
本地文件管理
：根据内容重命名文件、移动归类、生成摘要。

等熟悉了Agent的反馈节奏，再升级到多步任务，比如“帮我在booking.com上找离机场最近的Ritz-Carlton，预算5000美元，并整理交通指南”。

它只适合两类人，你是其中之一吗

适合的人：

每天在电脑前重复“看-点-复制-粘贴”超过2小时的人（运营、测试、运维、数据分析师）
需要远程控制多台电脑但不信任传统VNC/RDP的人（远程办公、IT支持）
想要自动化但又不想学代码的“工具洞察者”

不适合的人：

对AI操作安全极度敏感、不允许任何误操作的人（生产环境核心系统）
只希望用API做纯后端自动化的人（这时候用Playwright或Selenium更稳）
手里任务完全结构化、没有视觉元素差异的人（比如纯文本数据处理）

多数人的问题根本不是工具不够多

工具不会替你做判断，它只会放大你的判断。如果你连自己每天在重复哪个操作都不知道，下载一百个AI工具也是囤积癖。多数人缺的不是资源，是“把资源变成结果”的执行序列。

UI-TARS-desktop是一个极好的执行层工具，但它无法替你回答“我该自动化什么”。这个问题的答案，需要你花15分钟记录自己的每一天：哪些动作是机械的？哪些是意图明确的？哪些是只要看一眼就能操作的？一旦你找到那个点，Agent Tars变成你的第二个鼠标，而你只需要动嘴。

想太多了？先从一个小任务开始

别想着一步登天。选一个5分钟内能做完的小操作——比如“帮我把这个文件夹里所有名字带‘final’的文件加上日期后缀”——用自然语言告诉Agent Tars。看着它自己移动光标、打开文件夹、重命名。这个感觉会告诉你，有些路你走错了，而有些路其实已经铺好了。

收藏这篇文章，顺手转发给那个还在手动截图的朋友。他也许缺的正是这句话：你不是不够聪明，你只是还没学会把“看、点、复制”这三件事交给AI。

（如果你已经在用其他自动化工具，也不妨对比一下UI-TARS的思路——有时候输在工具上，有时候输在认知上。而认知这个东西，是唯一能产生复利的资本。）

持续分享优质 AI 开源项目与源码实战，一个人摸索很容易踩坑。

对 Agent、智能体感兴趣的朋友，无论新手还是大佬，都欢迎一起交流。私信「时之」拉你进群。

想拿到仓库地址，直接动手试试？

GITHUB: https://github.com/bytedance/UI-TARS-desktop