
如果你最近还把 AI 理解成“一个更会聊天的机器人”,那可能已经落后半步了。
真正值得关注的变化,不是它回答问题更像人了,而是它开始替你操作电脑、接管跨应用工作流、在需要的时候直接点开屏幕上的 App 干活。
就在 2026 年 3 月 23 日,Anthropic 正式发布了 Claude 的 computer use 功能——简单来说,就是让 AI 像人一样操作电脑:用户可以从手机发起一条指令,Claude 会在你的 Mac 上自动打开应用、操作浏览器、填写表格,直到把任务完成。

这不是模型能力又涨了几分,而是 AI 助手第一次从“会说”走向“会做”。
我觉得,这很可能就是 Agent 真正落地的临界点。
一、这次变化,和过去的 AI 助手不一样
过去两年,大家对 AI 的主要印象还是:
能写文案
能总结会议
能回答问题
能帮你生成代码
这些能力当然有用,但它们大多停留在单轮对话或单点能力增强上。
你问一句,它答一句。你再补一句,它再继续。
本质上,AI 还是一个“等你发号施令”的工具。
但现在出现的新趋势是:AI 不再只待在聊天框里,而是开始具备执行环境。
以 Claude 最新发布的能力为例,它可以:
在手机上接收任务(通过 Dispatch 功能,从 iPhone 远程“派单”给电脑)
在桌面端继续执行(当前支持 Mac 电脑)
跨多个应用完成一整条流程(优先走 Slack、Google Calendar 等连接器——你可以把连接器理解为“插件”,让 AI 能直接调用某个软件的功能)
在没有连接器的情况下,直接识别界面并操作按钮、菜单、输入框(也就是说,即使某个软件没有开放接口,AI 也能像人一样看着屏幕去点击操作)
Anthropic 在官方演示中展示了这样一个场景:用户正赶去开会,来不及坐到电脑前,于是用手机告诉 Claude“把 PPT 导出为 PDF,然后附到会议邀请里”。Claude 在 Mac 上自动打开文件、完成导出、找到日历事件、上传附件——全程无需人工干预。citationcitation
这件事一旦成立,AI 产品的竞争维度就变了。
因为用户真正想买单的,从来不是“这个模型多聪明”,而是:
你到底能不能把事做完。
二、为什么说“跨应用工作流”才是 Agent 的分水岭
很多人低估了这件事的意义。
Box CEO Aaron Levie 在看到 Claude 的 computer use 之后,写了一段很精辟的评论:
Computer use 和即时编写运行代码的能力,是 Agent 能承担越来越多知识工作的终极原语(ultimate primitives)。大多数工作都需要在多个应用之间来回跳转,处理大量数据,Agent 必须能够穿越这些系统,才能真正自动化企业中的实际工作。
翻译成大白话:AI 要真正帮你干活,光会聊天不够,它得能直接操作你的软件、处理你的数据。
这段话精准地指出了问题的核心。在真实工作里,绝大多数任务都不是一个 App 内就能完成的。
举几个最常见的场景:
1)运营工作不是写一段文案,而是一串动作
比如做一篇公众号内容分发,真正的流程可能是:
从飞书里找到选题
打开资料链接做摘要
在文档里整理成分发话术
再把内容同步到不同渠道
最后回填数据
你会发现,真正耗时间的,往往不是“写那几句话”,而是在不同工具之间来回切换。
所以过去很多 AI 工具看起来很强,实际却总差最后一步:
它能帮你生成内容,但没法把这条链路真的跑通。
2)办公自动化的难点,不是推理,而是执行
为什么很多公司早就想做自动化,最后还是卡住?
因为现实世界的软件环境非常复杂:
有的系统开放 API(应用程序接口,可以理解为软件之间对话的通道),有的没有
有的流程结构化,有的全靠人工点击
同一个任务,可能涉及网页、桌面软件、企业 IM、表格、后台系统
只要 AI 不能进入这些环境,它就只能停留在“建议者”。
而一旦它能直接在屏幕上观察、判断、点击、输入,它就从“顾问”变成了“执行者”。
这正是 Claude computer use 的设计思路:先尝试通过连接器(如 Slack、Google 日历等插件)完成任务;如果没有现成的连接器,就退回到“像人一样操作屏幕”——直接控制浏览器、鼠标、键盘来完成工作。citation
这才是质变。
3)用户需要的不是助手,而是“结果代理人”
今天大家嘴上说想要 AI 助手,实际上想要的是:
帮我把报表整理完
帮我把客户信息录完
帮我把酒店订好
帮我把素材整理并发出去
用户并不关心背后用了大模型、工作流、RPA,还是 computer use。
用户只关心一件事:
我交给你以后,是不是真的少做了 80% 的脏活累活。
一旦 AI 能跨应用执行,它才第一次有机会触碰这个价值点。
三、这波 Agent 为什么现在才开始像真的?
Agent 这个词,其实已经被讲滥了。
前两年很多产品都说自己是 Agent,但真正交付给用户的,更多还是:
一个套了工作流的聊天界面
一个带插件的问答机器人
一个需要用户不断确认下一步的半自动工具
它们不是没价值,只是距离“替你干活”还差一大截。
这次不一样,背后至少有三个条件开始同时成熟。而且这次不只是 PPT 里的概念——Claude 的 computer use 已经作为研究预览版向 Claude Pro 和 Max 订阅用户开放,你现在就能在 Mac 电脑上体验它。citation
四、条件一:模型终于具备了“看界面 + 做判断”的能力
过去的模型更擅长处理文本。
但现实世界的电脑操作,不是纯文本环境,而是:
按钮
弹窗
表单
菜单
图片
状态变化
如果模型看不懂界面,就谈不上真正操作软件。
而最近这波多模态能力的进展(所谓“多模态”,就是 AI 不只能理解文字,还能看懂图片、界面、视频),最关键的一点就是:
模型开始能把屏幕当成可理解的工作环境。
它不只是“识别图里有什么”,而是进一步理解:
现在页面处于什么状态
下一步应该点哪里
操作之后是否成功
如果失败应该如何回退
Anthropic 早在 2024 年 10 月就首次预览了 computer use 能力,但那时候更多是给开发者用的技术接口,普通人根本碰不到。到了 2026 年 3 月,这项能力终于被整合进了 Claude Cowork 和 Claude Code(分别是 Claude 的工作助手和编程助手),无需额外配置即可使用。这让“AI 操作电脑”第一次具备了真正的可用性基础。
五、条件二:产品开始把“派单”和“执行”拆开了

另一个非常重要但容易被忽略的变化,是任务分发方式变了。
过去很多 AI 工具的使用方式是:
你坐在电脑前,打开一个聊天框,盯着它一步步操作。
这当然也能叫 Agent,但体验并不革命。
真正更像下一代产品的方式,是:
你在手机上发起任务(Claude 的 Dispatch 功能正是这么做的,你可以理解为“用手机给电脑上的 AI 下任务”)
Agent 在后台接单
桌面端或云端环境继续执行
只在关键节点再回来向你确认(比如 Claude 需要访问一个新的应用时会问你一声,但不会每点一下鼠标都来问你)
这意味着什么?
意味着 AI 不再只是一个“需要你陪着干活的副驾驶”,而开始像一个真正的“任务执行系统”。
正如 Aaron Levie 所说:“Agent 将能访问用户的电脑和资源,或者在自己的独立环境中运行,并整合完成任务所需的工具。这打开了最广泛的 Agent 应用场景。”citation
这也是为什么我会觉得,这一轮变化比单纯模型升级更值得重视。
因为它改变的不是能力点,而是人和 AI 的协作关系。
六、条件三:行业开始从“会回答”转向“能交付”
过去一年,大模型产品竞争的关键词主要是:
更长上下文
更快速度
更低成本
更强推理
更自然表达
这些都重要。
但对大多数普通用户来说,它们有一个共同问题:
感知门槛很高,结果价值不够直接。
用户未必能判断一个模型是不是推理更强,但他一定能判断:
这个任务是不是省了我 30 分钟
这个表格是不是已经替我填好了
这个流程是不是不用我自己再切 5 个窗口
所以接下来 AI 产品竞争,会越来越像下面这三个层级:
第一层:会回答
解决“我知道吗”的问题。
第二层:会协助
解决“我怎么做得更快”的问题。
第三层:会执行
解决“这件事能不能直接交给你”的问题。
真正的分水岭,就在第三层。
七、普通人最该关注的,不是模型参数,而是这三个信号
如果你不是做模型的,而是产品人、创业者、内容创作者,接下来最该盯的不是榜单分数,而是下面三个信号。
信号 1:AI 是否能进入真实软件环境
只要还停留在聊天框里,它的价值就容易被高估。
只有当 AI 能进入浏览器、桌面软件、手机界面、企业后台,它才开始真正接近现实生产力。
Claude 的 computer use 就是一个里程碑式的信号:它不是在沙盒里模拟操作,而是在用户真实的 Mac 桌面上打开应用、点击按钮、填写表单。虽然 Anthropic 也坦承“computer use 相比 Claude 处理代码和文本的能力仍处于早期阶段”,但方向已经确立。citation
信号 2:AI 是否能跨步骤持续执行
能做一步,不算 Agent。
能连续处理十几步,而且中间还能根据状态变化做调整,这才接近“任务代理”。
信号 3:AI 是否只在关键时刻打扰你
一个好的 Agent,不应该每一步都回来问你。
它应该是:
能自己做的自己做
需要授权时再问(Claude 的做法是:用户批准每一个要使用的应用,但不需要批准每一个操作动作)
风险高时再确认
做完后给你结果和日志(在演示中,Claude 完成任务后会主动汇报执行结果)
如果一个 Agent 还需要你全程盯着,它本质上还是半成品。
八、最后一句话:Agent 的关键,不是像人,而是替人完成工作
回头看这轮变化,我最大的感受是:
AI 终于开始离开“演示感”,进入“生产力感”了。
以前很多 Agent 展示视频看着都很惊艳,但你总会隐约觉得:
这东西像 demo,不像工具。
而当它开始:
跨应用
跨设备
跨步骤
在真实界面里执行
只在必要时向人确认
你会突然意识到:
这已经不是聊天机器人又变强了一点,而是 AI 助手第一次真正开始接管工作流了。
这就是我为什么会觉得:
Agent 落地的临界点,可能真的到了。
💬 加入「AI 时代生存指南」读者群
如果这篇文章对你有启发,欢迎加入我们的读者群。
群里在聊什么?
每周分享 AI 工具实战经验(不是理论,是真能用的)
交流职场转型的真实案例和踩坑经验
第一时间获取 AI 行业的关键信息和解读
认识一群正在主动进化的同路人
这个群适合谁?
不焦虑,但保持警觉;
不盲从,但愿意尝试;
不抗拒变化,而是想驾驭变化的人。
如何加入?
可以私信或在公众号后台留言「读者群」三个字,我会第一时间回复你微信号。
夜雨聆风