近期,Anthropic正式推出Claude Computer Use生产版本。这不是"帮你写代码",也不是"帮你搜索"——而是让Claude真正坐在你的电脑前,替你打开App、填写表格、导出文件、发送邮件。OSWorld基准测试中,Claude Sonnet 4.6以72.5%的得分与人类专家(72.4%)齐平,这个门槛,AI终于跨过了。
🎯 它到底能做什么?
用一句话说:你告诉Claude要做什么,它自己去你电脑上完成。
Anthropic在发布视频中演示了这样一个场景:用户正在开会途中,突然想起需要把一份PPT导出为PDF并附加到会议邀请里。用户掏出手机,对Claude说一句话——Claude在办公室的Mac上自动完成了这一切。
具体能力包括:
打开任意桌面应用程序 在浏览器中导航、填写表单、提交数据 操作Excel/Google Sheets(录入数据、写公式、生成图表) 处理多步骤复合任务(网上查资料→整理到文档→发邮件) 遇到弹窗/异常会自主处理或向你请示
🔧 底层如何运转:截图→分析→执行的循环
Claude Computer Use的工作原理并不神秘,但极其优雅:
截图捕获:Claude定时对你的屏幕截图,获得当前状态的视觉快照
视觉分析:多模态模型分析截图内容——识别按钮、读取文字、理解当前操作上下文
决策执行:基于目标任务和当前屏幕状态,Claude决定下一步:点击、输入、滚动还是切换窗口
验证继续:执行完后再截图确认效果,然后继续下一步,直到任务完成或需要人工介入
与传统自动化工具(Selenium、AutoHotkey)的本质区别在于:Claude不需要预设坐标或CSS选择器。它像人一样"看"屏幕——网站改版了能适应,突然弹出对话框知道怎么处理,CAPTCHA会暂停让你来。

📱 Dispatch:让你的手机变成电脑的遥控器
配套的Dispatch功能是整个发布中最出乎意料的亮点。
流程极简:手机扫描QR码绑定你的Mac,连接建立后,你在手机上给Claude发任务,Claude在Mac上执行,手机实时收到进度更新。
测试表明,跨城市、4G网络条件下,从发出指令到Claude开始操作的延迟几乎感知不到。这意味着你的Mac真正变成了一个"永远在线的智能助理"——你在任何地方都能调用它。

📊 性能数据:够用了吗?
Anthropic选用的核心基准是OSWorld——一个测试AI在真实桌面环境中完成任务能力的权威评测:
| 72.5% | ||
| 94% |
OSWorld 72.5% vs 人类专家 72.4%,这不是营销语言,是真实的性能拐点。在专业领域(Pace Insurance保险流程测试)达到94%,意味着特定垂直场景的任务几乎可以完全托管。
🆚 与竞品对比:$20 vs $200,全桌面 vs 仅浏览器
最直接的对比:OpenAI Operator $200/月只能控制浏览器,Claude $20/月可以控制整台电脑。差距不是一点半点。
🛡️ 安全边界:哪些地方Claude不会去
Anthropic对Computer Use设置了默认封锁区域,这些限制无法被用户覆盖:
证券/期货交易平台 加密货币交易所 网银及金融账户 成人内容网站
这是理性的早期策略。AI误操作金融账户的潜在损失不可控,先守住边界、建立信任,再逐步开放是更稳妥的路径。
⚠️ 现阶段局限
仅支持macOS,Windows版"即将上线"但无具体日期
需要付费订阅(Pro $20/月起),免费版无法使用 截图循环的方式比原生API集成略慢,复杂任务耗时明显 非标准UI或高度定制化界面偶尔会出现误操作 依赖网络,无离线能力
💡 值得关注的技术背景
这次Computer Use的正式落地,是Anthropic长期在agentic AI方向积累的成果。今年3月Anthropic还发布了首份Agentic安全事故报告,总结了企业生产部署中最常见的三类故障:
Prompt注入攻击(外部内容欺骗AI执行意外操作) 任务范围蔓延(Agent超出授权边界自主决策) 对工具输出的过度置信(不加验证地信任工具返回结果)
这份报告连同架构建议,已成为业界企业Agent系统设计的重要参考文档。
🔮 总结
参考文献
夜雨聆风