为什么你的AI能操控电脑了?Claude Code这次更新太狠

🚀 AITurbo

Computer Use · AI操控电脑 · Agent工作流
本文阅读约5分钟

Claude Code的Computer Use功能，让AI不再只是"写代码"，而是能直接操控你的电脑——打开应用、复现bug、点击测试、甚至自动修复。但Token消耗惊人，社区吐槽"用不起"。OpenAI趁机推出codex-plugin-cc"偷家"，直接在Claude Code里嵌入Codex模型。这场Agent战争，才刚刚开始。

甩一个指令过去，AI自己打开应用、复现bug、修复、测试——这是4月1日Anthropic为Claude Code上线的新技能。

长久以来，AI辅助编程的瓶颈不在"写代码"，而在"验证代码"。代码生成了，你得手动复制到IDE，配置环境，编译运行，排查错误。开发者其实是个"搬运工"。

Computer Use的推出，意味着Claude正式跨越了沙盒边界。它现在能接管屏幕、键盘和鼠标，自己推进整个工程流程。

🎯 能干嘛？几个颠覆性的场景

原生应用构建与验证：以前AI只能输出Swift代码。现在，Claude能直接调用系统编译器，在桌面启动生成的App，甚至模拟鼠标点击每个控件，验证功能是否符合预期。

端到端UI测试：传统自动化测试框架高度依赖DOM结构，前端重构一次，测试脚本就报废。Computer Use靠"视觉"测试——直接看屏幕，模拟真实用户操作。注册、登录、购物车结算，全流程自己走一遍。

CSS布局Bug调试：很多视觉Bug只在特定分辨率下出现。Claude能自动缩放浏览器窗口，精准复现问题，截图分析，修改CSS，刷新验证。这高度还原了资深前端的排障习惯。

GUI工具也能驱动：那些没有CLI接口的封闭软件、设计工具，Claude现在能像人类一样直接操作它们的图形界面，打破API限制。

📊 Claude Cowork vs Claude Code Desktop

Anthropic在桌面端形成双轨制：

Claude Cowork是工作流自动化层，开箱即用但容易中途停滞。Claude Code才是开发者自治层——真正的高权限、高精度、高可靠性。

Claude Cowork vs Claude Code Deskto

⚙️ 底层技术：MCP协议

Computer Use的底层支撑是MCP（Model Context Protocol）——一个开源协议，让AI模型与外部工具、数据库、API建立标准化通信。

通过MCP服务器，Claude Code能读取本地文件，也能深入企业基础设施：连接JIRA读取需求工单，查询PostgreSQL提取真实用户数据，分析Sentry监控日志确认Bug是否修复，甚至根据Slack里分享的Figma设计稿自动更新前端代码。

MCP服务器就是Agent在数字世界的"感官"和"触角"。

💰 成本争议："用不起"的Token黑洞

功能发布后，Reddit等社区立刻炸锅。核心矛盾直指Token消耗速度——"到底谁用得起啊"。

基于视觉的Agent Loop是极其庞大的多模态资源引擎。验证一个简单表单流程，Claude可能要截取数十张高分辨率屏幕快照，反复输入大模型进行坐标解析、状态比对。原本支撑几天纯文本代码生成的API额度，开启Computer Use后几十分钟就耗尽。

Token消耗

社区普遍认为，目前是"研究预览版"，定价逻辑不透明。一旦进入全面商业化，重度用户月账单可能飙升至50-100美元。

开源自救：社区迅速开发桥接工具。通过将Claude Code连接到本地运行的Ollama等开源模型，开发者可以零成本驱动Agent工作流——完全不需要Anthropic API密钥。

🔥 OpenAI的"偷家"战术

同一天（4月1日），OpenAI在GitHub开源了codex-plugin-cc——这个插件直接运行在Claude Code的内部环境里。

在Claude Code终端执行一条加载指令，就能直接唤醒OpenAI最强Codex模型。这被业内戏称为"最阴的偷家行为"。

更精妙的是，它不采用Anthropic主推的MCP协议，而是通过Codex App Server协议本地通信。Codex的推理完全不占用Claude Code的上下文窗口，成为轻量级隐形辅助引擎。

• /codex:review：后台静默代码审查，形成"Claude写+Codex审"的双重保险

• /codex:adversarial-review：对抗性审查，主动攻击代码假设，捕捉架构漏洞

• /codex:rescue：Claude陷入逻辑死循环时，移交Codex子智能体抢救接管

OpenAI把自己定位为Claude工作流中的"第二意见系统"。只要开发者消耗的是Codex API额度，OpenAI不介意交互界面印着谁的Logo。

💡 创始人Boris Cherny的15条实战技巧

4月4日，Claude Code创始人发布了一份进阶指南，揭示Agentic AI的正确解法：

设备穿梭：/rc生成二维码，手机扫码后可远程接管CLI处理权限审批；/teleport将云端对话完整拉取至本地终端。

长效自治：/loop 5m /babysit每5分钟自动拉取代码、处理冲突、执行审查；/schedule创建持久化定时任务，跨越电脑重启。

Boris Cherny实战技巧

并发架构：-w参数为并发任务创建隔离Git Worktree；/batch瞬间唤醒成百上千个Agent实例并行处理。

极致效率：/btw唤醒只读"幽灵智能体"回答疑问，不干扰主任务；--bare跳过所有环境加载，毫秒级启动；/voice语音转架构指令。

🌟 我的判断

Computer Use远未完美。Token账单悬在头顶；GUI交互延迟仍慢于人类肌肉反应；非标准化错误弹窗时，视觉模型仍有误操作风险。

但这些都是跃迁初期的阵痛。当AI工具从"聊天输入框"蜕变为能自己配置编译器、穿梭CLI和GUI寻找Bug根源的"自治工程师"，单行代码生成速度就不再是生产力标尺了。

核心结论：人类开发者的职业壁垒正在转移——从"默写语法API"，转向"定义系统边界、设计权限沙盒、编排并行工作流"。

📚 往期精选

• 测了Gemma4，我有点震惊：单卡119 tokens每秒，这个开源模型比云端还快

• Claude Code源码泄露，我看到的是大厂打工人的精神状态

工具是好工具，但真正能把它用好的有几个？
欢迎留言聊聊 👇

点「在看」让更多人看到 👀

👍

👀

在看

📤