本文阅读约5分钟
Claude Code的Computer Use功能,让AI不再只是"写代码",而是能直接操控你的电脑——打开应用、复现bug、点击测试、甚至自动修复。但Token消耗惊人,社区吐槽"用不起"。OpenAI趁机推出codex-plugin-cc"偷家",直接在Claude Code里嵌入Codex模型。这场Agent战争,才刚刚开始。
甩一个指令过去,AI自己打开应用、复现bug、修复、测试——这是4月1日Anthropic为Claude Code上线的新技能。
长久以来,AI辅助编程的瓶颈不在"写代码",而在"验证代码"。代码生成了,你得手动复制到IDE,配置环境,编译运行,排查错误。开发者其实是个"搬运工"。
Computer Use的推出,意味着Claude正式跨越了沙盒边界。它现在能接管屏幕、键盘和鼠标,自己推进整个工程流程。
🎯 能干嘛?几个颠覆性的场景
原生应用构建与验证:以前AI只能输出Swift代码。现在,Claude能直接调用系统编译器,在桌面启动生成的App,甚至模拟鼠标点击每个控件,验证功能是否符合预期。
端到端UI测试:传统自动化测试框架高度依赖DOM结构,前端重构一次,测试脚本就报废。Computer Use靠"视觉"测试——直接看屏幕,模拟真实用户操作。注册、登录、购物车结算,全流程自己走一遍。
CSS布局Bug调试:很多视觉Bug只在特定分辨率下出现。Claude能自动缩放浏览器窗口,精准复现问题,截图分析,修改CSS,刷新验证。这高度还原了资深前端的排障习惯。
GUI工具也能驱动:那些没有CLI接口的封闭软件、设计工具,Claude现在能像人类一样直接操作它们的图形界面,打破API限制。
📊 Claude Cowork vs Claude Code Desktop
Anthropic在桌面端形成双轨制:
Claude Cowork是工作流自动化层,开箱即用但容易中途停滞。Claude Code才是开发者自治层——真正的高权限、高精度、高可靠性。

Claude Cowork vs Claude Code Deskto
⚙️ 底层技术:MCP协议
Computer Use的底层支撑是MCP(Model Context Protocol)——一个开源协议,让AI模型与外部工具、数据库、API建立标准化通信。
通过MCP服务器,Claude Code能读取本地文件,也能深入企业基础设施:连接JIRA读取需求工单,查询PostgreSQL提取真实用户数据,分析Sentry监控日志确认Bug是否修复,甚至根据Slack里分享的Figma设计稿自动更新前端代码。
MCP服务器就是Agent在数字世界的"感官"和"触角"。
💰 成本争议:"用不起"的Token黑洞
功能发布后,Reddit等社区立刻炸锅。核心矛盾直指Token消耗速度——"到底谁用得起啊"。
基于视觉的Agent Loop是极其庞大的多模态资源引擎。验证一个简单表单流程,Claude可能要截取数十张高分辨率屏幕快照,反复输入大模型进行坐标解析、状态比对。原本支撑几天纯文本代码生成的API额度,开启Computer Use后几十分钟就耗尽。

Token消耗
社区普遍认为,目前是"研究预览版",定价逻辑不透明。一旦进入全面商业化,重度用户月账单可能飙升至50-100美元。
开源自救:社区迅速开发桥接工具。通过将Claude Code连接到本地运行的Ollama等开源模型,开发者可以零成本驱动Agent工作流——完全不需要Anthropic API密钥。
🔥 OpenAI的"偷家"战术
同一天(4月1日),OpenAI在GitHub开源了codex-plugin-cc——这个插件直接运行在Claude Code的内部环境里。
在Claude Code终端执行一条加载指令,就能直接唤醒OpenAI最强Codex模型。这被业内戏称为"最阴的偷家行为"。
更精妙的是,它不采用Anthropic主推的MCP协议,而是通过Codex App Server协议本地通信。Codex的推理完全不占用Claude Code的上下文窗口,成为轻量级隐形辅助引擎。
• /codex:review:后台静默代码审查,形成"Claude写+Codex审"的双重保险
• /codex:adversarial-review:对抗性审查,主动攻击代码假设,捕捉架构漏洞
• /codex:rescue:Claude陷入逻辑死循环时,移交Codex子智能体抢救接管
OpenAI把自己定位为Claude工作流中的"第二意见系统"。只要开发者消耗的是Codex API额度,OpenAI不介意交互界面印着谁的Logo。
💡 创始人Boris Cherny的15条实战技巧
4月4日,Claude Code创始人发布了一份进阶指南,揭示Agentic AI的正确解法:
设备穿梭:/rc生成二维码,手机扫码后可远程接管CLI处理权限审批;/teleport将云端对话完整拉取至本地终端。
长效自治:/loop 5m /babysit每5分钟自动拉取代码、处理冲突、执行审查;/schedule创建持久化定时任务,跨越电脑重启。

Boris Cherny实战技巧
并发架构:-w参数为并发任务创建隔离Git Worktree;/batch瞬间唤醒成百上千个Agent实例并行处理。
极致效率:/btw唤醒只读"幽灵智能体"回答疑问,不干扰主任务;--bare跳过所有环境加载,毫秒级启动;/voice语音转架构指令。
🌟 我的判断
Computer Use远未完美。Token账单悬在头顶;GUI交互延迟仍慢于人类肌肉反应;非标准化错误弹窗时,视觉模型仍有误操作风险。
但这些都是跃迁初期的阵痛。当AI工具从"聊天输入框"蜕变为能自己配置编译器、穿梭CLI和GUI寻找Bug根源的"自治工程师",单行代码生成速度就不再是生产力标尺了。
核心结论:人类开发者的职业壁垒正在转移——从"默写语法API",转向"定义系统边界、设计权限沙盒、编排并行工作流"。
📚 往期精选
欢迎留言聊聊 👇
夜雨聆风