AI开始操作你的电脑,然后偷偷变笨了

4月17日凌晨，OpenAI给Codex装上了一只"虚拟手"——它现在能操作你的鼠标、点击你的按钮、浏览你的屏幕。同一天，Anthropic的Claude被实锤"降智"，旗舰模型从排行榜第2跌到第10。而就在一周前，字节跳动的Seeduplex让AI学会了"边听边说"。

三件事看起来毫无关联。但如果你把镜头拉远，会发现它们拼出了同一张图：AI正从"你问它答"的工具，变成"它自己干"的Agent。而这张图的背面，写着一行小字——算力不够用了。

Codex长了手，但手是要花钱的

先说Codex这次更新。官方的定位已经不再是"编程助手"，而是"Codex for (almost) everything"——几乎所有事都能干。

六个新能力里，最值得关注的是Computer Use。Codex获得了一个"虚拟光标"，可以在你授权后操作macOS上的任何应用：打开Xcode、运行测试、在浏览器里点来点去。你可以一边写代码，一边让Codex在后台帮你调试UI，互不干扰。

另一个杀手级功能是记忆。Codex现在能记住你的技术栈、项目背景、工作习惯。你关掉它明天再打开，它还记得昨天聊到哪了。配合新增的90多个插件（JIRA、GitLab、Slack、Notion），Codex已经不再是那个你敲两行注释它补两行代码的工具了——它更像一个坐你旁边、能操作电脑、记得你偏好的"赛博同事"。

但想想这背后的算力消耗。补全一行代码只需要一次推理。操作电脑呢？它要持续截屏、理解界面、规划动作、执行点击、验证结果——每一步都是推理调用，而且需要多轮循环。一个"帮我测试这个iOS应用"的任务，背后可能是数百次模型调用。

OpenAI没有公布Agent模式的定价，但你可以算一笔账：如果Codex从"偶尔用"变成"一直开着"，每个用户每天的Token消耗可能翻10倍不止。

Claude偷偷省了一笔，然后翻车了

这就是Claude"降智门"的背景。

4月初，Anthropic发布了Claude Opus 4.6，更新说明写着"推理能力增强，响应速度提升"。不到一周，Reddit上开始涌现大量投诉帖：Claude变笨了。

AMD的AI集团高级总监Stella Laurenzo做了最硬核的实锤。她翻了近7000份会话记录，用BridgeBench跑了一轮测试：Opus的准确率从83.3%暴跌到68.3%，排名从第2掉到第10。

Anthropic的回应很有意思：他们没有否认性能变化，而是说这是"调整了默认推理强度"——也就是通过降低模型思考的深度来节省算力。翻译成大白话：我们没让模型变笨，我们只是让它少想一点。

但用户看到的只是结果：同样的价格，更差的输出。有重度用户算过，实际使用成本涨了2倍——因为需要反复追问才能得到原本一次就能给出的答案。

这不是某个厂商的道德问题。这是Agent时代的结构性矛盾：当用户期望AI"更聪明、更主动、更持久"，而模型推理的算力成本并没有等比例下降时，厂商只有两条路——涨价，或者偷偷省。

Anthropic选了后者，然后被发现了。

Seeduplex：边听边说的算力黑洞

再来看字节跳动的Seeduplex。

4月9日发布的这个"原生全双工语音大模型"，解决了一个看似简单实则极难的问题：让AI能同时听和说。

传统语音助手（包括上一代豆包）都是半双工——你说完它再说，中间有一个明显的"停顿"。这在电话场景里特别违和，因为人类打电话时是边听边说的：打断、插嘴、抢话才是常态。

Seeduplex做到了真正的全双工。它能一边听你说话一边组织回复，抢话率降低了40%，误打断率降低60%。在咖啡厅等嘈杂环境里，它能持续"倾听"背景音，只在需要回应时才说话。效果确实惊艳——但代价是什么？

答案是：持续的推理。半双工模式下，模型只需要在你说话时推理一次。全双工模式下，模型需要一直推理——持续处理音频输入、判断什么时候该说话、说什么。这就像从"打字聊天"变成了"视频通话"，带宽消耗差了一个数量级。

字节没提成本，但可以想象：当上亿用户同时开着全双工语音聊天，GPU集群的压力是什么量级。

Agent的沉默成本

把三件事放在一起看，一个被忽略的问题浮出水面。

AI行业这几年一直在讲"AI会越来越便宜"——单次推理成本确实在降。但这忽略了一个变量：使用模式正在从"偶尔调用"变成"持续运行"。

Codex从"补全代码"变成"24小时在线的虚拟同事"
Seeduplex从"你说一句我回一句"变成"永远在听的电话伙伴"
Claude从"你问我答"变成被期望"自主规划和执行多步任务"

单次调用便宜了10倍，但调用频率涨了100倍。总成本不是降了，是涨了。

这就是Agent时代的"沉默成本"——用户看不见，厂商扛不住。于是Anthropic选择在默认参数上做手脚，OpenAI可能在企业版按需付费里藏了溢价逻辑，字节则干脆不公布单次交互成本。

更深层的问题是：当AI从工具变成Agent，用户对"稳定性"和"一致性"的期望会指数级上升。一个代码补全工具偶尔给出错误建议，你改改就好。但一个能操作你电脑的Agent如果"偶尔"理解错你的意图，后果可能是删错文件、发错邮件、提交错误代码。

这时候"降智"就不再是性能问题，而是安全问题。

写在最后

Codex长了手、Seeduplex长了耳朵、Claude长了心眼——AI Agent时代确实来了，但它来得比我们想象的更贵、更脆弱。

行业里有一个还没有人公开讨论的问题：谁该为Agent的沉默成本买单？ 是用户接受涨价，是厂商在参数上做手脚，还是整个行业需要一种全新的计费模式？

在回答这个问题之前，我建议每个把AI Agent当成"数字同事"的人记住一件事：你的同事可能正在偷偷省力气，而你目前还没有办法发现。

这不是悲观。这是你在拥抱Agent之前，需要先算清楚的一笔账。