4月17日凌晨,OpenAI给Codex装上了一只"虚拟手"——它现在能操作你的鼠标、点击你的按钮、浏览你的屏幕。同一天,Anthropic的Claude被实锤"降智",旗舰模型从排行榜第2跌到第10。而就在一周前,字节跳动的Seeduplex让AI学会了"边听边说"。
三件事看起来毫无关联。但如果你把镜头拉远,会发现它们拼出了同一张图:AI正从"你问它答"的工具,变成"它自己干"的Agent。而这张图的背面,写着一行小字——算力不够用了。
Codex长了手,但手是要花钱的
先说Codex这次更新。官方的定位已经不再是"编程助手",而是"Codex for (almost) everything"——几乎所有事都能干。
六个新能力里,最值得关注的是Computer Use。Codex获得了一个"虚拟光标",可以在你授权后操作macOS上的任何应用:打开Xcode、运行测试、在浏览器里点来点去。你可以一边写代码,一边让Codex在后台帮你调试UI,互不干扰。
另一个杀手级功能是记忆。Codex现在能记住你的技术栈、项目背景、工作习惯。你关掉它明天再打开,它还记得昨天聊到哪了。配合新增的90多个插件(JIRA、GitLab、Slack、Notion),Codex已经不再是那个你敲两行注释它补两行代码的工具了——它更像一个坐你旁边、能操作电脑、记得你偏好的"赛博同事"。
但想想这背后的算力消耗。补全一行代码只需要一次推理。操作电脑呢?它要持续截屏、理解界面、规划动作、执行点击、验证结果——每一步都是推理调用,而且需要多轮循环。一个"帮我测试这个iOS应用"的任务,背后可能是数百次模型调用。
OpenAI没有公布Agent模式的定价,但你可以算一笔账:如果Codex从"偶尔用"变成"一直开着",每个用户每天的Token消耗可能翻10倍不止。
Claude偷偷省了一笔,然后翻车了
这就是Claude"降智门"的背景。
4月初,Anthropic发布了Claude Opus 4.6,更新说明写着"推理能力增强,响应速度提升"。不到一周,Reddit上开始涌现大量投诉帖:Claude变笨了。
AMD的AI集团高级总监Stella Laurenzo做了最硬核的实锤。她翻了近7000份会话记录,用BridgeBench跑了一轮测试:Opus的准确率从83.3%暴跌到68.3%,排名从第2掉到第10。
Anthropic的回应很有意思:他们没有否认性能变化,而是说这是"调整了默认推理强度"——也就是通过降低模型思考的深度来节省算力。翻译成大白话:我们没让模型变笨,我们只是让它少想一点。
但用户看到的只是结果:同样的价格,更差的输出。有重度用户算过,实际使用成本涨了2倍——因为需要反复追问才能得到原本一次就能给出的答案。
这不是某个厂商的道德问题。这是Agent时代的结构性矛盾:当用户期望AI"更聪明、更主动、更持久",而模型推理的算力成本并没有等比例下降时,厂商只有两条路——涨价,或者偷偷省。
Anthropic选了后者,然后被发现了。
Seeduplex:边听边说的算力黑洞
再来看字节跳动的Seeduplex。
4月9日发布的这个"原生全双工语音大模型",解决了一个看似简单实则极难的问题:让AI能同时听和说。
传统语音助手(包括上一代豆包)都是半双工——你说完它再说,中间有一个明显的"停顿"。这在电话场景里特别违和,因为人类打电话时是边听边说的:打断、插嘴、抢话才是常态。
Seeduplex做到了真正的全双工。它能一边听你说话一边组织回复,抢话率降低了40%,误打断率降低60%。在咖啡厅等嘈杂环境里,它能持续"倾听"背景音,只在需要回应时才说话。效果确实惊艳——但代价是什么?
答案是:持续的推理。半双工模式下,模型只需要在你说话时推理一次。全双工模式下,模型需要一直推理——持续处理音频输入、判断什么时候该说话、说什么。这就像从"打字聊天"变成了"视频通话",带宽消耗差了一个数量级。
字节没提成本,但可以想象:当上亿用户同时开着全双工语音聊天,GPU集群的压力是什么量级。
Agent的沉默成本
把三件事放在一起看,一个被忽略的问题浮出水面。
AI行业这几年一直在讲"AI会越来越便宜"——单次推理成本确实在降。但这忽略了一个变量:使用模式正在从"偶尔调用"变成"持续运行"。
Codex从"补全代码"变成"24小时在线的虚拟同事" Seeduplex从"你说一句我回一句"变成"永远在听的电话伙伴" Claude从"你问我答"变成被期望"自主规划和执行多步任务"
单次调用便宜了10倍,但调用频率涨了100倍。总成本不是降了,是涨了。
这就是Agent时代的"沉默成本"——用户看不见,厂商扛不住。于是Anthropic选择在默认参数上做手脚,OpenAI可能在企业版按需付费里藏了溢价逻辑,字节则干脆不公布单次交互成本。
更深层的问题是:当AI从工具变成Agent,用户对"稳定性"和"一致性"的期望会指数级上升。一个代码补全工具偶尔给出错误建议,你改改就好。但一个能操作你电脑的Agent如果"偶尔"理解错你的意图,后果可能是删错文件、发错邮件、提交错误代码。
这时候"降智"就不再是性能问题,而是安全问题。
写在最后
Codex长了手、Seeduplex长了耳朵、Claude长了心眼——AI Agent时代确实来了,但它来得比我们想象的更贵、更脆弱。
行业里有一个还没有人公开讨论的问题:谁该为Agent的沉默成本买单? 是用户接受涨价,是厂商在参数上做手脚,还是整个行业需要一种全新的计费模式?
在回答这个问题之前,我建议每个把AI Agent当成"数字同事"的人记住一件事:你的同事可能正在偷偷省力气,而你目前还没有办法发现。
这不是悲观。这是你在拥抱Agent之前,需要先算清楚的一笔账。
夜雨聆风