编码助手大决战:当 AI 开始写代码,谁说了算?
自 2 月 5 日 SemiAnalysis 首次指出 Claude Code 的拐点以来,模型发布的速度已经让人喘不过气。Opus、Mythos、Codex、Gemini、DeepSeek、Kimi、Qwen、GLM、MiniMax、Composer、Muse、Spark……每周至少有一家顶尖公司发布专为编码打造的新模型。
这是一场军备竞赛。但真正的问题是——我们怎么知道谁赢了?
GPT-5.5:OpenAI 回到前沿
先说结论:GPT-5.5 在某些任务上,已经显著优于所有其他模型。
这个判断的意义在于——六个月前,当 Opus 4.5 发布时,OpenAI 的编码模型在世界级水平面前还差着一个身位。那时 Opus 是 SemiAnalysis 团队的日常工具。现在,GPT-5.5 已经重新进入他们的日常工作流。
GPT-5.5 是 OpenAI 基于 “Spud” 预训练的首次公开亮相。值得注意的一个细节:尽管 NVIDIA 和 OpenAI 都精确地声称模型是在 10 万颗 GB200 NVL72 集群上”训练”的,但这里的”训练”仅指后训练(强化学习)。模型从未在那种规模上进行过预训练。
定价方面,GPT-5.5 每百万输入 token 收 5 美元,每百万输出 token 收 30 美元——比 GPT-5.4 贵两倍,比 Opus 4.7 略贵。OpenAI 同时提供 2.5 倍价格的优先级服务。
这里有一个被多数人忽略、但将成为今年核心议题的概念:任务成本,而非 token 成本,才是决定模型定价的北极星指标。
Mythos 在单位 token 上可能比 Opus 贵 5 倍,但因为能用更少的 token 完成同样的任务,实际成本差距被大幅缩小。甚至端到端响应可能更快。这就是 token 效率的魔力——看似更贵,实则更便宜。
Opus 4.7:小步前进,大步争议
Anthropic 的 Opus 4.7 是对 4.6 的即插即用替换。基准测试分数有提升,整体感受良好——但不是一个阶梯性的变化。
真正有意思的是团队内部的分歧:很多工程师第一次愿意牺牲一点质量来换取更快的速度。2.5 倍速度提升让 6 倍价格涨价变得可以接受,因为他们声称这帮助他们进入了”心流状态”。
当模型已经好到日常任务几乎不会出错时,工程师的抱怨从”它搞砸了”变成了”它的风格不对”、”它的架构决策不好”、”它的 token 效率太低”。这是一个重要的转变——模型竞争的主战场,正在从”能不能做”转向”做得好不好”。
Opus 4.7 的几个实质变化:
- 高分辨率图片支持:强化学习训练目标明确包含了用截图做前端样式的能力
- “xhigh” 推理强度:在”high”和”max”之间增加了一个档位
- 思考内容默认隐藏:你仍然为这些 token 付费,但需要主动选择才能看到
- 任务预算(API 内测):给模型一个效率建议。太紧的预算会让模型走捷径或直接拒绝
- 新分词器:更精细的 token 计算,但 token 使用量增加最多 35%——变相涨价 35%
最后一项是最关键的定价变化。
更值得玩味的是 Anthropic 在 4.7 发布一周后发布的故障复盘:三个 bug,存在了数周,影响了几乎所有 Claude Code 用户。而且这些 bug 很可能是由 Claude 自己引入的。
靠剑活着,也靠剑死去。
DeepSeek V4:开源的优雅与局限
DeepSeek V4 来了。没有像 R1 那样让市场崩盘,但仍然是一次出色的工程发布。
两个模型:V4-Pro(1.6T 总参数 / 490 亿活跃)和 V4-Flash(2840 亿总参数 / 130 亿活跃)。与 V3 相比,Pro 是升级,Flash 反而是降级。
核心技术突破在于:从 128k 上下文窗口跃升到 100 万。为此,DeepSeek 开发了三种新技术:
- 压缩稀疏注意力(CSA)
- 重度压缩注意力(HCA)
- 流形约束超连接(mHC)
结果是:在百万 token 上下文中,V4-Pro 只需要 V3.2 的 27% 单 token 推理 FLOPs 和 10% 的 KV 缓存。90% 的 KV 缓存削减——这比 Google 上个月的 TurboQuant 论文影响更大。
开源的诚意一如既往:权重、详细技术报告、更新的 DeepEP、DeepGEMM 和 FlashMLA 库全部公开。讽刺的是,DeepSeek 正在帮助美国开源 AI 维持生命力。
但 SemiAnalysis 的结论很直接:DeepSeek V4 是出色的工程成果,紧随前沿,但不在前沿之上。它将是闭源模型的最低成本替代,但 SemiAnalysis 的工作流不会被它取代。
Codex vs Claude Code:真正的对决
理论上的模型对比是一回事,实际使用体验是另一回事。
SemiAnalysis 的工程师们——此前几乎全员使用 Claude Code——现在开始在 Codex 和 Claude 之间根据任务切换。一位工程师的评价特别有代表性:
“Codex 最近让我欣赏的是,它在改代码之前会拉取大量上下文。不只是结构性的变更,而是真正需要深度’思考’的变更。4.7 经常感觉就是快速 Explore 一下,然后就 #yolo 直接改了。而 Codex 会拉取大量更细粒度的上下文——来自互联网和代码库——然后才定向攻击目标。”
但并非全是好消息。其他工程师抱怨 Codex 在推断你的真实意图方面仍然不如 Claude Code。人类给编码助手的指令天生就是简短而未经深思熟虑的,Codex 往往过于字面地执行。
另一个观察:GPT-5.5 在实际修改代码时显得过于保守。是的,这提升了 token 效率,但代价是正确性。在输出中看到”narrow fix”这个词,现在已经成了需要仔细检查模型工作的信号。
一个具体例子很好地说明了这种差异。SemiAnalysis 让 Opus 4.6 和 GPT-5.5 同时为他们的加速器模型创建新仪表盘,并以现有的 tokenomics 仪表盘为参考。现有仪表盘有一个链接到所有不同标签页的首页。
Opus 4.6 创建了一个外观完全相同的首页。Codex 完全忽略了它。
如果你明确告诉 Codex 要复制首页,它肯定能做到。但它无法自己推断出这个意图。
然而,Codex 在仪表盘中包含的实际数据准确得多。这意味着它对复杂数据结构和关系的推理能力更强。相比之下,Claude 的很多数据是直接编造的,甚至犯了把 NVIDIA GPU 放进 TPU 图表这种错误。
这就是当前格局的缩影:Codex 更”聪明”,更擅长复杂推理和窄范围难题;Claude 更擅长开放式、从零开始的问题。
因此,一些工程师形成了这样的工作流:
- 用 Claude 开始:创建初始计划和脚手架,完成第一版实现
- 切到 Codex:解决具体问题,修复 bug
在这个模式中,有一个关键的容易被忽视的因素:功能和插件正在拖 Codex 的后腿。
快速模式、100 万上下文、远程控制、手机与电脑间切换会话、对话中上传图片和截图——Claude Code 的命令行工具、VSCode 插件、网页应用和手机应用都支持这些。Codex 的对应产品全部不支持。
即使 GPT-5.5 是一个更好的模型,OpenAI 也需要以更快的速度发布功能,才能追赶 Anthropic 并提高采用率。
成本结构的真相
回到 token 效率这个核心议题。
测试框架(harness)对最终的任务成本有巨大影响。提示缓存、输入输出比例、工具使用模式——这些很大程度上由框架决定。
初步分析显示 Codex 可能比 Claude Code 对token的消耗更高效:平均输入输出比为 80:1,而 Claude Code 是 100:1。更高的输入输出比意味着更低的每百万 token 价格,但 Codex 整体消耗的输入 token 更少,最终反而更便宜。
这就是为什么 SemiAnalysis 正在收集价值数百万美元的 Agent AI 轨迹数据——为了真正理解不同框架(Claude Code、Codex、Cursor、OpenCode)如何改变任务成本。
***
编码助手市场即将成为一个万亿级产业。竞争的关键已经不仅是模型的原始能力,而是:
- Token 效率:任务成本而非 token 成本
- 功能生态:谁的工具链更完整
- 意图推断:谁更能理解用户没说出来的需求
- 开放性:开源模型能否持续缩小差距
在这场竞赛中,最有意思的不是谁暂时领先,而是竞争本身正在以多快的速度推进技术前沿。每周一个新模型,每月一个新范式。对开发者来说,这是最好的时代——因为你可以在不同工具之间自由切换,让每个模型做它最擅长的事。
对这些公司来说,这是最残酷的时代——因为领先优势可能只持续几周。
夜雨聆风