编码助手大决战:当 AI 开始写代码,谁说了算?

自 2 月 5 日 SemiAnalysis 首次指出 Claude Code 的拐点以来，模型发布的速度已经让人喘不过气。Opus、Mythos、Codex、Gemini、DeepSeek、Kimi、Qwen、GLM、MiniMax、Composer、Muse、Spark……每周至少有一家顶尖公司发布专为编码打造的新模型。

这是一场军备竞赛。但真正的问题是——我们怎么知道谁赢了？

GPT-5.5：OpenAI 回到前沿

先说结论：GPT-5.5 在某些任务上，已经显著优于所有其他模型。

这个判断的意义在于——六个月前，当 Opus 4.5 发布时，OpenAI 的编码模型在世界级水平面前还差着一个身位。那时 Opus 是 SemiAnalysis 团队的日常工具。现在，GPT-5.5 已经重新进入他们的日常工作流。

GPT-5.5 是 OpenAI 基于 “Spud” 预训练的首次公开亮相。值得注意的一个细节：尽管 NVIDIA 和 OpenAI 都精确地声称模型是在 10 万颗 GB200 NVL72 集群上”训练”的，但这里的”训练”仅指后训练（强化学习）。模型从未在那种规模上进行过预训练。

定价方面，GPT-5.5 每百万输入 token 收 5 美元，每百万输出 token 收 30 美元——比 GPT-5.4 贵两倍，比 Opus 4.7 略贵。OpenAI 同时提供 2.5 倍价格的优先级服务。

这里有一个被多数人忽略、但将成为今年核心议题的概念：任务成本，而非 token 成本，才是决定模型定价的北极星指标。

Mythos 在单位 token 上可能比 Opus 贵 5 倍，但因为能用更少的 token 完成同样的任务，实际成本差距被大幅缩小。甚至端到端响应可能更快。这就是 token 效率的魔力——看似更贵，实则更便宜。

Opus 4.7：小步前进，大步争议

Anthropic 的 Opus 4.7 是对 4.6 的即插即用替换。基准测试分数有提升，整体感受良好——但不是一个阶梯性的变化。

真正有意思的是团队内部的分歧：很多工程师第一次愿意牺牲一点质量来换取更快的速度。2.5 倍速度提升让 6 倍价格涨价变得可以接受，因为他们声称这帮助他们进入了”心流状态”。

当模型已经好到日常任务几乎不会出错时，工程师的抱怨从”它搞砸了”变成了”它的风格不对”、”它的架构决策不好”、”它的 token 效率太低”。这是一个重要的转变——模型竞争的主战场，正在从”能不能做”转向”做得好不好”。

Opus 4.7 的几个实质变化：

高分辨率图片支持：强化学习训练目标明确包含了用截图做前端样式的能力
“xhigh” 推理强度：在”high”和”max”之间增加了一个档位
思考内容默认隐藏：你仍然为这些 token 付费，但需要主动选择才能看到
任务预算（API 内测）：给模型一个效率建议。太紧的预算会让模型走捷径或直接拒绝
新分词器：更精细的 token 计算，但 token 使用量增加最多 35%——变相涨价 35%

最后一项是最关键的定价变化。

更值得玩味的是 Anthropic 在 4.7 发布一周后发布的故障复盘：三个 bug，存在了数周，影响了几乎所有 Claude Code 用户。而且这些 bug 很可能是由 Claude 自己引入的。

靠剑活着，也靠剑死去。

DeepSeek V4：开源的优雅与局限

DeepSeek V4 来了。没有像 R1 那样让市场崩盘，但仍然是一次出色的工程发布。

两个模型：V4-Pro（1.6T 总参数 / 490 亿活跃）和 V4-Flash（2840 亿总参数 / 130 亿活跃）。与 V3 相比，Pro 是升级，Flash 反而是降级。

核心技术突破在于：从 128k 上下文窗口跃升到 100 万。为此，DeepSeek 开发了三种新技术：

压缩稀疏注意力（CSA）
重度压缩注意力（HCA）
流形约束超连接（mHC）

结果是：在百万 token 上下文中，V4-Pro 只需要 V3.2 的 27% 单 token 推理 FLOPs 和 10% 的 KV 缓存。90% 的 KV 缓存削减——这比 Google 上个月的 TurboQuant 论文影响更大。

开源的诚意一如既往：权重、详细技术报告、更新的 DeepEP、DeepGEMM 和 FlashMLA 库全部公开。讽刺的是，DeepSeek 正在帮助美国开源 AI 维持生命力。

但 SemiAnalysis 的结论很直接：DeepSeek V4 是出色的工程成果，紧随前沿，但不在前沿之上。它将是闭源模型的最低成本替代，但 SemiAnalysis 的工作流不会被它取代。

Codex vs Claude Code：真正的对决

理论上的模型对比是一回事，实际使用体验是另一回事。

SemiAnalysis 的工程师们——此前几乎全员使用 Claude Code——现在开始在 Codex 和 Claude 之间根据任务切换。一位工程师的评价特别有代表性：

“Codex 最近让我欣赏的是，它在改代码之前会拉取大量上下文。不只是结构性的变更，而是真正需要深度’思考’的变更。4.7 经常感觉就是快速 Explore 一下，然后就 #yolo 直接改了。而 Codex 会拉取大量更细粒度的上下文——来自互联网和代码库——然后才定向攻击目标。”

但并非全是好消息。其他工程师抱怨 Codex 在推断你的真实意图方面仍然不如 Claude Code。人类给编码助手的指令天生就是简短而未经深思熟虑的，Codex 往往过于字面地执行。

另一个观察：GPT-5.5 在实际修改代码时显得过于保守。是的，这提升了 token 效率，但代价是正确性。在输出中看到”narrow fix”这个词，现在已经成了需要仔细检查模型工作的信号。

一个具体例子很好地说明了这种差异。SemiAnalysis 让 Opus 4.6 和 GPT-5.5 同时为他们的加速器模型创建新仪表盘，并以现有的 tokenomics 仪表盘为参考。现有仪表盘有一个链接到所有不同标签页的首页。

Opus 4.6 创建了一个外观完全相同的首页。Codex 完全忽略了它。

如果你明确告诉 Codex 要复制首页，它肯定能做到。但它无法自己推断出这个意图。

然而，Codex 在仪表盘中包含的实际数据准确得多。这意味着它对复杂数据结构和关系的推理能力更强。相比之下，Claude 的很多数据是直接编造的，甚至犯了把 NVIDIA GPU 放进 TPU 图表这种错误。

这就是当前格局的缩影：Codex 更”聪明”，更擅长复杂推理和窄范围难题；Claude 更擅长开放式、从零开始的问题。

因此，一些工程师形成了这样的工作流：

用 Claude 开始：创建初始计划和脚手架，完成第一版实现
切到 Codex：解决具体问题，修复 bug

在这个模式中，有一个关键的容易被忽视的因素：功能和插件正在拖 Codex 的后腿。

快速模式、100 万上下文、远程控制、手机与电脑间切换会话、对话中上传图片和截图——Claude Code 的命令行工具、VSCode 插件、网页应用和手机应用都支持这些。Codex 的对应产品全部不支持。

即使 GPT-5.5 是一个更好的模型，OpenAI 也需要以更快的速度发布功能，才能追赶 Anthropic 并提高采用率。

成本结构的真相

回到 token 效率这个核心议题。

测试框架（harness）对最终的任务成本有巨大影响。提示缓存、输入输出比例、工具使用模式——这些很大程度上由框架决定。

初步分析显示 Codex 可能比 Claude Code 对token的消耗更高效：平均输入输出比为 80:1，而 Claude Code 是 100:1。更高的输入输出比意味着更低的每百万 token 价格，但 Codex 整体消耗的输入 token 更少，最终反而更便宜。

这就是为什么 SemiAnalysis 正在收集价值数百万美元的 Agent AI 轨迹数据——为了真正理解不同框架（Claude Code、Codex、Cursor、OpenCode）如何改变任务成本。

***

编码助手市场即将成为一个万亿级产业。竞争的关键已经不仅是模型的原始能力，而是：

Token 效率：任务成本而非 token 成本
功能生态：谁的工具链更完整
意图推断：谁更能理解用户没说出来的需求
开放性：开源模型能否持续缩小差距

在这场竞赛中，最有意思的不是谁暂时领先，而是竞争本身正在以多快的速度推进技术前沿。每周一个新模型，每月一个新范式。对开发者来说，这是最好的时代——因为你可以在不同工具之间自由切换，让每个模型做它最擅长的事。

对这些公司来说，这是最残酷的时代——因为领先优势可能只持续几周。