AI编程工具横评Cursor vs Codex vs Claude Code

AI干货

AI编程工具横评
Cursor vs Codex vs Claude Code

我用真实项目测了三个月，每个工具的强项和坑位不一样

我用真实项目测了三个月。不是跑Demo，是迁移一个3万行代码的老项目。测了Cursor、Codex和Claude Code三个工具。

结论先说：没有哪个工具是万能的。但不同场景有明确的高下之分。

选工具看场景，不看评测分数

Cursor适合快速原型，Codex适合深度重构，Claude Code适合做架构设计

SPEED

Cursor最快

适合每天写新代码的人

DEPTH

Codex最深

适合理解老代码的上下文

ARCH

Claude最强

适合做架构决策和方案设计

CONTENTS

01 三个月测了三万行代码，结论是？

02 Cursor：为什么新手不建议从这开始

03 Codex：最适合维护老项目的场景

04 Claude Code：架构设计时的真香时刻

05 一张图告诉你怎么选

先说清楚我怎么测的

测试项目：三万行 PHP 老系统，迁到 Python+Flask。包含订单、库存、财务三大模块，没有文档，注释覆盖率不到 5%。这是真实在做的项目，不是临时造的 Demo。

三个工具的版本和配置：

Cursor：0.45 版，开 Composer + Agent 模式，模型用 Claude Sonnet 4。上下文窗口 200K。
Codex：OpenAI Codex CLI 最新版，开深度搜索模式，模型用 GPT-5-Codex。上下文窗口 400K。
Claude Code：Anthropic 官方 CLI，模型用 Claude Opus 4。上下文窗口 1M。

五个测试任务，难度递增：

① 单行补全：在已写好的函数里补下一行（最快，1-3秒）
② 单文件改：改一个文件的某段逻辑（几分钟）
③ 多文件重构：把老 PHP 函数拆成 Python 类（十几分钟到半小时）
④ 读懂老代码：让 AI 解释一段没人看得懂的逻辑（半小时+）
⑤ 架构设计：给一段业务描述，让 AI 输出完整架构方案（一到两小时）

五个评分维度（每项 1-5 星）：

• 速度：从输入 prompt 到拿到能用的结果，要等多久
• 正确率：生成的代码第一次就能跑通的比例
• 读老代码：理解老 PHP 逻辑并解释清楚的能力
• 长上下文：喂整个项目文件进去不丢信息的程度
• 省心度：需要人盯着改几遍才能用，越少越好

接下来三章，每个工具讲一个具体任务跑下来的过程。看完你就能自己判断哪个适合你。

三个月三万行代码，跑完发现一件事

一句话结论：没有谁更好，只有谁更对。三个工具我各跑了超过 50 个任务，跑完之后最大的感受是——网上那些"Cursor 第一/Codex 最强/Claude 最智能"的横评基本都不靠谱，因为脱离了具体场景谈工具就是耍流氓。

一个最反直觉的发现：最贵的模型不一定最适合你。Claude Opus 4 在架构设计任务上确实牛，但用在日常补全上就是大炮打蚊子，速度慢、价格高，效果跟 Sonnet 几乎没差。我中途换过三次模型，最后留下的搭配是：Cursor 用 Sonnet 4、Codex 用 GPT-5-Codex、Claude Code 用 Opus 4 跑架构。

Cursor 实测：补全最快，但会让人变懒

【实测任务 ①单行补全 + ②单文件改】，订单模块迁移时给 Cursor 跑：把 PHP 的 `mysqli_query` 替换成 Python 的 SQLAlchemy ORM 调用。

第一次 prompt："把这段 PHP 改成 Python 的 SQLAlchemy 版本。"

Cursor 给的结果：3 秒出代码，diff 形式直接贴出来，能直接 Apply。第一次跑通了 80%。剩下 20% 是 SQLAlchemy 的 `session.add()` 后忘了 `commit()`，报错才补上。

【坑位】真正的坑不是技术，是习惯。Cursor 默认会把代码改完直接放在你面前，你点 Accept 就完事。连续用两周后我发现一个致命变化：遇到报错我第一反应是等 AI 改，而不是自己看 stack trace。

有一个晚上我盯了半小时的 bug，最后发现是一个拼写错误。如果我先自己看报错，5 秒就能发现。但我的肌肉记忆已经被 Cursor 训练成"等 AI 改"。

【任务 ③多文件重构】让它把订单模块的 12 个文件从 PHP 拆成 Python 的 service+model+route 三层结构。结果：第一次只改了一半就停了，要我手动确认要不要继续。点继续后 8 分钟全部完成，但其中 3 处命名风格跟项目其他模块不一致，得手动调整。

【三个数字】单行补全：3 秒/正确率 95%。单文件改：30 秒-2 分钟/正确率 75%。多文件重构：8-15 分钟/正确率 60%，需要人 review 至少一次。

结论：Cursor 是最顺手的加速器，但会让你变懒。它适合已经会写代码的人，不适合新手。新手用它会觉得"自己很厉害"，但其实是 AI 厉害。

Codex 实测：读老代码最准，挖出一个藏了两年 bug

【实测任务 ④读懂老代码】，财务模块，8000 行 PHP，最老最乱那段。注释覆盖率接近零，变量名是 `$a` `$tmp` `$xxx` 这种。

第一次 prompt："读懂这段 PHP 代码，告诉我它在做什么。"

Codex 的回答（节选）："这段代码在做一个会计期间的结转。但我注意到三个地方有疑点：第 147 行的全局变量 `$balance` 在三个地方被修改，其中第 203 行和第 311 行的修改时机不在同一个事务里。如果这两个调用中间有异常，可能会出现账目不平。这是潜在的 bug。"

【意外发现】我去翻代码日志，这个账目不平的问题在过去两年出现过 7 次，每次都是手动改 `$balance` 的值临时补回去。Codex 一次就找到了。

【任务 ③多文件重构】把财务模块的 PHP 拆成 Python 的 service+model+route 三层。Codex 跑了 25 分钟，期间它自己提出 4 个架构问题让我决策（要不要保留某种特殊的记账逻辑、要不要用 ORM 还是手写 SQL 等），我回答完才继续。生成代码 600 行，正确率 85%，剩下的 15% 是因为我业务的特殊判断它不知道。

【三个数字】读老代码：5-15 分钟/理解准确度 90%。多文件重构：25-40 分钟/正确率 85%，但需要人回答它的问题。单行补全：不支持，Codex CLI 不是一个编辑器插件。

结论：Codex 不是写代码的，是问问题的。它问的问题比它写的代码更值钱。慢是真的慢，但这种慢值得，因为它在帮你思考，不是在帮你打字。

Claude Code 实测：架构设计一次过，赶工期别用

【实测任务 ⑤架构设计】，把老系统的数据库 schema（42 张表）和一段 200 字的业务流程描述喂给 Claude Code，让它输出新系统的整体架构方案。

第一次 prompt："以下是新系统的业务描述和数据库结构，请输出一份架构设计文档。包含：模块划分、接口设计、数据迁移方案、技术选型理由。"

Claude Code 的输出：1M 上下文直接吃下整个 schema。两个小时后，输出了 13 份文档：模块划分、接口契约、数据迁移 SQL、API 文档草稿、技术选型对比表、风险清单、测试策略、部署方案……光技术选型一项就列了 6 个方案的对比（Flask vs FastAPI vs Django、PostgreSQL vs MySQL、Redis vs Memcached 等），每个方案给了优缺点和推荐理由。

【专家验证】我找了一个有十年经验的高级工程师朋友帮我 review。朋友看完后说："基本可以直接用，有两处需要微调——一处是缓存策略选 Redis 没问题但建议加 Cluster；另一处是 API 设计建议加版本号路径（/v1/）。其他地方都没问题。"

【任务 ②单文件改】尝试让 Claude Code 改一个小功能（订单导出 Excel）。结果：跑了 3 分钟，最后生成的代码用了 Pandas 这个重量级库，而老 PHP 版本用的是简单的 fputcsv。技术上能跑，但属于"用高射炮打蚊子"，过度设计。

【三个数字】架构设计：1-2 小时/可直接使用率 90%。读老代码：15-30 分钟/准确度 85%。单文件改：3-5 分钟/正确率 80%，但经常过度设计。

结论：Claude Code 适合做"想清楚"的事，不适合做"快出活"的事。它的思考模式偏慢，每个决策都要想清楚再动手。赶工期的时候用它会急死人。

五个维度打分，一目了然

跑完 50+ 个任务后的横向评分（每项 1-5 星）：

维度	Cursor Sonnet 4	Codex CLI GPT-5-Codex	Claude Code Opus 4
速度	★★★★★	★★☆☆☆	★★☆☆☆
正确率	★★★★☆	★★★★☆	★★★★☆
读老代码	★★★☆☆	★★★★★	★★★★☆
长上下文	★★★☆☆	★★★★☆	★★★★★
省心度	★★★★☆	★★★☆☆	★★★☆☆

一眼总结：

• Cursor：速度之王，IDE 内体验最顺
• Codex：读老代码之神，CLI 派的最爱
• Claude Code：架构设计之王，长上下文无敌

怎么选

日常写新功能、快速迭代 → Cursor。它是最顺手的加速器。打开 IDE 就能用，不用切工具。

接手老项目、需要深度理解代码 → Codex。它问的问题比它写的代码更值钱。我现在每周固定开两个下午跑 Codex 做代码审查。

全新的架构设计、技术选型决策 → Claude Code。它能给你一个可以直接 review 的方案。我在项目启动前会用它跑一遍，省下至少一周的方案设计时间。

【最终搭配】我自己现在的组合是：Cursor 当主力 IDE（80% 时间），碰到读不懂的老代码切 Codex（10%），做新模块设计切 Claude Code（10%）。三个工具我同时订阅，但每个用得最狠的场景不一样。

【给新手的建议】别一上来就三个都买。先用 Cursor 跑一个月，看你的痛点在哪里。如果你的痛点是"AI 写的代码我看不懂"，那说明你需要的是先学会写代码；如果你的痛点是"AI 写的代码我懂但太慢"，那换 Codex 或 Claude Code。

- END -