AI干货
AI编程工具横评
Cursor vs Codex vs Claude Code
我用真实项目测了三个月,每个工具的强项和坑位不一样
我用真实项目测了三个月。不是跑Demo,是迁移一个3万行代码的老项目。测了Cursor、Codex和Claude Code三个工具。
结论先说:没有哪个工具是万能的。但不同场景有明确的高下之分。

选工具看场景,不看评测分数
Cursor适合快速原型,Codex适合深度重构,Claude Code适合做架构设计
SPEED
Cursor最快
适合每天写新代码的人
DEPTH
Codex最深
适合理解老代码的上下文
ARCH
Claude最强
适合做架构决策和方案设计
CONTENTS
01 三个月测了三万行代码,结论是?
02 Cursor:为什么新手不建议从这开始
03 Codex:最适合维护老项目的场景
04 Claude Code:架构设计时的真香时刻
05 一张图告诉你怎么选
00
先说清楚我怎么测的
测试项目:三万行 PHP 老系统,迁到 Python+Flask。包含订单、库存、财务三大模块,没有文档,注释覆盖率不到 5%。这是真实在做的项目,不是临时造的 Demo。
三个工具的版本和配置:
Cursor:0.45 版,开 Composer + Agent 模式,模型用 Claude Sonnet 4。上下文窗口 200K。
Codex:OpenAI Codex CLI 最新版,开深度搜索模式,模型用 GPT-5-Codex。上下文窗口 400K。
Claude Code:Anthropic 官方 CLI,模型用 Claude Opus 4。上下文窗口 1M。
五个测试任务,难度递增:
① 单行补全:在已写好的函数里补下一行(最快,1-3秒)
② 单文件改:改一个文件的某段逻辑(几分钟)
③ 多文件重构:把老 PHP 函数拆成 Python 类(十几分钟到半小时)
④ 读懂老代码:让 AI 解释一段没人看得懂的逻辑(半小时+)
⑤ 架构设计:给一段业务描述,让 AI 输出完整架构方案(一到两小时)
五个评分维度(每项 1-5 星):
• 速度:从输入 prompt 到拿到能用的结果,要等多久
• 正确率:生成的代码第一次就能跑通的比例
• 读老代码:理解老 PHP 逻辑并解释清楚的能力
• 长上下文:喂整个项目文件进去不丢信息的程度
• 省心度:需要人盯着改几遍才能用,越少越好
接下来三章,每个工具讲一个具体任务跑下来的过程。看完你就能自己判断哪个适合你。
01
三个月三万行代码,跑完发现一件事
一句话结论:没有谁更好,只有谁更对。三个工具我各跑了超过 50 个任务,跑完之后最大的感受是——网上那些"Cursor 第一/Codex 最强/Claude 最智能"的横评基本都不靠谱,因为脱离了具体场景谈工具就是耍流氓。
一个最反直觉的发现:最贵的模型不一定最适合你。Claude Opus 4 在架构设计任务上确实牛,但用在日常补全上就是大炮打蚊子,速度慢、价格高,效果跟 Sonnet 几乎没差。我中途换过三次模型,最后留下的搭配是:Cursor 用 Sonnet 4、Codex 用 GPT-5-Codex、Claude Code 用 Opus 4 跑架构。
02
Cursor 实测:补全最快,但会让人变懒
【实测任务 ①单行补全 + ②单文件改】,订单模块迁移时给 Cursor 跑:把 PHP 的 `mysqli_query` 替换成 Python 的 SQLAlchemy ORM 调用。
第一次 prompt:"把这段 PHP 改成 Python 的 SQLAlchemy 版本。"
Cursor 给的结果:3 秒出代码,diff 形式直接贴出来,能直接 Apply。第一次跑通了 80%。剩下 20% 是 SQLAlchemy 的 `session.add()` 后忘了 `commit()`,报错才补上。
【坑位】真正的坑不是技术,是习惯。Cursor 默认会把代码改完直接放在你面前,你点 Accept 就完事。连续用两周后我发现一个致命变化:遇到报错我第一反应是等 AI 改,而不是自己看 stack trace。
有一个晚上我盯了半小时的 bug,最后发现是一个拼写错误。如果我先自己看报错,5 秒就能发现。但我的肌肉记忆已经被 Cursor 训练成"等 AI 改"。
【任务 ③多文件重构】让它把订单模块的 12 个文件从 PHP 拆成 Python 的 service+model+route 三层结构。结果:第一次只改了一半就停了,要我手动确认要不要继续。点继续后 8 分钟全部完成,但其中 3 处命名风格跟项目其他模块不一致,得手动调整。
【三个数字】单行补全:3 秒/正确率 95%。单文件改:30 秒-2 分钟/正确率 75%。多文件重构:8-15 分钟/正确率 60%,需要人 review 至少一次。
结论:Cursor 是最顺手的加速器,但会让你变懒。它适合已经会写代码的人,不适合新手。新手用它会觉得"自己很厉害",但其实是 AI 厉害。
03
Codex 实测:读老代码最准,挖出一个藏了两年 bug
【实测任务 ④读懂老代码】,财务模块,8000 行 PHP,最老最乱那段。注释覆盖率接近零,变量名是 `$a` `$tmp` `$xxx` 这种。
第一次 prompt:"读懂这段 PHP 代码,告诉我它在做什么。"
Codex 的回答(节选):"这段代码在做一个会计期间的结转。但我注意到三个地方有疑点:第 147 行的全局变量 `$balance` 在三个地方被修改,其中第 203 行和第 311 行的修改时机不在同一个事务里。如果这两个调用中间有异常,可能会出现账目不平。这是潜在的 bug。"
【意外发现】我去翻代码日志,这个账目不平的问题在过去两年出现过 7 次,每次都是手动改 `$balance` 的值临时补回去。Codex 一次就找到了。
【任务 ③多文件重构】把财务模块的 PHP 拆成 Python 的 service+model+route 三层。Codex 跑了 25 分钟,期间它自己提出 4 个架构问题让我决策(要不要保留某种特殊的记账逻辑、要不要用 ORM 还是手写 SQL 等),我回答完才继续。生成代码 600 行,正确率 85%,剩下的 15% 是因为我业务的特殊判断它不知道。
【三个数字】读老代码:5-15 分钟/理解准确度 90%。多文件重构:25-40 分钟/正确率 85%,但需要人回答它的问题。单行补全:不支持,Codex CLI 不是一个编辑器插件。
结论:Codex 不是写代码的,是问问题的。它问的问题比它写的代码更值钱。慢是真的慢,但这种慢值得,因为它在帮你思考,不是在帮你打字。
04
Claude Code 实测:架构设计一次过,赶工期别用
【实测任务 ⑤架构设计】,把老系统的数据库 schema(42 张表)和一段 200 字的业务流程描述喂给 Claude Code,让它输出新系统的整体架构方案。
第一次 prompt:"以下是新系统的业务描述和数据库结构,请输出一份架构设计文档。包含:模块划分、接口设计、数据迁移方案、技术选型理由。"
Claude Code 的输出:1M 上下文直接吃下整个 schema。两个小时后,输出了 13 份文档:模块划分、接口契约、数据迁移 SQL、API 文档草稿、技术选型对比表、风险清单、测试策略、部署方案……光技术选型一项就列了 6 个方案的对比(Flask vs FastAPI vs Django、PostgreSQL vs MySQL、Redis vs Memcached 等),每个方案给了优缺点和推荐理由。
【专家验证】我找了一个有十年经验的高级工程师朋友帮我 review。朋友看完后说:"基本可以直接用,有两处需要微调——一处是缓存策略选 Redis 没问题但建议加 Cluster;另一处是 API 设计建议加版本号路径(/v1/)。其他地方都没问题。"
【任务 ②单文件改】尝试让 Claude Code 改一个小功能(订单导出 Excel)。结果:跑了 3 分钟,最后生成的代码用了 Pandas 这个重量级库,而老 PHP 版本用的是简单的 fputcsv。技术上能跑,但属于"用高射炮打蚊子",过度设计。
【三个数字】架构设计:1-2 小时/可直接使用率 90%。读老代码:15-30 分钟/准确度 85%。单文件改:3-5 分钟/正确率 80%,但经常过度设计。
结论:Claude Code 适合做"想清楚"的事,不适合做"快出活"的事。它的思考模式偏慢,每个决策都要想清楚再动手。赶工期的时候用它会急死人。
05
五个维度打分,一目了然
跑完 50+ 个任务后的横向评分(每项 1-5 星):
Sonnet 4 | GPT-5-Codex | Opus 4 | |
|---|---|---|---|
一眼总结:
• Cursor:速度之王,IDE 内体验最顺
• Codex:读老代码之神,CLI 派的最爱
• Claude Code:架构设计之王,长上下文无敌
06
怎么选
日常写新功能、快速迭代 → Cursor。它是最顺手的加速器。打开 IDE 就能用,不用切工具。
接手老项目、需要深度理解代码 → Codex。它问的问题比它写的代码更值钱。我现在每周固定开两个下午跑 Codex 做代码审查。
全新的架构设计、技术选型决策 → Claude Code。它能给你一个可以直接 review 的方案。我在项目启动前会用它跑一遍,省下至少一周的方案设计时间。
【最终搭配】我自己现在的组合是:Cursor 当主力 IDE(80% 时间),碰到读不懂的老代码切 Codex(10%),做新模块设计切 Claude Code(10%)。三个工具我同时订阅,但每个用得最狠的场景不一样。
【给新手的建议】别一上来就三个都买。先用 Cursor 跑一个月,看你的痛点在哪里。如果你的痛点是"AI 写的代码我看不懂",那说明你需要的是先学会写代码;如果你的痛点是"AI 写的代码我懂但太慢",那换 Codex 或 Claude Code。
- END -
夜雨聆风