AI编程工具30天实测对决:Claude Code、Cursor 3.0、Codex,只有一个让我变快了

花了三份订阅费,跑了30天真实项目,这是我的实测结论。

✿ ✿ ✿

三笔扣款

5月1号晚上,我盯着信用卡账单发了会儿呆。

三笔扣款——Claude Max $100、Cursor Pro $20、OpenAI Pro $200——加起来 320 美刀一个月。折合人民币两千三。我老婆路过瞄了一眼屏幕,说了句"你是不是有病"。

三款AI编程工具订阅费用对比

说实话,我也觉得自己有病。但这事儿吧,不亲自跑一遍,光看别人测评我心里没底。正好 XDA 的 Miguel 也干了同样的事——同时订阅三个工具跑了整整30天——他5月28号发了篇详细报告,和我的体感几乎一模一样。

那就聊聊。

✿ ✿ ✿

先说结论

我知道你们急。

Claude Code 赢了。不是小赢,是那种"用回去就觉得别扭"的赢法。Miguel 的原话——"poster child for vibe coding when it works"。我补一句:当它 work 的时候,你会忘记自己在写代码。

Codex 排第二。Cursor 3.0 第三。

但这个排名有个巨大的前提条件,后面会说。先拆开讲。

✿ ✿ ✿

Claude Code：不用哄的那个

我第一次打开 Claude Code 的时候有点懵。

没有花哨的 IDE。没有侧边栏。没有什么"AI Assistant"面板。就一个终端。光标在那儿闪。

然后我敲了一句话:"把这个 Express 项目的认证模块从 Passport 迁移到 better-auth,保留所有现有测试。"

它开始干活了。

不是那种"我来帮你分析一下需求"的干活。是直接读代码、列计划、改文件、跑测试。中间我去倒了杯水,回来发现它已经改了14个文件,测试全绿。

我当时的反应是怀疑。

这不对吧? 认证迁移这种活儿,我上次手动干花了两天半。它15分钟?

Claude Code终端工作流程示意

我仔细看了每个改动。说实话,比我手写的还规整。Opus 4.7 引擎在处理这种"理解整个项目上下文然后做手术"的任务上,确实有种让人不太舒服的强。

Sean Moran 在4月份分享过一个案例——他在单次对话里完成了 12个 commits、一次基础设施迁移、一轮安全审计、外加800行代码重写。我当时看了觉得吹牛。自己用了之后,信了。

但 Claude Code 有个门槛。

它要你写 CLAUDE.md。就是一个纯文本文件,告诉它你的项目规范、代码风格、哪些目录别碰。Hannah Stulberg 在她那篇"30 Claude Code Tips"里说了——CLAUDE.md 是你能做的 ROI 最高的投入。我试下来完全同意。不写这个文件,Claude Code 的表现会掉一个档次,像个聪明但不了解你家规矩的新同事。

写了之后? 它就是你。只是比你快。

还有个狠功能——Shift+Tab 进入 plan mode。只规划,不动手。等你看完计划说"行",它才开始改。这招配合 git worktrees 用,可以同时跑3-5个并行任务。Hannah 管这叫 multiplier effect,我管这叫"分身术"。

Claude Code 不需要你哄它、不需要你手把手、不需要你反复说"不是这样的"。它只需要你告诉它规矩,然后闪开。

✿ ✿ ✿

Codex：后台静默干活的那个

Codex 的设计思路和 Claude Code 完全不同。

它是云端的。你提交一个任务,它在后台跑,跑完了通知你。像投简历——投完就等。

Codex云端工作流与任务队列模式

这个 job queue 模式有个天然的好处: 你可以同时扔10个任务进去,然后去喝咖啡。不用盯着。不用等。它的 plugin 市场特别大,GitHub、Jira、各种 CI 工具都有现成的集成,装上就能用。

适合那种"我知道要干什么,分拆成小块扔给 AI"的工作方式。

问题在哪?

不能中途改方向。

这事儿我是真踩过坑。有一次我让 Codex 重构一个 React 组件的状态管理,从 useState 迁到 Zustand。它跑了大概8分钟,出来一个 PR。我一看——方向对,但它把 store 设计成了一个巨大的 flat object,没有按功能分 slice。

我想说"等等,这个 store 应该按功能分"——但没法说。任务已经完成了。我只能重新提一个新任务,附上更详细的要求。

Miguel 总结得很准: "fire and pray"。射出去就只能祈祷。

还有一点让我头疼——Codex 做前端 UI 的能力明显弱于后端逻辑。我让它做一个 dashboard 的响应式布局,出来的东西在移动端完全崩了。同样的需求给 Claude Code,一次就过。

但如果你的工作流是批量后端任务、自动化测试、代码审查这类不太需要交互式讨论的活儿? Codex 的 throughput 确实高。它能同时跑,你不用坐在那儿看。

✿ ✿ ✿

Cursor 3.0：差点让我喜欢的那个

Cursor 这次改版挺大胆的。

3.0 直接把整个界面推翻重做了,不再是 VS Code 套壳的样子。Composer 2.5 引擎也升级了。第一眼打开——我跟你讲——确实好看。那种"这是一个独立产品"的感觉出来了。

Cursor 3.0全新界面与Composer引擎

简单任务上,Cursor 非常顺手。

改个组件、加个字段、写个 hook。这类活儿它的 autocomplete + inline edit 体验是三个工具里最好的,没争议。它的交互设计比 Claude Code 的纯终端友好太多了,对新手来说门槛低得多。

问题出在复杂任务上。

我有个项目需要同时改数据库 schema、API 层的校验逻辑、前端表单、加上对应的 migration 文件。四层联动。Cursor 在这种"理解多层依赖然后协调修改"的场景下开始抖。

不是不能做,是做出来的东西需要你反复修正。改了 schema 忘了 migration。改了 API 没更新类型定义。单看每一步都合理,合在一起就乱了。

Miguel 的描述和我完全一致: "stumbles on complex multi-layered problems"。

我后来找到了一个 workaround——把复杂任务手动拆成小步骤,一步一步喂给 Cursor,每步都 review 再继续。这样成功率高很多。但这本质上是你在做项目管理,AI 只是执行单步。

也不是没有价值。对于那些"70%时间在写新代码、30%时间在改老代码"的开发者,Cursor 3.0 可能是最舒服的日常工具。它在你旁边,随叫随到。不像 Claude Code 那样需要你先配半小时的 CLAUDE.md。

但如果你期待它自己搞定一个大活儿——算了吧。

✿ ✿ ✿

那个 43% 的数字

XDA 报告里有个数据让我看了很久。

43% of AI-generated changes need debugging in production。

百分之四十三。接近一半。

这意味着什么? 你让 AI 写了10处改动,大概有4处会在上线后出问题。不是"不够优雅"的那种问题,是"生产环境要调试"的那种。

这个数字对三个工具都适用。哪怕是表现最好的 Claude Code,你也不能无脑信任它的输出。

AI生成代码调试率统计对比

Hannah Stulberg 把 verification 列为她30条 tips 的第1条,不是没道理。她的建议是——每次让 AI 改完代码,先让它自己跑测试,再让它解释改了什么,最后你自己过一遍 diff。

我现在的习惯是:

01让 Claude Code 在 plan mode 先列计划
02看完计划再执行
03执行完用 /diff 看改动
04手动跑一遍关键路径的测试

麻烦吗? 麻烦。

但比你在凌晨两点被 PagerDuty 叫起来修 bug 好多了。

✿ ✿ ✿

怎么选

扯远了,回到主题。

你现在就想知道"我该买哪个",对吧?

我的建议非常简单,分三种人:

你是独立开发者或小团队 lead,项目以后端/全栈为主,愿意花30分钟配 CLAUDE.md——上 Claude Code。$100/月的 Max 计划绰绰有余。它会让你觉得自己多了一个不用发工资的高级工程师。

你在大厂,工作流是 Jira ticket → branch → PR → review,任务颗粒度已经很细了——考虑 Codex。它的 job queue 模式和这种流水线天然匹配。但你要接受"不能中途改方向"这个限制。

你刚开始用 AI 编程,或者大部分时间在写新功能(不是维护老项目)——Cursor 3.0 是最温和的入门选择。$20/月,门槛低,体验好。等你觉得它不够用了,再往上走。

不要三个同时买。

我已经替你试过了。没必要。

选工具就像选车——你不会同时买一辆轿车、一辆 SUV、一辆皮卡,然后每天早上纠结今天开哪辆。选一个,开到熟,比什么都强。

三款工具适用场景决策树

✿ ✿ ✿

一些零碎但有用的

写到这里其实可以收了,但有几个小技巧我觉得值得单独说——

Claude Code 的 /effort 命令。输入 /effort low 它就不深度思考了,适合简单改动。/effort high 则会调动完整推理链。大部分时候 medium 就够。别什么都用 high,费 token 不说,有时候想太多反而改错。

Cursor 的 .cursorrules 文件。和 CLAUDE.md 类似,但 Cursor 自己的配置。写好了体验提升明显。

Codex 批量任务的技巧。把大任务拆成5-8个独立的小任务,每个任务一个明确的输出。不要指望它"理解全局"。

最后一个——不管用哪个工具,都不要关掉你的 linter 和测试套件。AI 写的代码和人写的代码一样,需要被检查。Hannah 那篇文章里建议用 hooks 自动跑 lint,我觉得这是最简单也最有效的兜底。

Claude Code实用技巧速查

嗯,就这些了。三十天,两千三,三个工具。最后留下的是 Claude Code。

不是因为它完美,是因为它最接近"我想要的那个东西"——一个不用管、能自己干活、偶尔惊喜你的工具。

其他两个也不差。但我的预算只够养一个。