四个工具,同一个需求,跑出来的结果让我有点意外。
事情是这样的。上周有个朋友在群里问:"Claude Code、Cursor、Trae、Codex,到底选哪个?"群里吵了四十多条,没人能说清楚。
我说我帮你测。
我拿了一个真实需求——写一个Flask的图书管理API,增删改查、分页、搜索,再加一个简单的前端页面。不算复杂,但够覆盖日常开发的大部分场景。
同一段需求,4款工具,挨个跑了一遍。
先说结论:免费的那个,在很多场景下已经不输收费的了。而最贵的那个,确实能打,但你是不是真的需要它,是另一回事。

先看价格
这可能是最反直觉的部分。
Trae,免费。 字节跳动出的,基础版永久免费,没有调用次数限制。我测的时候完全没花一分钱。
Codex,$8/月起。 如果你已经有ChatGPT Plus($20/月),直接用就行,不用额外花钱。桌面版还时不时限免。
Cursor,$20/月起。 Pro套餐是这个价,Ultra要$200。没有免费版。
Claude Code,$20/月起,但7月7日之后变了。 Anthropic前两天刚宣布,Fable 5从订阅里移除,改成积分墙计费。翻译成人话就是:以前你花$20订阅就能用最强模型,以后要单独加钱。
一个有意思的细节:Trae注册用户已经破了600万,Codex的npm周下载量8610万次。用脚投票的人,比看评测的人多得多。

Cursor:最顺手的那个
先说Cursor。
打开IDE,把需求贴进去,它就开始干活了。Tab补全不是那种一行一行往外蹦的,是一次性预测一整块diff,按一下Tab就全改好了。写新代码的时候,这种感觉很爽。
Composer模式可以切换多个模型,我在Claude Opus和GPT-5.5之间来回切。这个能力目前只有Cursor做得比较成熟。
但复杂任务不太行。
我让它做跨文件重构——把几个API端点从函数式改成类封装——它开始出错了。不是大错,是改了这个忘了那个,依赖关系理不清楚。我手动补了两次。
有篇评测拿36道相同编程题盲测,Claude Code赢了67%的题目,每次任务平均少两次人工返工。但在中小任务上,Cursor的响应速度明显更快。
我的感受:Cursor像坐在你旁边的搭档。写新代码、改小bug、做小功能,它非常顺手。但别指望它帮你搞定复杂的架构调整。
Claude Code:最能打的,也最烧钱
Claude Code的体验完全不同。
它不是IDE里的插件,是终端里的一个Agent。你把需求给它,它自己读代码、分析结构、写代码、跑测试、看报错、自己修——整个过程你不需要碰键盘。
我让它做同一个Flask项目,它先花了两分钟读完了整个项目结构,然后开始写。API部分写得很干净,测试也自己跑了。最让我服气的是,它跑测试的时候报了一个错,我还没反应过来,它已经自己读报错信息、定位到代码、改完、重新跑了。
1M的上下文窗口是实打实的。我把整个项目代码都塞进去了,它确实能理解整体结构。
但代价也很大。
我自己的体验是,Claude Code的Pro套餐,15到30分钟就能把token预算烧光。而且7月7日之后,Fable 5从订阅里移除,改成积分墙计费。最贵的Max套餐$200一个月,还不一定够用。
Claude Code像你请了一个远程的高级工程师。能打硬仗,但按时收费。你让他改几行CSS,都觉得不值。
Trae:免费,但不止是"够用"
我是抱着"免费的能有多好"的心态测Trae的。
结果被打脸了。
它的SOLO模式是真的能打——从零搭建一个React+Node全栈项目,4分钟跑通,一次性跑通率92%。我测的Flask项目,它也能完整跑下来。
最大的好处是中文本地化。中文需求理解准确率98%,国内服务器直连不用翻墙。而且它是完整IDE,不是插件,代码补全、文件管理、可视化调试都有。
但复杂的多文件重构,它的深度确实不够。Agent自主开发能力评分9.0,Claude Code是9.8。差的那0.8分,体现在"理解整体架构再改"的时候,它会漏掉一些跨文件的依赖。
说实话,如果我是个人开发者、学生、或者做中小项目,Trae真的够了。CSDN的评测给了它98%的代码生成准确率。
Codex:最高效,但最不透明
Codex是最让我纠结的一个。
它的Token效率是Claude Code的3倍。同一个构建Figma插件的任务,Codex消耗了150万Token,Claude Code烧了620万。如果你按Token付费,这个差距就是钱。
综合评测里,至顶AI实验室给了Codex 91.6分,排第一。SWE-bench Verified上88.7%,微弱领先Claude Code的87.6%。Terminal-Bench上82.7%对69.4%,大幅领先。
但Codex的工作方式不太一样。它是云端沙箱执行——代码被克隆到隔离容器里,Codex在沙箱里跑,不碰你本地环境。安全是安全,但过程不透明。你只能看到最后结果,中间它怎么想的、怎么改的,你不知道。
它更像一个"项目经理"。你派活,它干完,交结果。Claude Code更像"结对编程的同事",你看着它一步步干。
npm下载量上,Codex周下载8610万次,Claude Code跌到了720万。差了12倍。Codex有ChatGPT的流量加持,Token效率也确实在成本上碾压。
我的选择
测了一圈,我没有选"最好的那个"。我选了"组合"。
白天写新代码、改bug、做小功能,用Cursor。 补全顺滑,交互流畅,IDE体验最好。
攻坚复杂重构、排查疑难bug,切Claude Code。 它烧钱,但它能搞定别人搞不定的活。
国内项目、中文需求、零成本场景,用Trae。 免费加中文,真香。
Codex我暂时没加入日常工具链,主要是"看不到过程"让我不太习惯。但如果做批量并行任务或者CI/CD自动化,它会是首选。

最后
测完这一圈,我最大的感受不是"谁更强",而是一个更简单的事:
别被价格和跑分绑架。
Trae免费,但98%的代码生成准确率够用了。Claude Code贵,但复杂重构时它帮你省的时间,可能比那点订阅费值钱得多。
关键是搞清楚你大部分时间在做什么。写新代码多,还是改代码多?独立开发,还是团队协作?需要中文支持,还是纯英文环境?
答案不一样,最好的工具就不一样。
我现在的工具链是:白天Cursor,攻坚Claude Code,国内项目Trae。Codex等什么时候让我看到过程了,再加进来。
选工具这件事,跟选车选房子不太一样。不是越贵越好,是越顺手越好。
去打开一个,写几行代码。手的感觉,比评测数据诚实。
夜雨聆风