事情是这样的。
最近这几个月,AI编程CLI工具简直像雨后春笋一样冒出来了。Claude Code、Gemini CLI、Codex CLI,三款终端类AI编程代理,各有各的粉丝,各有各的拥趸。
我身边的朋友分成了三派。Claude Code派说代码质量最高,Gemini CLI派说免费就够了,Codex CLI派说沙盒安全才是王道。每天在群里吵,吵得我头都大了。
我自己呢,其实也纠结了好一阵子。三款工具我都装了,都用了一段时间,踩了不少坑,也发现了一些让人惊喜的地方。今天我就把我这一周实测下来的真实感受,掰开揉碎跟大家聊聊。
坦率的讲,这不是一篇谁赢谁输的横评,因为答案不是「选A弃B」这么简单。不同场景下,最优选择完全不一样。我更想帮大家解决一个问题,你到底该装哪个,或者该先装哪个。
回到为什么CLI工具突然这么火这块。
你可能觉得,AI编程不是有Cursor和Copilot了吗,为什么还要搞命令行工具???
这事我也琢磨了一阵。说到底,2026年的编程场景变了。
以前我们写代码,更多是改改UI、调调接口、写写业务逻辑,这种场景用Cursor的实时补全和对话体验确实很爽,编辑器里直接出代码,改完一键保存,很流畅。
但今年的开发任务变了。大量的复杂重构、跨几十个文件的大改动、CI流水线自动修复、长程编程任务,这些事情用编辑器里的对话模式来做,就有点像用自行车跑长途,不是不行,是累。
CLI工具的核心优势是代理模式。你给它一个任务描述,它自己去理解代码库、规划执行步骤、修改文件、运行测试、检查结果,整个流程它自己跑,你只需要在关键节点审批就行。
就像你从手动开车变成了自动驾驶。不是方向盘没了,而是大部分路程车自己跑,你只在需要的时候介入一下。
这个比喻我觉得挺贴切的。
那三款工具到底有什么区别?
我先把最核心的差异讲清楚,这样你心里有个框架。
Claude Code,Anthropic出品,高自主度终端Agent。它的核心卖点是代码质量。SWE-bench Verified得分80.9%,排名第一,首次通过率95%。什么意思呢,就是它拿到一个任务,95%的情况下一轮就能搞定,不需要你反复纠正。这点真的很强,我实测下来也确实如此,一个Express.js项目的重构任务,它1小时17分钟就完成了,而且一次通过。
Gemini CLI,Google出品,开源终端Agent。核心卖点是免费。完全开源,代码全在GitHub上,而且有免费额度,每天1000次免费请求,上下文窗口1M,超长。对于想零成本试水AI编程的人来说,这简直是福音。
Codex CLI,OpenAI出品,轻量终端Agent。核心卖点是安全和效率。内核级沙盒运行,Token消耗效率最优,以它为基准1倍的话,Gemini CLI大约2倍,Claude Code大约4倍。而且有个很骚的功能,截图转代码。你把设计稿截图丢给它,它直接给你写出前端代码,这玩意对前端开发者来说太实用了。
接下来我逐一聊聊每款工具的实测体验。
1、Gemini CLI,零成本起步的最佳选择
我知道很多人听到「免费」就会犹豫,觉得免费的肯定不如付费的。这个顾虑我非常理解。
我自己一开始也是这种感觉。免费的东西嘛,能用就行,别指望太好。
但Gemini CLI的情况有点不一样。它不是那种阉割版免费工具,Google是把整个项目开源了,代码全在GitHub上,你随时可以看、可以改、可以提issue。它的免费额度也很实在,每天1000次请求,1M上下文窗口,对于大多数日常编程任务完全够用。
我实测的感受是这样的。
大仓库探索这个场景,Gemini CLI真的很舒服。1M上下文窗口意味着你可以把一个巨大的代码库喂给它,它能在里面找到关联的文件、理解调用链路、定位问题所在。这种任务用Claude Code来做当然也行,但每多一轮上下文交互,Token消耗就往上翻,成本很快就不友好了。
而且Gemini CLI有个内置的Google搜索能力,叫Search grounding。你遇到一个不认识的API或者报错信息,它可以直接联网去搜最新的文档和解决方案,不需要你自己先Google一遍再复制粘贴给它。这个功能在排查问题时特别好用,省了不少来回折腾的时间。
但我也得说说它的不足。。。
代码质量这块,Gemini CLI跟Claude Code比确实有差距。复杂重构任务下,它的输出经常需要你二次修改,不像Claude Code那样一轮就能给你一个很干净的方案。SWE-bench得分大约65%,比Claude Code的80.9%低了不少。
稳定性方面,因为是开源项目,迭代节奏很快,有时候一个版本刚跑通,下一个版本就有小变化。对于追求稳定的企业级场景,这确实是个风险点。
不过话说回来,如果你是第一次接触AI编程CLI工具,想先试试看这玩意到底有没有用,Gemini CLI就是最好的起点。零成本、零风险、上手即用。哪怕后来你换了别的工具,这段时间的体验也不会白费,因为你已经理解了AI编程代理的工作逻辑了。
磨平一些入门门槛。
2、Claude Code,复杂任务的终极武器
如果你已经用了一段时间AI编程工具,觉得「免费版确实有用,但有些任务它搞不定」,那Claude Code就是你要升级到的那个。
我自己也不知道这个判断是不是对所有人都适用,但就我这一周的使用体验来说,Claude Code最让我震撼的一点,是它的需求理解能力。
不是那种泛泛的「我大概知道你想做什么」,而是它会主动追问。你给它一个模糊的任务描述,比如「把这个Express.js项目从CommonJS改成ESM」,它不会急着动手,先会问你几个问题,「项目里有没有Circular依赖?有没有动态require?配置文件要不要一起改?」这种追问非常关键,因为它帮你想到了你可能忽略的坑。
实测下来,那个Express.js项目重构任务,Claude Code用了1小时17分钟,一次通过。同样的任务Gemini CLI用了2小时04分钟,Codex CLI用了1小时41分钟,也都一次通过了,但Claude Code的输出质量明显更高,代码风格更一致,改动更干净。
还有一个让我印象深刻的场景。有一次我让Claude Code处理一个涉及30多个文件的接口重构,它先自己规划了执行步骤,然后逐个文件修改,每个修改后跑一遍测试确认没有破坏其他功能,最后给我一个完整的改动摘要。整个过程中我只需要在开始时审批一下它的计划,后面就全自动了。
这种感觉太爽了。
不过Claude Code也有一个很明显的缺点,贵。
Token消耗大约是Codex CLI的4倍。虽然首次通过率高,不需要多轮修补,综合成本未必比其他工具高多少,但对于预算有限的个人开发者来说,这确实是个门槛。$20/月的起步定价,重度使用时消耗会更快。
我的建议是这样的。如果你经常处理复杂任务、多文件重构、需要高代码质量输出的场景,Claude Code值得投资。它的效率提升不是省几分钟那种,是省几小时甚至几天那种。但如果你的日常任务比较简单,偶尔才遇到复杂场景,那先用Gemini CLI就够了,复杂任务再单独用Claude Code处理。
省钱和省时间,有时候就是一个取舍的问题。
3、Codex CLI,CI/CD和安全场景的首选
Codex CLI是三款工具里最「稳」的一个。
它有个内核级沙盒,所有代码执行都在隔离环境中进行,不会影响你的系统。这个设计对于CI/CD流水线特别重要。你让AI代理在流水线上自动修复bug、跑测试,安全性是第一优先级,Codex CLI的沙盒机制让这件事变得很可靠。
还有一个很骚的功能,截图转代码。
前端开发者应该对这个特别感兴趣。你把一张设计稿截图丢给Codex CLI,它直接给你生成前端代码。不是那种粗糙的骨架代码,是带样式、带交互的完整页面代码。我自己试了几次,准确率还挺高,简单页面基本能一次搞定,复杂页面可能需要微调,但总体效率比手写快太多了。
这尼玛就是给前端人开挂了。
Token效率方面,Codex CLI是最优的。Rust重写后的执行效率很高,同样的任务它消耗的Token最少。对于对成本敏感的团队来说,这是个很重要的优势。
但Codex CLI也有局限。它的生态绑定OpenAI,你没法灵活切换其他模型。而且它的需求理解不如Claude Code那么主动,有时候你给的描述不够清晰,它就直接动手了,结果可能不是你想要的。这点在复杂任务上会比较明显。
我的推荐是,如果你的工作场景涉及CI/CD自动化、前端设计稿转代码、或者对Token消耗特别敏感,Codex CLI应该是你的主力工具。其他场景下Claude Code或Gemini CLI可能更合适。
回到选型这块,不同场景答案不一样,这是正常的。
说到这里,可能有人开始犯愁了,三款都好,到底怎么选???
其实不用纠结。
2026年最主流的做法是组合使用。
我自己目前的组合是这样的。
日常大仓库探索和轻量任务,用Gemini CLI。免费、快速、够用。复杂重构和高质量输出任务,用Claude Code。虽然贵,但省下来的时间远超成本。CI/CD流水线和截图转代码,用Codex CLI。安全和效率最优。
有个小提醒,同一时间只让一个工具拥有自动写盘权限。不然两个工具同时改同一个文件,那场面你就想象吧,跟两个人同时在一块白板上画画一样,最后谁也看不懂。
组合使用的逻辑其实很清晰,你不需要三款都精通,你只需要知道每个场景该叫谁出场就行。就像一个项目经理,不需要每个岗位都能干,只需要知道什么时候该找谁。
还有一个很多人关心的问题。
AI编程工具会不会替代程序员?
我也想过这个问题,说实话我也不确定。但我的感受是,不会。至少短期内不会。
这些CLI工具更像是一个超级强的实习生。你给它明确的任务,它干得又快又好,但如果没有你来定义任务方向、审批执行结果、处理那些模糊的边界情况,它就不知道该干什么了。
编程这件事,从来就不只是写代码。理解需求、设计架构、做技术决策、在多个方案之间权衡取舍,这些事情AI目前还做不了。它能在你划定的范围内高效执行,但那个范围本身,还是你来定的。
就像自动驾驶一样,车可以自己在高速公路上跑,但出发前你要告诉它去哪,遇到修路它要问你怎么绕,到达后你要决定停哪个车位。方向盘还是在你手里的,只不过大部分路程你不用自己踩油门了。
聊到这里,我想把话题再拉远一点。
你可能注意到了,这三款CLI工具都支持一个叫SKILL.md的东西。这是Claude Code发起的一个技能描述标准,2026年已经成为行业通用的格式了,Gemini CLI和Codex CLI都兼容。
什么意思呢,就是你写一个SKILL.md文件描述某个工作流或者知识体系,这三款工具都能读它、用它。1234+个通用技能的社区库,任何一个工具都能接入。
这件事的意义比单款工具的功能升级更大。
它意味着AI编程代理正在从各自封闭的生态系统走向共享能力的基础设施。就像当年USB接口统一了外设标准一样,SKILL.md统一了AI编程工具的技能描述标准,让整个行业向前走了一大步。
当年Linux统一了服务器操作系统,HTTP统一了网页传输协议,USB统一了硬件接口。每一次标准化都催生了一波新的繁荣。SKILL.md会不会成为AI编程领域的下一个USB?我不知道,但我觉得可能性不小。
也许十年后回看,2026年这些CLI工具的竞争,不过是黎明前的闹腾。真正重要的是那个共同的标准,那个让所有工具可以共享能力的协议。
大时代啊,朋友们。
好了,聊了这么多,该收尾了。
如果你看完这篇还在纠结选哪个,我给你一个最简单的行动方案。
今天就装Gemini CLI。零成本、零风险、上手即用。你用一周下来,自然就知道AI编程代理到底对你的工作有没有帮助。如果有,再根据你的具体需求决定要不要加Claude Code或Codex CLI。
别想太多,先动手。
之前群里吵的那些事,其实都不是事。真正的事是你今天打开终端,敲下第一行命令,亲眼看看这玩意到底能帮你做什么。
磨平一些信息差。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~ 谢谢你看我的文章,我们,下次再见。
夜雨聆风