如果你已经在用AI写代码,绕不开两个名字:Claude Code,和OpenAI Codex。
前一个我写过不少。这篇专门讲后一个——Codex。

为什么值得专门写一篇长的?因为到了2026年,Codex已经不是「OpenAI顺手做的一个小工具」了。它和Claude Code是公认的两强。今年初一份500多人的开发者调查里,65% 的人日常编程更愿意用Codex——一个很现实的原因是,它的token效率大约是Claude Code的4倍,同样的活,它烧的额度少。
但我观察下来,大多数人用Codex用得很浅:装上、问一句、看它跑、跑歪了骂两句。
这篇就把「用好Codex」拆成6个阶段,从最浅的「它是什么」一直讲到「团队怎么用」。每个阶段都给你能直接抄走的命令和配置。建议收藏着,按阶段往下走。
阶段0 · 先搞清楚Codex到底是什么
很多人第一个误区,是把Codex当成「ChatGPT里那个会写代码的功能」。不是。
2026年的Codex,是一套东西,不是一个:
· Codex CLI:跑在你终端里的命令行agent,本文主要讲它
· Codex IDE插件:装进VS Code这类编辑器里
· Codex App:独立的桌面应用
· 云端Codex(Web):任务丢到OpenAI云上跑
关键的一点:这四个共享同一套配置。你在一个地方配好,其它三个都认。所以下面讲的配置,是一次配、四处用。
那它干活的方式是什么?一个词:自主agent。你给它一个任务,它会在一个沙箱环境里,自己读文件、自己写代码、自己跑命令、自己跑测试,一轮一轮迭代,直到任务完成,再把结果整个交给你看。
这就引出它和Claude Code最大的气质差别——这句话你先记住,阶段5会详谈:
Claude Code像一个边干边跟你商量的协作者;Codex像一个「别打扰我,干完给你看」的执行型工程师。
模型方面,2026年Codex里默认推荐的是GPT-5.5,OpenAI当前的旗舰模型。除此之外还有一系列带 -Codex后缀的调优版本(比如GPT-5.2-Codex、GPT-5.3-Codex),专门为编程场景调过。云端任务和代码审查,默认会用 -Codex系列。
阶段1 · 装上,跑通第一条命令
不墨迹,直接上手。
装。两条命令二选一:
或者,用Homebrew:
启动 + 登录。终端里敲codex,第一次会让你登录——用你的ChatGPT账号登就行,不用单独搞API key(如果你是Plus / Pro会员,额度直接复用)。
第一个任务怎么给。进去之后,别上来就让它「帮我做个网站」。新手最容易栽的就是这一步——任务给得太空,它只能瞎猜。正确的第一个任务,长这样:
用三句话告诉我这个项目是干什么的、怎么跑起来。
先别改任何代码。
让它先「读和说」,你借这个机会观察它怎么探索一个项目。这比直接让它写代码安全得多。
选模型。启动时就能指定:
已经在会话里了,想换模型,直接敲斜杠命令 /model。
还有一个模式你迟早用得上——非交互模式。当你想把Codex写进脚本里、让它自动跑,用codex exec:
加上 --json,它会把过程以JSON吐出来,方便你的脚本接管。新版本(0.125起)连推理token的用量都会报给你。
到这里,你已经会「用」Codex了。但「用」和「用好」之间,隔着下面四个阶段。
阶段2 · 搞懂「审批」和「沙箱」——Codex安全感的来源
这一段是整篇最该认真看的。90% 的人对Codex的不安全感,都来自没搞懂这两个旋钮。
Codex能不能乱来,由两个独立的维度决定:
维度一:沙箱模式(sandbox_mode)——它能动什么。三档:
· read-only:只能读,不能写。连 /tmp都不让写。
· workspace-write:能读、能在你的工作目录里改文件、能跑本地命令。这是日常默认。
· danger-full-access:去掉文件系统和网络的所有边界。它想干啥干啥。
维度二:审批策略(approval_policy)——它什么时候要问你。三档:
· untrusted:基本啥都要问。
· on-request:它自己判断,碰到敏感操作(要联网、要改工作区外的文件)才停下来问你。
· never:永远不问。
这两个维度是乘起来的。你常听到的 --full-auto,其实就是一个快捷组合:
注意:--full-auto默认不开网络。这是个很贴心的设计。会话里想临时切成只读,敲 /permissions。
我给你一套拿走就能用的配法:
· 日常写代码:workspace-write + on-request。它能干活,碰到危险动作会停下来问。性价比最高。
· 读代码、做规划:切read-only。
· danger-full-access:除非你非常清楚自己在干嘛(比如在一次性容器里),否则别碰。
一句忠告:别一上来就 --full-auto全速跑。先在小任务上看它的脾气,摸清楚了再放权。
阶段3 · 配置 + AGENTS.md——让Codex真正「听你的」
阶段1、2解决了「能用」「安全」。这一阶段解决「听话」。
先说一个反直觉的事实:很多人觉得「Codex干得不好」,真相是「配置没配对」。工作目录不对、没有写权限、模型默认值不对、缺了某个工具——这些设置问题,最后都表现成「这AI怎么这么笨」。
配置文件在这里: ~/.codex/config.toml。一个能直接抄的最小示例:
model = "gpt-5.5"
approval_policy = "on-request"
sandbox_mode = "workspace-write"
[mcp_servers.my-tool]
command = "npx"
args = ["-y", "@example/mcp-server"]
CLI、IDE、App都读这一份,配一次就够。
接下来是真正的关键招式:AGENTS.md。
AGENTS.md是一个放在你项目里的文件,是你给Codex的「持久说明书」。它不像聊天里的指令——聊完就忘——AGENTS.md是每次都生效的。
里面写什么?编码规范、代码怎么组织、用什么框架、有什么坑。但最该写、最多人漏写的一项,是测试命令。
为什么这一项最关键?因为Codex被专门训练过一个行为:完成任务之前,它会自动去跑AGENTS.md里写明的测试命令。换句话说——你用AGENTS.md这个文件,定义了「什么叫做完」。
一份能抄的AGENTS.md骨架:
## 技术栈
- TypeScript + React,包管理用 pnpm
## 代码规范
- 禁止 any,禁止 console.log 进提交
## 怎么验证(Codex 完成任务前会自动跑下面的命令)
- 单元测试:pnpm test
- 类型检查:pnpm typecheck
- 上面两个都绿,这个任务才算做完
写了这一段,Codex交活之前会自己跑pnpm test和pnpm typecheck,不绿它自己会接着改。你等于给它装了个「自检」。这一招,是「用好Codex」和「用Codex」之间最大的那道分水岭。
阶段4 · 进阶工作流——TDD、子代理、MCP、Skills
配置配好了,该上真正的工作流了。这一阶段四个工具,由近及远。
一、TDD闭环——给自主agent装的最强缰绳。
Codex是自主跑的,它最大的风险是「跑歪了你还不知道」。TDD是目前最好的解法:
1. 先让Codex写测试,别写实现
2. 跑一遍,确认这些测试全部失败(证明测试有效)
3. 把这批失败的测试commit一下,存个档
4. 再让Codex去写实现,要求很明确:实现到所有测试通过,并且不许改测试本身
测试就是那根缰绳。它自己怎么折腾都行,只要最后所有测试绿,且测试没被它偷偷改过——这活就可信。
二、子代理(subagent)——给主线程减负。
一个复杂任务,别全堆给主agent。把那些边界清楚的活——「探索一下这个模块」「把测试跑一遍」「triage这堆报错」——丢给子代理去做。主agent只盯核心问题。这跟你管一个团队是一个道理:主程序员不该自己去翻日志。
三、MCP——让Codex连上你的外部系统。
MCP(模型上下文协议)是让Codex连数据库、连内部系统、连各种外部工具的标准接口。配置就在 ~/.codex/config.toml里加 [mcp_servers.xxx] 段(阶段3的示例里有)。偷懒办法:直接在会话里跟Codex说「帮我装一个连PostgreSQL的MCP server」,它能自己搞定。
四、Skills——把重复的活沉淀下来。
Codex在2025年底加了Skills。一个skill就是一个SKILL.md文件,放在 ~/.agents/skills/ 目录下。当你的任务匹配上某个skill,Codex会自动把它加载进来。它分两种放法:
· 个人skill:放 $HOME/.agents/skills,只有你自己用
· 团队skill:直接check进项目仓库的 .agents/skills目录
团队skill这个设计特别香——新人进项目,git clone下来,整个团队沉淀的Codex用法他直接就继承了,不用谁口头教。
阶段5 · 放大——云端、GitHub,以及跟Claude Code混着用
前面都在讲你自己的终端。这一阶段,把Codex放大到「你不在场」也能干活。
云端Codex:让它替你过夜班。你可以把任务丢到OpenAI云上跑——选好仓库、环境准备步骤、它能用的工具,然后它在云端自己干,干完直接给你开一个PR。适合「边界清楚、不需要你盯」的活。你下班丢给它,第二天来看PR。
GitHub上的代码审查。 Codex能直接在GitHub上review PR——它在一个临时目录里把代码跑起来,在合并之前帮你抓关键bug。
重点来了:跟Claude Code混着用。
这是2026年高手的真实玩法——不是二选一,是组合拳。OpenAI在2026年3月30号官方发了一个插件,codex-plugin-cc。装上之后,你在Claude Code里敲一条斜杠命令,就能调Codex来做代码审查。两个工具打通了。
为什么要这么混?因为它俩各有所长。最常见的高手分工:用Claude Code做初始的功能生成和架构决策(交互推理强、上下文吃得深),再用Codex做代码审查和debug(逻辑精确、token省)。
下面这张表,把两者放一起,你自己对号入座:
| 维度 | OpenAI Codex | Claude Code |
|---|---|---|
| 范式 | 自主agent,沙箱跑完给你看 | 交互copilot,边干边商量 |
| 气质 | 执行型工程师,只想干完 | 协作者,边干边对齐 |
| 代码质量 | 好,逻辑精确 | 盲评更干净、更地道 |
| token效率 | 约4倍优势,省额度 | 推理深,但烧得快 |
| SWE-bench Verified | GPT-5.5领先88.7% | 87.6% |
| SWE-bench Pro(更难) | 58.6% | Opus 4.7领先64.3% |
| 最适合 | 边界清楚的活、review、debug | 从零想架构、初始功能、探索 |
表:Codex与Claude Code,看活下菜
阶段6 · 把6个阶段,串成一句方法论
啰嗦了这么多,最后收成一条线。用好Codex的方法论,其实就是这6步,一步都不能跳:
搞懂它是什么(自主agent,不是聊天功能)→ 装上跑通(先让它读和说,别急着写)→ 用沙箱和审批划好笼子(workspace-write + on-request起步)→ 用config和AGENTS.md教它规矩(尤其把测试命令写进AGENTS.md)→ 用TDD和子代理装好缰绳(测试是缰绳,子代理是减负)→ 放到云端和团队里规模化(过夜班、混搭Claude Code)。
你会发现,这6步里,真正写代码的是Codex,但每一步「怎么让它写得对」的判断,都是你的。
这也是我最后想说的一句:Codex和Claude Code,从来不是二选一的题。它们是两种不同范式的工具——一个自主执行的agent,一个交互协作的copilot。2026年真正会用AI的人,手里两把都有,看活下菜。
工具会一直换。但「怎么把一件活拆清楚、交出去、再验收回来」这套方法论,换不掉。这,才是你该吃透的东西。
关注「AI落地手记」,不见不散。
一个人 + AI管20个项目的真实记录
原创扒一个工具、写一篇长文,挺费功夫的。
觉得有用,点一下下面那个红色的「喜欢作者」就够了;不方便的话,转发给一个用得上的人 —— 对我一样是支持。
夜雨聆风