OpenAI Codex 完全方法论:6 个阶段,从装上到吃透(长文

OpenAI Codex 完全方法论:6 个阶段,从装上到吃透(长文 · 全是可抄的)

如果你已经在用AI写代码，绕不开两个名字：Claude Code，和OpenAI Codex。

前一个我写过不少。这篇专门讲后一个——Codex。

为什么值得专门写一篇长的？因为到了2026年，Codex已经不是「OpenAI顺手做的一个小工具」了。它和Claude Code是公认的两强。今年初一份500多人的开发者调查里，65% 的人日常编程更愿意用Codex——一个很现实的原因是，它的token效率大约是Claude Code的4倍，同样的活，它烧的额度少。

但我观察下来，大多数人用Codex用得很浅：装上、问一句、看它跑、跑歪了骂两句。

这篇就把「用好Codex」拆成6个阶段，从最浅的「它是什么」一直讲到「团队怎么用」。每个阶段都给你能直接抄走的命令和配置。建议收藏着，按阶段往下走。

阶段0 · 先搞清楚Codex到底是什么

很多人第一个误区，是把Codex当成「ChatGPT里那个会写代码的功能」。不是。

2026年的Codex，是一套东西，不是一个：

· Codex CLI：跑在你终端里的命令行agent，本文主要讲它
· Codex IDE插件：装进VS Code这类编辑器里
· Codex App：独立的桌面应用
· 云端Codex（Web）：任务丢到OpenAI云上跑

关键的一点：这四个共享同一套配置。你在一个地方配好，其它三个都认。所以下面讲的配置，是一次配、四处用。

那它干活的方式是什么？一个词：自主agent。你给它一个任务，它会在一个沙箱环境里，自己读文件、自己写代码、自己跑命令、自己跑测试，一轮一轮迭代，直到任务完成，再把结果整个交给你看。

这就引出它和Claude Code最大的气质差别——这句话你先记住，阶段5会详谈：

Claude Code像一个边干边跟你商量的协作者；Codex像一个「别打扰我，干完给你看」的执行型工程师。

模型方面，2026年Codex里默认推荐的是GPT-5.5，OpenAI当前的旗舰模型。除此之外还有一系列带 -Codex后缀的调优版本（比如GPT-5.2-Codex、GPT-5.3-Codex），专门为编程场景调过。云端任务和代码审查，默认会用 -Codex系列。

阶段1 · 装上，跑通第一条命令

不墨迹，直接上手。

装。两条命令二选一：

npm i -g @openai/codex

或者，用Homebrew：

brew install --cask codex

启动 + 登录。终端里敲codex，第一次会让你登录——用你的ChatGPT账号登就行，不用单独搞API key（如果你是Plus / Pro会员，额度直接复用）。

第一个任务怎么给。进去之后，别上来就让它「帮我做个网站」。新手最容易栽的就是这一步——任务给得太空，它只能瞎猜。正确的第一个任务，长这样：

读一下这个项目的 README 和 package.json，
用三句话告诉我这个项目是干什么的、怎么跑起来。
先别改任何代码。

让它先「读和说」，你借这个机会观察它怎么探索一个项目。这比直接让它写代码安全得多。

选模型。启动时就能指定：

codex --model gpt-5.5

已经在会话里了，想换模型，直接敲斜杠命令 /model。

还有一个模式你迟早用得上——非交互模式。当你想把Codex写进脚本里、让它自动跑，用codex exec：

codex exec "把所有 console.log 删掉"

加上 --json，它会把过程以JSON吐出来，方便你的脚本接管。新版本（0.125起）连推理token的用量都会报给你。

到这里，你已经会「用」Codex了。但「用」和「用好」之间，隔着下面四个阶段。

阶段2 · 搞懂「审批」和「沙箱」——Codex安全感的来源

这一段是整篇最该认真看的。90% 的人对Codex的不安全感，都来自没搞懂这两个旋钮。

Codex能不能乱来，由两个独立的维度决定：

维度一：沙箱模式（sandbox_mode）——它能动什么。三档：

· read-only：只能读，不能写。连 /tmp都不让写。
· workspace-write：能读、能在你的工作目录里改文件、能跑本地命令。这是日常默认。
· danger-full-access：去掉文件系统和网络的所有边界。它想干啥干啥。

维度二：审批策略（approval_policy）——它什么时候要问你。三档：

· untrusted：基本啥都要问。
· on-request：它自己判断，碰到敏感操作（要联网、要改工作区外的文件）才停下来问你。
· never：永远不问。

这两个维度是乘起来的。你常听到的 --full-auto，其实就是一个快捷组合：

--full-auto = --ask-for-approval on-request + --sandbox workspace-write

注意：--full-auto默认不开网络。这是个很贴心的设计。会话里想临时切成只读，敲 /permissions。

我给你一套拿走就能用的配法：

· 日常写代码：workspace-write + on-request。它能干活，碰到危险动作会停下来问。性价比最高。
· 读代码、做规划：切read-only。
· danger-full-access：除非你非常清楚自己在干嘛（比如在一次性容器里），否则别碰。

一句忠告：别一上来就 --full-auto全速跑。先在小任务上看它的脾气，摸清楚了再放权。

阶段3 · 配置 + AGENTS.md——让Codex真正「听你的」

阶段1、2解决了「能用」「安全」。这一阶段解决「听话」。

先说一个反直觉的事实：很多人觉得「Codex干得不好」，真相是「配置没配对」。工作目录不对、没有写权限、模型默认值不对、缺了某个工具——这些设置问题，最后都表现成「这AI怎么这么笨」。

配置文件在这里： ~/.codex/config.toml。一个能直接抄的最小示例：

# ~/.codex/config.toml
model = "gpt-5.5"
approval_policy = "on-request"
sandbox_mode = "workspace-write"

[mcp_servers.my-tool]
command = "npx"
args = ["-y", "@example/mcp-server"]

CLI、IDE、App都读这一份，配一次就够。

接下来是真正的关键招式：AGENTS.md。

AGENTS.md是一个放在你项目里的文件，是你给Codex的「持久说明书」。它不像聊天里的指令——聊完就忘——AGENTS.md是每次都生效的。

里面写什么？编码规范、代码怎么组织、用什么框架、有什么坑。但最该写、最多人漏写的一项，是测试命令。

为什么这一项最关键？因为Codex被专门训练过一个行为：完成任务之前，它会自动去跑AGENTS.md里写明的测试命令。换句话说——你用AGENTS.md这个文件，定义了「什么叫做完」。

一份能抄的AGENTS.md骨架：

# AGENTS.md

## 技术栈
- TypeScript + React，包管理用 pnpm

## 代码规范
- 禁止 any，禁止 console.log 进提交

## 怎么验证（Codex 完成任务前会自动跑下面的命令）
- 单元测试：pnpm test
- 类型检查：pnpm typecheck
- 上面两个都绿，这个任务才算做完

写了这一段，Codex交活之前会自己跑pnpm test和pnpm typecheck，不绿它自己会接着改。你等于给它装了个「自检」。这一招，是「用好Codex」和「用Codex」之间最大的那道分水岭。

阶段4 · 进阶工作流——TDD、子代理、MCP、Skills

配置配好了，该上真正的工作流了。这一阶段四个工具，由近及远。

一、TDD闭环——给自主agent装的最强缰绳。

Codex是自主跑的，它最大的风险是「跑歪了你还不知道」。TDD是目前最好的解法：

1. 先让Codex写测试，别写实现
2. 跑一遍，确认这些测试全部失败（证明测试有效）
3. 把这批失败的测试commit一下，存个档
4. 再让Codex去写实现，要求很明确：实现到所有测试通过，并且不许改测试本身

测试就是那根缰绳。它自己怎么折腾都行，只要最后所有测试绿，且测试没被它偷偷改过——这活就可信。

二、子代理（subagent）——给主线程减负。

一个复杂任务，别全堆给主agent。把那些边界清楚的活——「探索一下这个模块」「把测试跑一遍」「triage这堆报错」——丢给子代理去做。主agent只盯核心问题。这跟你管一个团队是一个道理：主程序员不该自己去翻日志。

三、MCP——让Codex连上你的外部系统。

MCP（模型上下文协议）是让Codex连数据库、连内部系统、连各种外部工具的标准接口。配置就在 ~/.codex/config.toml里加 [mcp_servers.xxx] 段（阶段3的示例里有）。偷懒办法：直接在会话里跟Codex说「帮我装一个连PostgreSQL的MCP server」，它能自己搞定。

四、Skills——把重复的活沉淀下来。

Codex在2025年底加了Skills。一个skill就是一个SKILL.md文件，放在 ~/.agents/skills/ 目录下。当你的任务匹配上某个skill，Codex会自动把它加载进来。它分两种放法：

· 个人skill：放 $HOME/.agents/skills，只有你自己用
· 团队skill：直接check进项目仓库的 .agents/skills目录

团队skill这个设计特别香——新人进项目，git clone下来，整个团队沉淀的Codex用法他直接就继承了，不用谁口头教。

阶段5 · 放大——云端、GitHub，以及跟Claude Code混着用

前面都在讲你自己的终端。这一阶段，把Codex放大到「你不在场」也能干活。

云端Codex：让它替你过夜班。你可以把任务丢到OpenAI云上跑——选好仓库、环境准备步骤、它能用的工具，然后它在云端自己干，干完直接给你开一个PR。适合「边界清楚、不需要你盯」的活。你下班丢给它，第二天来看PR。

GitHub上的代码审查。 Codex能直接在GitHub上review PR——它在一个临时目录里把代码跑起来，在合并之前帮你抓关键bug。

重点来了：跟Claude Code混着用。

这是2026年高手的真实玩法——不是二选一，是组合拳。OpenAI在2026年3月30号官方发了一个插件，codex-plugin-cc。装上之后，你在Claude Code里敲一条斜杠命令，就能调Codex来做代码审查。两个工具打通了。

为什么要这么混？因为它俩各有所长。最常见的高手分工：用Claude Code做初始的功能生成和架构决策（交互推理强、上下文吃得深），再用Codex做代码审查和debug（逻辑精确、token省）。

下面这张表，把两者放一起，你自己对号入座：

维度	OpenAI Codex	Claude Code
范式	自主agent，沙箱跑完给你看	交互copilot，边干边商量
气质	执行型工程师，只想干完	协作者，边干边对齐
代码质量	好，逻辑精确	盲评更干净、更地道
token效率	约4倍优势，省额度	推理深，但烧得快
SWE-bench Verified	GPT-5.5领先88.7%	87.6%
SWE-bench Pro（更难）	58.6%	Opus 4.7领先64.3%
最适合	边界清楚的活、review、debug	从零想架构、初始功能、探索

表：Codex与Claude Code，看活下菜

阶段6 · 把6个阶段，串成一句方法论

啰嗦了这么多，最后收成一条线。用好Codex的方法论，其实就是这6步，一步都不能跳：

搞懂它是什么（自主agent，不是聊天功能）→ 装上跑通（先让它读和说，别急着写）→ 用沙箱和审批划好笼子（workspace-write + on-request起步）→ 用config和AGENTS.md教它规矩（尤其把测试命令写进AGENTS.md）→ 用TDD和子代理装好缰绳（测试是缰绳，子代理是减负）→ 放到云端和团队里规模化（过夜班、混搭Claude Code）。

你会发现，这6步里，真正写代码的是Codex，但每一步「怎么让它写得对」的判断，都是你的。

这也是我最后想说的一句：Codex和Claude Code，从来不是二选一的题。它们是两种不同范式的工具——一个自主执行的agent，一个交互协作的copilot。2026年真正会用AI的人，手里两把都有，看活下菜。

工具会一直换。但「怎么把一件活拆清楚、交出去、再验收回来」这套方法论，换不掉。这，才是你该吃透的东西。

关注「AI落地手记」，不见不散。

一个人 + AI管20个项目的真实记录

原创扒一个工具、写一篇长文，挺费功夫的。
觉得有用，点一下下面那个红色的「喜欢作者」就够了；不方便的话，转发给一个用得上的人 —— 对我一样是支持。