Codex 是什么:一个工具,三种形态
2025年4月,OpenAI 悄悄放出了一颗重磅炸弹——Codex。它不是之前那个基于 GPT-3 的代码补全模型(那个老 Codex 早已退役),而是一个全新的、从底层重新设计的 AI 编程智能体平台。截至目前,Codex 已经发展出三种产品形态:
- Codex Web
:运行在 ChatGPT 侧边栏中的云端编程智能体。你给它一个任务描述,它在远程沙箱里自动完成——读代码、写代码、跑测试、提 PR,一条龙服务。 - Codex CLI
:开源(Apache-2.0)、轻量级的终端编程助手。跑在你本地机器上,可以直接读写文件系统,配合 o3/o4-mini/codex-mini 模型完成实时协作编程。 - Codex IDE
:VS Code、Cursor、Windsurf 等编辑器的插件形态,把 AI 编程能力无缝嵌入到你已有的工作流中。
这三种形态不是割裂的,而是同一个愿景的三种落地方式。OpenAI 的长期目标很明确:让开发者拥有一个能实时协作,也能异步委派任务的 AI 同事——既有"坐在你旁边一起写"的即时感,也有"你把任务丢给同事,他去隔壁房间做完再回来"的异步感。
这篇文章将带你从架构原理、实战上手、竞品对比、企业实践到安全性设计,全方位拆解 Codex 这个下一代 AI 编程平台。
核心架构:codex-1 模型与并行沙箱设计
从模型说起:codex-1 是什么
Codex Web 背后跑的核心模型叫codex-1,它是 OpenAI o3 的一个专门针对软件工程任务进行微调(实际上是强化学习)的版本。训练方式很有趣:OpenAI 用了强化学习,让模型在各种真实编码环境中反复尝试,目标是——
- 生成符合人类风格的代码
:不只是"能跑",而是写出像人类开发者会写的、符合项目习惯和 PR 规范的代码。 - 精确遵循指令
:不会"自作主张"偏离需求。 - 迭代运行测试直到通过
:codex-1 会自己跑测试,失败了就修改代码再跑,直到通过——这正是人类开发者的 TDD 工作流。
在 SWE-Bench Verified 基准测试上(排除 23 个在其内部基础设施上无法运行的样本),codex-1 在最大 192k token 上下文窗口和中等 reasoning effort 的设置下展现了强大的性能。这还没有使用 AGENTS.md 文件(后面会详细讲这是什么),裸模型就已经很强了。
而 Codex CLI 则使用了一个更轻量的版本codex-mini,基于 o4-mini 优化。它在保持指令遵循和代码风格优势的同时,大幅降低了延迟,适合终端的实时交互场景。API 定价为 $1.50/1M 输入 token、$6/1M 输出 token,还有 75% 的 prompt 缓存折扣。
并行沙箱:让 AI "分身"干活
Codex Web 最与众不同的设计是每个任务运行在独立的云沙箱环境中。这意味着什么?
传统 AI 编程工具的交互模式是线性的:你问一个问题 → AI 回答 → 你继续问 → AI 继续答。但 Codex 的模式是并行的:你可以同时创建多个任务,每个任务在各自的隔离容器中独立运行,互不干扰。
比如:你可以同时创建三个任务——"修复登录页面的 bug"、"给支付模块写单元测试"、"重构用户服务的异常处理"——Codex 会在三个独立的沙箱中同时处理它们。你不需要排队。
每个沙箱环境预加载了你的代码仓库,并且可以配置成尽可能接近你的真实开发环境。Codex 在沙箱中可以:
读取和编辑文件 运行命令(包括测试框架、linter、类型检查器) 提交代码更改 生成终端日志和测试输出的引用,作为可验证的证据
任务完成后,你可以审查结果、要求修改、直接创建 GitHub Pull Request,或者把改动集成到本地环境。从任务分配到完成的典型时间是1 到 30 分钟,取决于复杂度。
安全边界:隔离不是什么"附加功能",而是基础设施
Codex 智能体运行在完全隔离的云容器中。默认情况下互联网访问是关闭的——智能体只能访问 Git 仓库中的代码和用户通过 setup 脚本预装的依赖。它不能访问外部网站、API 或其他服务。
这是经过深思熟虑的设计决策。当 AI 越来越自主地处理复杂编程任务时,安全边界就越重要。Codex 的答案是可审计性:每一步操作都有终端日志和测试结果的引用,你可以追溯整个决策和执行链。这让黑箱变成了玻璃箱。
上手实战:Codex CLI 从安装到第一个任务
安装
Codex CLI 的安装方式极其丰富,几乎覆盖了所有主流环境:
# macOS / Linux 一键安装 curl -fsSL https://chatgpt.com/codex/install.sh | sh # Windows (PowerShell) powershell -ExecutionPolicy ByPass -c "irm https://chatgpt.com/codex/install.ps1 | iex" # npm 全局安装 npm install -g @openai/codex # Homebrew (macOS) brew install --cask codex # 或者直接从 GitHub Release 下载二进制文件 # macOS Apple Silicon: codex-aarch64-apple-darwin.tar.gz # Linux x86_64: codex-x86_64-unknown-linux-musl.tar.gz安装完成后,运行codex命令即可启动。你可以选择用ChatGPT 账号登录(Plus/Pro 用户有免费 API 额度),也可以用API Key登录。
配置与身份验证
OpenAI 大幅简化了 CLI 的认证流程:以前你需要手动去平台生成 API Key、复制粘贴配置,现在只需要:
# 运行 Codex,选择 "Sign in with ChatGPT" codex # 浏览器会自动打开登录页面 # 选择你要使用的 API 组织 # Codex 自动生成并配置 API Key # 搞定!Plus 用户可以领取 $5 免费 API 额度,Pro 用户 $50(发布时 30 天内有效)。对于轻度使用者,这个额度基本够用了。
Codex CLI 的核心工作流
进入 Codex CLI 后,你会看到一个类似聊天界面的终端环境。你可以用自然语言描述需求,Codex 会:
理解你的意图 阅读相关文件 生成代码修改方案 在你确认后直接修改文件 (可选)运行测试验证
# 例子:让 Codex CLI 帮你重构一段代码 $ codex > 帮我把 src/utils/parser.py 里的 JSON 解析逻辑改成用 Pydantic 模型 # Codex 会读取文件、分析代码、生成重构方案、展示 diff # 你审查后确认,Codex 直接写入文件更强大的是,Codex CLI 还可以运行codex app启动桌面应用模式,或者通过 IDE 插件直接在 VS Code / Cursor / Windsurf 中使用。
Codex Web:异步委派任务的正确姿势
相比 CLI 的实时协作模式,Codex Web 的核心价值在于异步多任务并行。使用方式是:
1. 在 ChatGPT 侧边栏打开 Codex 2. 输入任务描述,例如: "给 UserService 的所有公开方法写单元测试,覆盖率要求 85% 以上" 3. 点击 "Code" 按钮 4. Codex 在云沙箱中开始工作(通常 1-30 分钟) 5. 你可以同时创建更多任务 6. 任务完成后审查结果,点击 "Create PR" 或直接合并这种体验很像和同事异步协作——你把任务交代清楚,同事去干活,你继续做自己的事,等同事回来告诉你搞定了,你 Code Review。
AGENTS.md:给 AI 程序员写"入职指南"
这是 Codex 生态中最被低估但可能最重要的设计:AGENTS.md。
AGENTS.md 是放在项目仓库根目录的一个文本文件,类似于 README.md,但它的读者不是人类开发者,而是 AI 智能体。它告诉 Codex:
项目的目录结构和模块划分 用什么命令来构建、测试、lint 代码风格规范和命名约定 项目的架构决策和设计理念 哪些地方容易踩坑
一个典型的 AGENTS.md 长这样:
# AGENTS.md - Project Guide for AI Agents ## Build & Test - Build: `cargo build --release` - Unit tests: `cargo test --lib` - Integration tests: `cargo test --test integration` - Lint: `cargo clippy -- -D warnings` ## Code Style - Use `anyhow::Result` for fallible functions - Prefer `impl Trait` over generics when there's only one usage - Max line length: 100 characters ## Architecture Notes - `src/core/` - Core engine, no external deps - `src/api/` - HTTP layer, uses axum - `src/db/` - Database layer, uses sqlx with PostgreSQL - DO NOT add new deps to `src/core/` ## Known Pitfalls - Database migrations require manual review before deployment - The auth middleware is stateful - be careful with test isolation有了 AGENTS.md,Codex 就像一个拿到了详细入职文档的新同事——不需要你在每个任务里重新解释项目约定。OpenAI 自己也说了:像人类开发者一样,Codex 在有良好配置的开发环境、可靠的测试设置和清晰的文档时表现最好。
这一点其实揭示了一个更深层的趋势:未来的项目文档不仅要写给人类看,还要写给 AI 看。AGENTS.md 可能是 AGENTS.txt、可能是 .cursorrules 的进化版、也可能最终被某种统一标准取代——但无论如何,"为 AI 可读性优化项目文档"这个需求是真实的。
竞品全景对比:Codex vs Copilot vs Cursor vs Claude Code
AI 编程工具在 2025 年已经卷成了红海。Codex 在这个战场上处于什么位置?我们做一个全面对比。
GitHub Copilot
定位:代码补全 + Chat 内聊天。优势:深度集成 GitHub 生态,补全速度快,IDE 支持最广。短板:没有自主执行能力——它能建议代码,但不能跑测试、不能操作文件系统、不能异步完成任务。Copilot 是"帮你写下一行"的工具,Codex 是"帮你完成一个功能"的同事。
一句话总结:Copilot 是你的自动补全,Codex 是你的外包同事。
Cursor
定位:AI-first 代码编辑器。优势:整个编辑器围绕 AI 交互重新设计——内联编辑、多文件上下文、Composer 模式等都很流畅。支持多种模型(GPT、Claude 等)。短板:本质上还是编辑器内的实时协作模式,不支持异步任务委派,也不支持并行多任务。Cursor 的"Agent 模式"可以做一些多步骤操作,但执行范围限于本地。
一句话总结:Cursor 是最好的"和 AI 坐在一起写代码"的体验,Codex 多了一个"让 AI 去隔壁房间独立干活"的维度。
Claude Code (Anthropic)
定位:终端中的 AI 编程助手。优势:Claude 模型在代码理解和生成上表现出色,尤其是长篇代码重构。支持直接操作文件系统、运行命令。短板:也是终端内实时交互模式,无法异步委派。没有云沙箱隔离,直接在本地操作(这既是灵活性也是风险)。与 Codex CLI 直接竞争,两者的工作流非常相似。
一句话总结:Claude Code 是 Codex CLI 最直接的竞争对手,选哪个主要看你对 OpenAI 还是 Anthropic 生态的偏好。
Devin (Cognition)
定位:全自主 AI 软件工程师。优势:最早提出"AI 外包同事"概念的产品,可以独立完成复杂的全栈任务。短板:价格昂贵($500/月),定位偏向专业用户而非大众开发者。与 Codex Web 直接竞争,但 Codex 依托 ChatGPT 的庞大用户基础,覆盖面更广。
一句话总结:Devin 是先驱,Codex 是大众化版本——功能相似但价格亲民得多(甚至包含在已有 ChatGPT 订阅中)。
对比总览
- 实时补全 + 聊天
:Copilot、Cursor 最强 - 终端 AI 编程
:Codex CLI ≈ Claude Code,各有千秋 - 异步多任务委派
:Codex Web ≈ Devin,但 Codex 更亲民 - 开源 / 本地优先
:Codex CLI(Apache-2.0)、Continue.dev、Aider - 三者兼备的
:Codex——目前唯一同时提供实时终端助手、云端异步智能体、IDE 插件三合一的平台
Codex 真正的差异化不在于单一维度的领先,而在于它把"实时协作"和"异步委派"统一到了一个生态中。你可以上午用 CLI 和 Codex 一起写代码,下午把跑测试、重构这种脏活累活丢给 Web 端并行处理,自己去做更有价值的事。
企业级实践:先行者们怎么用 Codex
OpenAI 在发布 Codex 之前,已经和一批企业测试者合作了几个月。这些早期用户的反馈揭示了很多实用场景:
- Cisco
:作为早期设计合作伙伴,Cisco 在多个产品线上评估 Codex,探索它如何帮助工程团队将雄心勃勃的想法更快落地。他们从产品组合的广度出发,给 OpenAI 提供了大量真实场景反馈。 - Temporal
:这家微服务编排平台的公司使用 Codex 来加速功能开发、调试问题、编写和执行测试、重构大型代码库。"在后台运行复杂任务"是他们最喜欢的功能——工程师不用切换上下文等待结果,继续写自己的代码就行。 - Superhuman
:这家邮件客户端的公司发现了 Codex 的一个意外用法——让产品经理也能提交轻量级代码修改。PM 不需要拉工程师来做一个小改动(比如改文案、调样式),直接用 Codex 完成,工程师只需要做 Code Review。这释放了工程师的时间,也加快了小改动的交付速度。 - Kodiak
:自动驾驶技术公司用 Codex 来写调试工具、提高测试覆盖率、重构代码。Codex 还成了一个有价值的知识检索工具——通过关联上下文和历史修改,帮助工程师理解代码库中不熟悉的部分。
从这些案例中可以提取出几个共性模式:
- 最好的任务是"边界清晰、重复性高、需要上下文切换"的
——写测试、重构、修 bug、写文档。 - 并行是关键
——同时跑多个任务,效率不是加法的,而是乘法的。 - 不同角色都能受益
——不只是工程师,PM、QA、DevOps 都能找到自己的使用场景。
OpenAI 自己的工程团队也在用 Codex 做日常开发。最常见的用法是:把重复性的、边界清晰的任务(重构、重命名、写测试)外包出去,让自己保持专注。还有 triage on-call issues、早上规划任务、把后台工作卸掉等新习惯正在形成。
安全性设计:从"能力越大"到"责任越大"
当 AI 能够自主执行代码、操作文件系统、甚至提交 PR 时,安全问题就不再是锦上添花,而是生死线。Codex 的设计在这方面做了几件关键的事:
1. 恶意代码检测与精确拒绝
Codex 经过专门训练,能识别并精确拒绝恶意软件开发请求——同时清楚地区分合法任务(如底层内核工程)。这不是简单的关键词过滤,而是模型层面理解任务的意图和上下文。
权衡很微妙:内核开发有时会用到和恶意软件开发类似的技术,一刀切会伤害合法用户。Codex 的策略是"精确打击"——拒绝真正恶意的,放过正当的。
2. 沙箱隔离不是可选项
Codex Web 的所有执行都在隔离的云容器中进行。这不仅仅是"安全最佳实践",而是产品设计的核心支柱。隔离意味着:
恶意代码(如果有的话)无法逃离容器 不同任务之间互不干扰 用户可以放心让 AI 执行任何命令,因为在沙箱里搞不坏任何东西
3. 可审计性
Codex 的每一步操作都有终端日志和测试输出作为引用。当 AI 提交了一个 PR,你不是只能看最终 diff——你可以追溯它做了哪些尝试、跑了哪些测试、遇到了什么错误、最终怎么解决的。
这种"引用链"设计让 Codex 的决策过程从黑箱变成了可审计的记录。这在企业环境中尤其重要——安全审计人员需要知道 AI 到底做了什么。
4. 默认断网
Codex Web 的沙箱默认没有互联网访问。智能体只能操作你提供的代码仓库内容和预装的依赖。这杜绝了数据泄露的风险,也防止了供应链攻击。
2025年6月的更新中,OpenAI 开始允许用户在任务执行期间选择性地开启互联网访问。这是一个经过谨慎考量的功能——默认关,需要时手动开。
局限性与现实考量
Codex 目前处于research preview阶段,这意味着它不是成品,有不少需要注意的地方:
- 不支持图片输入
:如果你想让 Codex 根据设计稿写前端代码,现在还做不到。视觉能力是未来路线图上的功能。 - 执行中不能中途干预
:Codex 开始执行一个任务后,你不能说"等等,换个思路"。你只能等它完成后再提修改意见。OpenAI 已经在规划"在任务进行中提供指导"的能力。 - 慢
:委派任务给远程智能体比交互式编辑慢——一个任务要 1 到 30 分钟。这不是 bug,而是异步模式的固有特点。你需要调整预期:不是在等 API 响应,而是在等同事完成一项工作。 - 状态空间爆炸
:当智能体可以自由探索代码库、尝试不同方案时,搜索空间非常大。对复杂任务,codex-1 可能走弯路,尝试几种不工作的方案后才找到正确答案。 - 依赖 AGENTS.md 和良好配置
:虽然裸模型就很强,但要让 Codex 真正发挥价值,你还是需要在 AGENTS.md、测试配置、开发环境上下功夫。这不是"开箱即用"的魔法。 - 成本不确定
:目前是慷慨的免费额度期("未来几周内不额外收费"),但之后的定价策略还不完全清楚。对于重度使用者,月度成本可能不低。
但这些局限性更多是"当下"的,而非"本质"的。其中大部分都在 OpenAI 的路线图上。关键是要认识到:Codex 代表的是人机协作范式的一次转变,而非一个完美的成品。
对我们的启示:AI 编程的三个趋势
Codex 的出现不只是多了一个工具选择,它揭示了 AI 辅助软件开发的三个深层趋势:
趋势一:从"补全"到"代理"
GitHub Copilot 开创了 AI 代码补全时代——AI 帮你写下一行。Cursor 把它升级到了多行编辑和跨文件上下文。而 Codex 把这个概念推到极致:AI 不再帮你写代码,而是帮你完成整个任务。
这个转变意味着什么都不同了。你不只是得到代码片段,你得到的是一个有测试验证、有终端日志、可以 Code Review 的完整交付。这是从"工具"到"同事"的跨越。
趋势二:从"同步"到"异步+同步"
过去十年,开发者工具一直在追求更快的反馈循环——热重载、即时补全、自动格式化。这是"同步"优化的极致。Codex 指出了另一条路:有些任务不需要你盯着它完成。
你在写核心业务逻辑的时候,你的 AI 同事在隔壁默默地做三件事:跑全量测试、重构遗留模块、给下周的 sprint 写 story 的技术预研。当你把注意力转过来的时候,它们已经做好了。
这不是取代实时协作——Codex CLI 也提供这个——而是增加了一个新的时间管理维度。就像 Slack 没有取代面对面聊天,但改变了沟通的效率。
趋势三:面向 AI 的项目文档
AGENTS.md 的出现暗示了一个未来:项目文档需要同时面向人类和 AI 优化。今天的 README.md、CONTRIBUTING.md 是为人类开发者写的。AGENTS.md 是专门为 AI 写的。未来这两者可能会融合——你用一套工具同时维护人读版本和机读版本。
更进一步:如果 AGENTS.md 成为行业标准(就像 .gitignore 一样),我们可以想象一个世界,开源项目的 AI 可读性将成为评判项目质量的新维度。一个"AI-friendly"的项目会被更多开发者选择,因为他们的 AI 工具更能在其中有效工作。
总结:Codex 值得你关注,但需要正确预期
Codex 是 OpenAI 在 AI 编程领域的一次大胆押注。它不满足于在现有 IDE 中加一个补全插件,而是试图重新定义开发者与 AI 的关系。
如果你是一个:
- 独立开发者
:Codex CLI(免费开源)+ ChatGPT 订阅的组合非常划算。你可以用 CLI 实时协作,用 Web 端跑异步任务。 - 团队 Tech Lead
:Codex Web 的并行多任务能力可能改变你的工作方式——把测试、重构、文档这些"重要但不紧急"的工作批量委派出去。 - 开源项目维护者
:现在是时候写一份好的 AGENTS.md 了。即使你不用 Codex,这也会成为未来 AI 工具在项目中有效工作的基础。 - 技术选型决策者
:不要因为 Codex 现在还有局限性就 dismiss 它。考虑到 OpenAI 的迭代速度和资源投入,Codex 可能在 6-12 个月内成为一个不可忽视的力量。现在就开始试验,可以帮助你在它成熟时更快上手。
最后用 OpenAI 的愿景来收尾:"我们想象一个未来,开发者主导他们想要拥有的工作,把剩下的委派给智能体——借助 AI 变得更高效、更快速。"
这个未来不是 10 年后的事情。它已经开始了。
夜雨聆风