你可以把一个 GitHub issue 分配给 Codex,离开电脑,20 分钟后回来时,已经有带测试和文档的完整 pull request(PR)在等你审核。
不是一段代码片段,而是一套可运行、可评审的完整解决方案。
这就是 2026 年的 Codex 已经可以做到的事情。它与 2021 年那个仅用于代码补全、为 GitHub Copilot 提供支持的版本完全不同。
当前版本是一个基于云的自主编码 agent,能够在无需你持续指挥的情况下处理真实的开发工作。
Codex 的本质是什么
Codex 是一个 agent,不是 autocomplete(自动补全)。
这个区别非常重要。autocomplete 会在你输入时给出建议;Codex 则是你把工作委托给它,它会自行完成任务,而你可以去做别的事。
工作流程如下:
你用自然语言描述任务 Codex 读取你的整个 codebase(代码库) 它运行你的 test suite(测试套件) 它在多个文件中进行修改 它不断迭代,直到测试通过 它为你创建一个 pull request 以供审核
该 agent 最长可连续运行 30 分钟,无需你干预。
为什么 sandbox(沙箱)很重要
每个任务都会在一个与世隔绝的云端环境中运行,该环境预先加载了你的 repository(代码仓库)。
这种隔离至关重要。
Codex 无法:
删除你的真实文件 访问你的生产数据库 对你的系统做出永久修改
它做的一切都发生在一个可控、可回滚的空间里。你在审核 pull request 并拒绝它之后,整个 sandbox 会被销毁。除非你批准,否则不会有任何变化被保留。
这就是让自主工作值得信任的安全机制。
你实际会在什么场景使用 Codex
选择最适合你工作方式的界面。
选项 1:ChatGPT Web(最容易上手)
所需条件:ChatGPT Plus 或 Pro 订阅
前往 chatgpt.com/codex,连接你的 GitHub 账号,开始分配任务。无需安装、无需终端。输入你想要的内容,点击“Code”,Codex 就会用你的 repository 启动一个环境。
这是零阻力的切入口。
选项 2:Terminal CLI(可控性最强)
所需条件:Node.js 18+、熟悉 terminal(终端)
在终端中运行 codex 即可进入交互式会话。你可以在 agent 工作时与之实时对话。CLI 能整合到你现有的本地工作流中,你能清楚看到它在做什么。
选项 3:IDE 扩展(最少上下文切换)
所需条件:VS Code、Cursor、JetBrains 或其他受支持的编辑器
无需离开编辑器即可访问 Codex。会话会在你的 IDE 和 Web 界面之间同步,因此你可以在 terminal 中启动任务,在编辑器中继续。
选项 4:Desktop App(多项目并行)
所需条件:Mac 或 Windows
Codex 桌面应用用来管理多个并行项目。你可以同时运行多条 agent 线程,在同一处审阅结果,并在不同 repository 之间快速切换。
你不必只选其一。大多数人用 Web 界面做快活,用 CLI 获得更深的控制。
Codex 具体能做什么
Codex 擅长的是看起来像“真实开发工作”的任务,而不是单行建议。
写功能当你描述需求,且 Codex 能分析你的 codebase 时,它会编写符合你既有风格与模式的代码。
修复 bug创建一个 GitHub issue,把它分配给 Codex。agent 会定位问题、编写修复、运行测试,并迭代直到全部通过。
重构大型 codebase你可以让 Codex 把一份 4000 行的 Express router 重构为模块化的 controllers 和 services,加上 JSDoc、加上校验。它会返回多文件的修改并附带说明。
生成测试写测试覆盖率很耗时。Codex 可以根据现有代码生成 unit tests(单元测试)和 integration tests(集成测试),在无需手工工作的情况下提升覆盖率。
理解不熟悉的代码刚接手一个项目?问 Codex 某段代码做了什么、为何要这样设计。
Codex 目前还不能做的事
前端无 image 输入。你不能给它看一张设计图就让它构建 UI 无法在任务中途矫正。你放手让它干,它会工作 30 分钟,然后你再审阅;在运行期间你无法“遥控”它 不做部署。它会写代码并创建 pull request。至于部署到服务器、连接数据库、搭建托管,仍然需要你来处理
让 Codex 真正有用的工具
仅有强大的模型能力还不够。给 Codex 提供结构化的信息,它会更出色。
AGENTS.md:把你的项目“教”给 Codex
在你的 repository 中创建一个名为 AGENTS.md 的文本文件,告诉 Codex:
运行测试的命令是什么 你的代码风格规范是什么 你的项目是如何组织的 它应重点关注哪些目录
Codex 会读取该文件,并持续一致地执行这些指令。
MCP:连接外部工具
Model Context Protocol(MCP)是一个开放标准,用来把外部工具接入 Codex。
你可以连接:
实时文档(而不是依赖训练数据) 你的设计工具 代码搜索引擎 任意第三方服务
当 Codex 需要文档时,MCP 会获取当前的真实版本并直接馈送给 agent,而不是靠“记忆”来猜。
Skills:可复用的工作流
一个 skill 是针对特定任务类型封装好的工作流。
当一个流程变得可预测——比如“部署前总是要跑这些检查”——你就把它打包成一个 skill。Codex 以后每次都会用同一种方法执行。
重要原则:Skills 定义方法,Automations 定义时机。
Automations:按计划运行
与其手动把 bug 分配给 Codex,不如让 automations 在后台持续运行。按计划触发任务,或用 webhooks 触发。
这会让 Codex 在你睡觉时也在工作。
Plugins:把一切打包在一起
一个 plugin 可以把多个工具打包成一个可安装单元。
你无需分别配置 MCP servers、安装 skills、设置集成;安装一个包含所有内容的 plugin 即可。
今天如何真正开始使用 Codex
最简单的路径:
订阅 ChatGPT Plus 或 Pro(付费,但阻力最低) 前往 chatgpt.com/codex 并连接你的 GitHub 账号 选择一个你实际在维护的真实 repository 创建一个 AGENTS.md 文件,描述你的测试如何运行 选择一个小而真实的 GitHub issue 或你一直想修的 bug 把它分配给 Codex,然后离开 20–30 分钟后回来查看它的产出
第一次运行会教会你一切。有些 repository,Codex 处理得很顺畅;另一些需要更多设置。这不是工具的失败。Codex 最擅长以下场景:
清晰的测试基础设施 明确的文档 组织良好的代码
如果你的项目有良好的测试和清晰的结构,Codex 的表现会更好。
需要了解的真实限制
Codex 仍在预览阶段。OpenAI 还在持续迭代。 sandbox 存在边界。默认情况下,Codex 无法访问外部服务或数据库。它可以在 setup 过程中安装依赖,但如果你的代码在测试时需要外部 API,除非你提供 mock data,否则 Codex 的测试会受到限制。 部署仍由你负责。Codex 写代码并创建 PRs。之后的一切——部署服务器、连接数据库、搭建托管——仍需技术能力或平台支持。 它还不是“设好就忘”。你需要审阅它生成的内容。常规任务的质量非常好;遇到新颖问题或模糊需求,你需要用反馈来引导它。 无前端 image 支持。要从零构建 UI?你可能需要 Claude、Cursor 或其他工具。代码生成很强,UI 设计不在此列。
在你的工作流中如何看待 Codex
到 2026 年,高效的开发者不会只用单一的 AI 编码工具,而是分层使用。
Cursor 负责你主动编码时的行内编辑和建议。 Codex 负责你想彻底委托的大型任务——修 bug、做重构、生成测试、review pull request。 Claude 负责复杂推理与长篇重构,这时你希望持续参与。
Codex 定位为对明确但耗时的工作“苦力型”执行者。
如果你是初学者Codex 有助于学习代码结构。让它根据描述构建一个完整应用,研究输出,看看资深开发者如何组织项目。
如果你是经验丰富的开发者Codex 能帮你摆脱重复性工作——测试、文档、样板——从而把时间花在架构和真正重要的决策上。
现实看法
Codex 是通过针对真实世界编码任务的强化学习训练出来的。
它学会了:
生成符合人类风格的代码 精确遵循指令 围绕测试失败不断迭代直到找到解法
这些基本功非常扎实。
但成功与否取决于你给它什么。
Codex 表现最佳于你提供:
清晰的项目结构 可靠的测试设置 明确的文档(AGENTS.md) 具体的指令,而非含糊的请求
它并不是来取代开发者的,而是用来“消除摩擦”。
受益最大的开发者,是把 Codex 当作一个“可以持续配置与改进的队友”,而不是“一次性提示就扔下的助手”。
2021 到 2026 的变化
最初的 Codex 是“建议下一行”。今天的 Codex 是“自主完成整个任务”。
这是一次真正的跃迁。值得一试。只要抱着现实预期,你就能发现它切实融入你工作流的地方。
夜雨聆风