我在OpenAI的文档里,翻到了一张藏宝图

这两天在翻OpenAI的开发者文档，本来是想查个API的事儿，结果鬼使神差的，点进了Codex的use cases页面。

然后我就，嗯，怎么说呢，脑子里那根弦好像被拨了一下。

这上面列的东西，已经远远超出了我对一个「AI写代码工具」的认知范围。

Review PR、自动Bug分流、Figma设计稿转代码、Slack消息触发开发任务、数据分析出报告、新员工入职流程编排、iOS模拟器调试、甚至做PPT。。。

一共24个use cases，横跨工程、设计、运维、QA、产品，五个团队方向。

我当时的第一反应是，这玩意，还是那个我印象中的Codex吗？

坦率的讲，大部分人对Codex的印象，可能还停留在去年刚发布时候的样子。一个云端的coding agent，能帮你写写代码、修修bug、提个PR。跟Claude Code、Cursor是一个赛道的竞品。

但你现在再去看OpenAI给Codex规划的这张蓝图，你会发现，他们的野心，根本不在这个层面。

他们想做的，是一个软件工程的操作系统。

说真的，我自己看完这24个use cases之后，脑子里冒出来的第一个词，压根就跟「AI编程」没关系。我想到的是六个字，「工作流自动化」。

让我挑几个有意思的聊聊。你跟着我一起看，看看这24个use cases里面，到底藏了些什么东西。

先从一个听起来最正常的开始。「Review pull requests faster」，加速PR review。这个不稀奇对吧？很多AI工具都能做代码审查。但Codex的描述写的是，在人工review之前，先帮你把回归问题和潜在风险扫一遍。

注意这个措辞，「before human review」。

它不是要替代你做code review，它是要在你看之前先过一遍，帮你把那些你最容易漏掉的边界情况、逻辑错误先挑出来。相当于给你的每个PR安排了一个永远不会疲倦、不会因为周五下午犯困就草草approve的AI reviewer。

好，这个还算正常。往下看。

第二个，「Kick off coding tasks from Slack」。这个就有意思了。意思是，你在Slack群里讨论了一个需求，一个bug，或者任何一个技术问题，Codex可以直接把这个Slack对话线程，转化成一个明确的开发任务，然后在云端开始跑。

你想想这个场景。

以前你在群里聊完一个bug，然后得有人总结一下，开个ticket，分配给工程师，工程师打开IDE，看代码，写fix，提PR，等review。这个流程少说也得半天一天。

现在呢？Slack里聊着聊着，Codex直接就开干了。

这已经不是「辅助编程」了，这是在重新定义一个需求从产生到解决的整条链路。

我当时就在想，如果这个东西真的成熟了，产品经理在群里说一句「这个按钮的颜色好像不对」，可能还没等工程师回复呢，Codex已经提了一个PR上来了。

好，继续往下翻。

第三个，「Automate bug triage」。自动Bug分流。每天的bug报告进来，Codex自动帮你分优先级、打标签、甚至给出初步的修复建议。做过开发的都知道，bug triage这个活儿，在大厂是有专门的QA团队来做的，小团队的话就是工程师自己兼着，反正谁都不爱干，但不干又不行。

现在一个AI agent就给你搞定了。

但到这里为止，我还觉得，嗯，可以理解，毕竟都跟代码相关嘛。

真正让我有点懵的，是第四个。

「Coordinate new-hire onboarding」。协调新员工入职。

你没看错，一个代码智能体，在帮你做新员工入职流程的编排。准备入职文档、生成团队总结、搭建onboarding tracker。

我看到这个的时候，说实话，反复确认了好几遍。

这跟写代码有什么关系？

但你仔细想想，其实有关系。入职流程本身就是一系列需要自动化的工作流，涉及文档处理、数据整理、系统配置。这些事情说到底，跟写一段代码、跑一个脚本，没有什么区别。

Codex做的事情，就是把「写代码」这个能力，泛化成了「用代码的方式处理一切可以自动化的工作」。

这个转变，比很多人意识到的要大得多。

而且你别忘了，这24个use cases里面，还有「Build for iOS」「Adopt liquid glass」「Refactor SwiftUI screens」这种苹果生态的开发任务。前不久Copilot Xcode的创始团队直接加入了OpenAI的Codex团队，那个叫Daniel的创始人在推上发了一段话，说他们最初觉得做一个「Cursor for Xcode」很疯狂，但他们做到了，现在要带着这些能力加入Codex。

一个coding agent，开始往移动端开发、桌面端开发、数据分析、工作流编排全面铺开。

回到这个大图，再聊聊Codex最近搞的Plugin生态，这块也挺有意思。

今年3月底，OpenAI给Codex上线了插件系统。第一批就接入了Slack、Figma、Notion、Gmail、Google Drive。不是那种需要你自己折腾API Key的接入方式，是开箱即用的，装上就能跑。

其中Figma那个集成，我觉得还是挺重要的。

做过前端开发的朋友应该都知道，设计稿到代码这个环节，一直是整个开发流程中最折磨人的部分之一。设计师在Figma里画好了，前端工程师打开Figma量间距、取颜色、切图，然后一点一点在代码里还原。这个过程枯燥、耗时、还特别容易出错。

现在Codex可以直接读取你Figma文件里的设计稿，然后生成对应的前端代码。不是那种糊弄人的demo级别的代码，是带visual check的、可以跑通的responsive UI。

你如果关注这个领域的话，可能会说，v0不是也能做类似的事吗？对，但Codex的区别在于，它是跟你整个代码仓库打通的。它会在你现有的项目结构里、按照你已有的代码风格和组件库来写，跟你的工程上下文是打通的。这个差距，只有真正做过工程的人才能体会到有多大。

聊到这儿，顺带说一下Codex现在的体量，因为这个数据本身也挺说明问题的。

Dan Shipper前段时间在推上说了一句话，我印象很深。他说OpenAI现在最火的产品不是ChatGPT，是Codex。周活跃用户超过一百万，从今年1月到现在，用量涨了五倍。

五倍。

要知道Codex可不是免费的，至少得ChatGPT Plus才能用。这一百万人是实打实掏了钱的用户。

而且OpenAI内部自己也在重度使用Codex。他们的负责人之前在36氪的采访里说了一句很猛的话，大意是，OpenAI内部已经很少再打开IDE了。

我不知道这话有多少水分，但如果连OpenAI自己的工程师都在用Codex代替IDE了，那这个工具的完成度，可能确实已经到了一个临界点。

———

但我也不想只说好的，不说问题。那样不真诚。

我自己实际用下来的感受是，Codex目前在处理大型、复杂、需要深度理解架构的任务时，还是有明显的天花板。你让它修一个TypeScript的类型报错，它利索得很，但你让它帮你重构一个微服务的通信架构？还是算了吧。

Zack Proser写了一篇很详细的2026年Codex评测，里面有个数据挺有参考价值的，他说Codex在日常维护类的任务上，成功率已经到了85-90%，但架构级别的决策，还是得自己来。

他的策略挺有意思，用Codex处理日常维护，用Claude Code做深度架构设计。两层走。

我觉得这个判断是中肯的。

现阶段的AI coding agent，不管是Codex、Claude Code还是Cursor，都还没到能独立做大型系统设计的程度。但日常的TypeScript错误修复、webhook更新、React组件改进、写测试用例这些事儿，确实已经可以非常放心地交给它了。

而Codex真正让我觉得不一样的地方，其实跟它写代码写得好不好没太大关系。关键是它在「写代码」之外做的那些事情。

它在试图把整个软件团队的工作流，变成一个可以被AI agent编排的系统。

你想想看，当一个工具同时能帮你review代码、分流bug、从Slack消息启动任务、把Figma设计稿转成代码、分析数据出报告、编排新人入职流程的时候，它的竞争对手已经不是Claude Code了。

它的竞争对手是Jira、是Notion、是Linear、是所有那些帮你管理软件开发流程的SaaS工具。

———

写到这里，我突然想到了一个词。

「界面侵蚀」。

这不是什么正式的学术概念，是我自己瞎起的名字。但我觉得它挺准确地描述了正在发生的事情。

你看，每一次技术范式的转移，真正被颠覆的，往往都不是你以为的那个东西。反而是那些你平时根本不会注意的「界面」。

就像智能手机出来的时候，大家觉得它要干掉的是诺基亚。但实际上它干掉的是数码相机、MP3播放器、GPS导航仪、掌上游戏机、手电筒。。。一大堆你根本没想到的东西。这些东西有一个共同点，它们都是某种「界面」，是人和某个特定功能之间的中间层。

iPhone做的事情，是把所有这些中间层吞掉，变成一个统一的界面。

AI coding agent可能正在做同样的事情。表面上看是在跟IDE和代码编辑器竞争，但如果OpenAI真的把Codex往「软件工程操作系统」这个方向推到底，那被吞掉的，是你和软件开发之间的所有中间层。

从需求管理到设计协作，从代码实现到质量保证，从部署运维到团队协同。

全链路。

有人可能会觉得我说得太夸张了。一个use cases页面而已，至于吗？

其实吧，我的判断倒不是基于这个页面本身。

而是基于一个更底层的逻辑。当一个AI agent的能力从「执行一个具体的编码任务」扩展到「理解一个完整的工作流并在其中承担多个角色」的时候，它的价值曲线就不是线性增长了。

它是指数级的。

因为工作流中的每个节点打通之后，节点之间的连接会产生新的可能性。Slack消息能触发代码任务，代码任务能读取Figma设计，Figma设计能生成前端组件，前端组件能自动跑测试。每多接一个节点，整个系统的能力就翻一番。

这不是我的想象，这就是Codex的use cases页面正在描述的东西。

当然了，我自己还是得保持一份清醒。

现在Codex的plugin生态才刚起步，很多集成的深度和稳定性还有待验证。benchmark数字再好看，跟实际生产环境的差距，大家都懂。

而且说实话，Codex现在还有一些挺基础的限制。比如装了虚拟机环境之后不能联网，单次任务有运行时长上限，复杂项目的上下文管理还不够优雅。

但这些，都是工程问题。

方向，才是那个值得关注的东西。

我有时候觉得，我们这些做AI的人，太容易陷入「模型哪家强」的讨论里了。GPT-5.4出了，Claude Opus 4.6出了，谁的benchmark高零点几个百分点，谁的代码通过率多了百分之多少。

但真正决定谁赢的，可能不是模型本身。

而是谁先想明白了，AI agent应该以什么样的形态，嵌入到人类的工作流里。

我非常理解有些朋友可能会觉得，这些东西离我太远了，我又不是程序员，我也不用Codex。

但你想想看，如果一个AI agent能把「写代码→审代码→修bug→做设计→出报告→编排流程」这整条链路都吃下来，那换一个领域呢？换成「调研→写方案→做PPT→发邮件→跟进反馈→更新文档」呢？

逻辑是一样的。

Codex只是第一个把这条路走出来的产品。它走的是软件工程这条路，但它验证的，是AI agent作为「数字员工」的可能性。

OpenAI的这个use cases页面，不管你信不信它的愿景，至少给出了一个非常清晰的回答。

不是做一个更好的IDE。

不是做一个更聪明的代码补全。

而是做一个，能理解你整个团队的工作方式，并且能在其中承担越来越多角色的，数字员工。

想想就觉得有点兴奋，也有点恐怖。

———

最后说一句。

还记得开头我说的吗？我是鬼使神差点进那个页面的。本来就是想查个API的事儿，结果看到了一整张蓝图。

我觉得很多时候，信息就是这样的。你以为你在找别的东西，结果真正重要的那个东西，自己跳出来撞到你脸上了。

但前提是，你得保持好奇。你得愿意多点一层，多翻一页，多想一秒。

如果你是开发者，我真的建议你去翻翻那个use cases页面。学不学Codex倒是其次，重要的是看看，这个行业的头部玩家，正在把棋子往哪里摆。

如果你不是开发者，也可以想想，你自己的工作流里，有哪些「界面」，是迟早会被AI吞掉的。

提前想明白这件事的人，不一定能赢。

但至少不会在某天早上醒来，发现世界变了，而自己是最后一个知道的。

理解棋局，比会下棋重要。

这好像，也是我们能做的为数不多的事。

磨平一点点信息差。