这两天在翻OpenAI的开发者文档,本来是想查个API的事儿,结果鬼使神差的,点进了Codex的use cases页面。
然后我就,嗯,怎么说呢,脑子里那根弦好像被拨了一下。
这上面列的东西,已经远远超出了我对一个「AI写代码工具」的认知范围。
Review PR、自动Bug分流、Figma设计稿转代码、Slack消息触发开发任务、数据分析出报告、新员工入职流程编排、iOS模拟器调试、甚至做PPT。。。
一共24个use cases,横跨工程、设计、运维、QA、产品,五个团队方向。
我当时的第一反应是,这玩意,还是那个我印象中的Codex吗?
坦率的讲,大部分人对Codex的印象,可能还停留在去年刚发布时候的样子。一个云端的coding agent,能帮你写写代码、修修bug、提个PR。跟Claude Code、Cursor是一个赛道的竞品。
但你现在再去看OpenAI给Codex规划的这张蓝图,你会发现,他们的野心,根本不在这个层面。
他们想做的,是一个软件工程的操作系统。
说真的,我自己看完这24个use cases之后,脑子里冒出来的第一个词,压根就跟「AI编程」没关系。我想到的是六个字,「工作流自动化」。
让我挑几个有意思的聊聊。你跟着我一起看,看看这24个use cases里面,到底藏了些什么东西。
先从一个听起来最正常的开始。「Review pull requests faster」,加速PR review。这个不稀奇对吧?很多AI工具都能做代码审查。但Codex的描述写的是,在人工review之前,先帮你把回归问题和潜在风险扫一遍。

注意这个措辞,「before human review」。
它不是要替代你做code review,它是要在你看之前先过一遍,帮你把那些你最容易漏掉的边界情况、逻辑错误先挑出来。相当于给你的每个PR安排了一个永远不会疲倦、不会因为周五下午犯困就草草approve的AI reviewer。
好,这个还算正常。往下看。
第二个,「Kick off coding tasks from Slack」。这个就有意思了。意思是,你在Slack群里讨论了一个需求,一个bug,或者任何一个技术问题,Codex可以直接把这个Slack对话线程,转化成一个明确的开发任务,然后在云端开始跑。
你想想这个场景。
以前你在群里聊完一个bug,然后得有人总结一下,开个ticket,分配给工程师,工程师打开IDE,看代码,写fix,提PR,等review。这个流程少说也得半天一天。
现在呢?Slack里聊着聊着,Codex直接就开干了。
这已经不是「辅助编程」了,这是在重新定义一个需求从产生到解决的整条链路。
我当时就在想,如果这个东西真的成熟了,产品经理在群里说一句「这个按钮的颜色好像不对」,可能还没等工程师回复呢,Codex已经提了一个PR上来了。
好,继续往下翻。
第三个,「Automate bug triage」。自动Bug分流。每天的bug报告进来,Codex自动帮你分优先级、打标签、甚至给出初步的修复建议。做过开发的都知道,bug triage这个活儿,在大厂是有专门的QA团队来做的,小团队的话就是工程师自己兼着,反正谁都不爱干,但不干又不行。
现在一个AI agent就给你搞定了。
但到这里为止,我还觉得,嗯,可以理解,毕竟都跟代码相关嘛。
真正让我有点懵的,是第四个。
「Coordinate new-hire onboarding」。协调新员工入职。
你没看错,一个代码智能体,在帮你做新员工入职流程的编排。准备入职文档、生成团队总结、搭建onboarding tracker。
我看到这个的时候,说实话,反复确认了好几遍。
这跟写代码有什么关系?
但你仔细想想,其实有关系。入职流程本身就是一系列需要自动化的工作流,涉及文档处理、数据整理、系统配置。这些事情说到底,跟写一段代码、跑一个脚本,没有什么区别。
Codex做的事情,就是把「写代码」这个能力,泛化成了「用代码的方式处理一切可以自动化的工作」。
这个转变,比很多人意识到的要大得多。
而且你别忘了,这24个use cases里面,还有「Build for iOS」「Adopt liquid glass」「Refactor SwiftUI screens」这种苹果生态的开发任务。前不久Copilot Xcode的创始团队直接加入了OpenAI的Codex团队,那个叫Daniel的创始人在推上发了一段话,说他们最初觉得做一个「Cursor for Xcode」很疯狂,但他们做到了,现在要带着这些能力加入Codex。
一个coding agent,开始往移动端开发、桌面端开发、数据分析、工作流编排全面铺开。
回到这个大图,再聊聊Codex最近搞的Plugin生态,这块也挺有意思。
今年3月底,OpenAI给Codex上线了插件系统。第一批就接入了Slack、Figma、Notion、Gmail、Google Drive。不是那种需要你自己折腾API Key的接入方式,是开箱即用的,装上就能跑。
其中Figma那个集成,我觉得还是挺重要的。
做过前端开发的朋友应该都知道,设计稿到代码这个环节,一直是整个开发流程中最折磨人的部分之一。设计师在Figma里画好了,前端工程师打开Figma量间距、取颜色、切图,然后一点一点在代码里还原。这个过程枯燥、耗时、还特别容易出错。
现在Codex可以直接读取你Figma文件里的设计稿,然后生成对应的前端代码。不是那种糊弄人的demo级别的代码,是带visual check的、可以跑通的responsive UI。

你如果关注这个领域的话,可能会说,v0不是也能做类似的事吗?对,但Codex的区别在于,它是跟你整个代码仓库打通的。它会在你现有的项目结构里、按照你已有的代码风格和组件库来写,跟你的工程上下文是打通的。这个差距,只有真正做过工程的人才能体会到有多大。
聊到这儿,顺带说一下Codex现在的体量,因为这个数据本身也挺说明问题的。
Dan Shipper前段时间在推上说了一句话,我印象很深。他说OpenAI现在最火的产品不是ChatGPT,是Codex。周活跃用户超过一百万,从今年1月到现在,用量涨了五倍。
五倍。
要知道Codex可不是免费的,至少得ChatGPT Plus才能用。这一百万人是实打实掏了钱的用户。
而且OpenAI内部自己也在重度使用Codex。他们的负责人之前在36氪的采访里说了一句很猛的话,大意是,OpenAI内部已经很少再打开IDE了。
我不知道这话有多少水分,但如果连OpenAI自己的工程师都在用Codex代替IDE了,那这个工具的完成度,可能确实已经到了一个临界点。
———
但我也不想只说好的,不说问题。那样不真诚。
我自己实际用下来的感受是,Codex目前在处理大型、复杂、需要深度理解架构的任务时,还是有明显的天花板。你让它修一个TypeScript的类型报错,它利索得很,但你让它帮你重构一个微服务的通信架构?还是算了吧。
Zack Proser写了一篇很详细的2026年Codex评测,里面有个数据挺有参考价值的,他说Codex在日常维护类的任务上,成功率已经到了85-90%,但架构级别的决策,还是得自己来。
他的策略挺有意思,用Codex处理日常维护,用Claude Code做深度架构设计。两层走。
我觉得这个判断是中肯的。
现阶段的AI coding agent,不管是Codex、Claude Code还是Cursor,都还没到能独立做大型系统设计的程度。但日常的TypeScript错误修复、webhook更新、React组件改进、写测试用例这些事儿,确实已经可以非常放心地交给它了。
而Codex真正让我觉得不一样的地方,其实跟它写代码写得好不好没太大关系。关键是它在「写代码」之外做的那些事情。
它在试图把整个软件团队的工作流,变成一个可以被AI agent编排的系统。
你想想看,当一个工具同时能帮你review代码、分流bug、从Slack消息启动任务、把Figma设计稿转成代码、分析数据出报告、编排新人入职流程的时候,它的竞争对手已经不是Claude Code了。
它的竞争对手是Jira、是Notion、是Linear、是所有那些帮你管理软件开发流程的SaaS工具。
———
写到这里,我突然想到了一个词。
「界面侵蚀」。
这不是什么正式的学术概念,是我自己瞎起的名字。但我觉得它挺准确地描述了正在发生的事情。
你看,每一次技术范式的转移,真正被颠覆的,往往都不是你以为的那个东西。反而是那些你平时根本不会注意的「界面」。
就像智能手机出来的时候,大家觉得它要干掉的是诺基亚。但实际上它干掉的是数码相机、MP3播放器、GPS导航仪、掌上游戏机、手电筒。。。一大堆你根本没想到的东西。这些东西有一个共同点,它们都是某种「界面」,是人和某个特定功能之间的中间层。
iPhone做的事情,是把所有这些中间层吞掉,变成一个统一的界面。
AI coding agent可能正在做同样的事情。表面上看是在跟IDE和代码编辑器竞争,但如果OpenAI真的把Codex往「软件工程操作系统」这个方向推到底,那被吞掉的,是你和软件开发之间的所有中间层。
从需求管理到设计协作,从代码实现到质量保证,从部署运维到团队协同。
全链路。
有人可能会觉得我说得太夸张了。一个use cases页面而已,至于吗?
其实吧,我的判断倒不是基于这个页面本身。
而是基于一个更底层的逻辑。当一个AI agent的能力从「执行一个具体的编码任务」扩展到「理解一个完整的工作流并在其中承担多个角色」的时候,它的价值曲线就不是线性增长了。
它是指数级的。
因为工作流中的每个节点打通之后,节点之间的连接会产生新的可能性。Slack消息能触发代码任务,代码任务能读取Figma设计,Figma设计能生成前端组件,前端组件能自动跑测试。每多接一个节点,整个系统的能力就翻一番。
这不是我的想象,这就是Codex的use cases页面正在描述的东西。
当然了,我自己还是得保持一份清醒。
现在Codex的plugin生态才刚起步,很多集成的深度和稳定性还有待验证。benchmark数字再好看,跟实际生产环境的差距,大家都懂。
而且说实话,Codex现在还有一些挺基础的限制。比如装了虚拟机环境之后不能联网,单次任务有运行时长上限,复杂项目的上下文管理还不够优雅。
但这些,都是工程问题。
方向,才是那个值得关注的东西。
我有时候觉得,我们这些做AI的人,太容易陷入「模型哪家强」的讨论里了。GPT-5.4出了,Claude Opus 4.6出了,谁的benchmark高零点几个百分点,谁的代码通过率多了百分之多少。
但真正决定谁赢的,可能不是模型本身。
而是谁先想明白了,AI agent应该以什么样的形态,嵌入到人类的工作流里。
我非常理解有些朋友可能会觉得,这些东西离我太远了,我又不是程序员,我也不用Codex。
但你想想看,如果一个AI agent能把「写代码→审代码→修bug→做设计→出报告→编排流程」这整条链路都吃下来,那换一个领域呢?换成「调研→写方案→做PPT→发邮件→跟进反馈→更新文档」呢?
逻辑是一样的。
Codex只是第一个把这条路走出来的产品。它走的是软件工程这条路,但它验证的,是AI agent作为「数字员工」的可能性。
OpenAI的这个use cases页面,不管你信不信它的愿景,至少给出了一个非常清晰的回答。
不是做一个更好的IDE。
不是做一个更聪明的代码补全。
而是做一个,能理解你整个团队的工作方式,并且能在其中承担越来越多角色的,数字员工。
想想就觉得有点兴奋,也有点恐怖。
———
最后说一句。
还记得开头我说的吗?我是鬼使神差点进那个页面的。本来就是想查个API的事儿,结果看到了一整张蓝图。
我觉得很多时候,信息就是这样的。你以为你在找别的东西,结果真正重要的那个东西,自己跳出来撞到你脸上了。
但前提是,你得保持好奇。你得愿意多点一层,多翻一页,多想一秒。
如果你是开发者,我真的建议你去翻翻那个use cases页面。学不学Codex倒是其次,重要的是看看,这个行业的头部玩家,正在把棋子往哪里摆。
如果你不是开发者,也可以想想,你自己的工作流里,有哪些「界面」,是迟早会被AI吞掉的。
提前想明白这件事的人,不一定能赢。
但至少不会在某天早上醒来,发现世界变了,而自己是最后一个知道的。
理解棋局,比会下棋重要。
这好像,也是我们能做的为数不多的事。
磨平一点点信息差。
夜雨聆风