乐于分享
好东西不私藏

Codex App会成为CC之后第二个杀手级AI应用

Codex App会成为CC之后第二个杀手级AI应用

虽然OpenAI最近官司缠身,舆论场上几乎没怎么消停过,但有一件事正在发生——Codex App正在收复失地。

它是OpenAI史上增长最快的产品。今年5月的组织架构重组后,管理层直接将ChatGPT、Codex和开发者API业务合并到了一个核心产品部门。前所未有的资源正在涌入这场与Anthropic的终极决战。

作为Codex App忠实用户,我深知它在产品体验方面的努力并越来越趁手。它在产品体验与用户增长方面表现的如此优秀,这篇文章便是一个对它的战略和产品体验的一个概览。

从危机到反击

过去两年,OpenAI的业务版图铺得太开了——视频生成器Sora、硬件设备、电商功能,每一个方向都想抢占入口。这种四面出击的策略的确符合一个AI先驱的姿态,谁先把未来的入口占住,谁就可能赢下下一代操作系统。

但问题在于,叙事可以无限扩张,组织和算力却不会。不同项目组之间频繁争夺GPU资源,算力经常在最后一刻被生硬抽调,拆东墙补西墙的做法不仅拖慢了核心模型的迭代,更让原本应该高度协同的战线变得支离破碎。

就在OpenAI忙着到处插旗的时候,Anthropic在企业级市场已经攻城略地。2025年5月发布,9个月就拿下了25亿美元的ARR,GitHub上4%的公开commit由它生成。企业市场里,Claude Cowork完全占据主导,Anthropic的份额一路翻倍。根据内部数据,Anthropic的ARR从2025年12月的90亿美元,飙升到了2026年3月的300亿美元。

OpenAI终于坐不住了。

2025年12月,Sam Altman下达了“Code Red”指令。应用部门负责人Fidji Simo在全员会上明确表态:不能再被支线任务分散注意力,必须死磕企业与编程这条生产力红线。公司开始收敛战线,砍掉边缘项目,把算力和人力往核心产品线集中。

紧跟着是一连串密集的反击动作——2026年2月Codex专属桌面应用发布,3月子智能体并发调度功能实装,3月24日Sora被彻底关停,每天1500万美元的算力开销全部转移到了智能体平台研发上。4月23日,GPT-5.5正式上线,在Terminal-Bench 2.0上拿到了82.7%的成绩,相比Claude Opus 4.7的69.4%拉开了13个百分点的差距。5月中旬,Greg Brockman全面接管产品线,将ChatGPT、Codex和API业务彻底合并,完成了超级应用形态的组织对齐。

这场整合的掌舵者,是Thibault Sottiaux。

他的履历很有意思——微软AI副总裁兼杰出科学家出身,长期处于研究与工程的交叉地带。在OpenAI,他主导了编码智能体系统的基础架构建设,凭借将编码工具打造成公司内部增长最快产品的工程业绩,在2026年5月的重组中获得了晋升,全面接管由对话接口、编码平台和API合并而成的核心产品与平台部门。

用户的真实反馈

数据不会骗人,但用户的抱怨更能说明问题。

过去几个月,Claude Code的负面反馈几乎可以用“爆破”来形容。性能下降是最大的导火索。AMD的AI总监统计了6852个会话后发现,Claude Code的思考深度骤降67%,不良行为触发次数飙升173%。Anthropic后来发了一份“检讨书”,承认了一连串的工程失误——3月4日偷偷把默认推理强度从high改成了medium,3月26日缓存Bug导致历史推理每次都被清除,4月16日系统提示又限制了响应长度。

Reddit上一位开发者愤怒地指出,Claude Code在实际开发中“不再服从或尊重CLAUDE.md[1]、hooks/rules等规则”,发帖者反问——如果工具的运行框架已经不再遵循原则,那么定义架构设计原则还有什么意义?

Token消耗的问题更是让开发者叫苦不迭。一位Pro用户说,自己3分钟就用掉了5小时会话配额的60%。开发者们抱怨说,Claude Code变得“迟钝”、“健忘”且“重复”,甚至有用户因此取消了订阅。面对日益增长的负面反馈,Anthropic一开始的回应被一些人认为是“煤气灯效应”,暗示性能问题是用户自身感知偏差或使用方式不当所致。这种沟通方式进一步激化了用户的不满。

与此同时,Codex的用户口碑在悄然逆转。下载量数据最为直观——截至5月第一周,Codex的npm下载量达到8610万次,Claude Code则跌至720万次,前者是后者的12倍。Reddit上有用户把转折点归结为两个字:“信任”。Claude Code原来是最理所当然的选择,但现在开发者们正在用行动投票。一个真实的产品细节让大量用户迁移:Codex桌面端用户可以获得双倍的使用额度限制——就这么一个简单的产品决策,成了压垮天平的关键砝码。

产品力打败偏科生

2026年上半年有一组数据值得反复咀嚼。一项覆盖500多名资深开发者的独立盲测显示:在纯代码质量和惯用法评估中,Claude Code以67%的胜率碾压了Codex的25%,但在真实日常开发中,高达65%的受访者依然把Codex作为主力工具。

模型基准测试与用户用脚投票之间的背离,印证了一个朴素但深刻的结论——在AI编码工具这个战场上,产品体验正在战胜模型纯度。

下面是我认为Codex在体验层面拉开代差的几个关键设计:

1、体验优秀的图形界面

当Anthropic将Claude Code锁死在极客向的终端环境时,OpenAI做了一个违背行业直觉的决策——为Codex打造原生的图形化桌面应用。非技术背景的产品经理、设计师、业务运营人员几乎无法在命令行里工作,而Codex的图形控制台让这一整个群体都能直接调用智能体完成任务。Anthropic后期追赶推出了桌面客户端,但其基于Electron的厚重封装引发了灾难性后果——卡顿、内存泄漏、会话冻结,用户最终不得不退回命令行。Codex的原生桌面应用从底层绕过了这个陷阱。

2、用Git Worktree加沙盒解决并发任务与安全问题

Claude Code产品定位停留在“强监督的结对编程助手”阶段——每个高危操作都需要人类授权,断点贯穿整个开发流程。Codex走向了完全不同的方向:原生集成了Git工作树隔离机制,允许一个管理节点同时拉起最多八个工作进程在相互隔离的代码副本上并发执行。开发者从微观的代码审查者晋升为宏观的任务指挥官,下达指令后即可离开,等待沙盒完成全套修改并返回合并请求。

3、用内嵌浏览器完成视觉验证闭环

Codex桌面端内嵌了原生浏览器引擎,与主进程共享上下文,可以自主启动本地开发服务器、解析DOM、模拟点击并捕获控制台日志。修改界面后,智能体能自动截取前后画面做视觉回归比对。Claude Code的桌面端虽然也试图用Computer Use补齐GUI操作能力,但它的使用体验仍被诟病为“烂到没法用”,大量Bug让基础功能频繁失效。OpenAI早年布局Atlas浏览器的“分散投资”,此时反倒成了生态护城河。

4、审查机制构筑心理安全网

Codex引入的审查面板将AI生成的代码降级为带高亮差异的工程提案,用户可以在具体代码行添加内联注释进行驳回或暂存操作。这个设计在视觉和操作逻辑上完美复刻了企业团队的PR工作流,确保人对工程基础设施始终持有绝对裁量权。

5、Computer Use补上GUI操作这一环

Computer Use的价值,不是给模型多装一个“截图插件”,而是把图形界面变成智能体可以直接执行的通用接口。模型先读取屏幕画面,判断按钮、输入框、菜单和页面状态,再输出点击、滚动、输入、按键等动作;宿主环境执行后把新的截图回传给模型,形成连续的观察、决策、行动闭环。它绕开了“每个网站、每个App都要单独接API”的限制,让智能体可以像人一样操作浏览器、桌面应用和表单流程。但这项能力真正能否变成生产力,取决于产品外壳是否把权限控制、安全确认、会话恢复和视觉验证做稳。否则模型拥有了手脚,用户得到的却只是更高频的误点、卡死和不可控。

超级App

5月的组织重组不仅仅是内部架构调整,它释放了一个明确的信号:OpenAI正在构建一个“操作系统”级别的桌面端超级应用。

这一战略决策的指向清晰而坚定——抢占企业级市场的入口。原先离散的产品线被彻底打通,ChatGPT对话接口、Codex代码环境与Atlas浏览器共享同一个内存与上下文空间。当你在一款应用里就能完成从聊天、编程到浏览的完整工作流时,单独订阅ChatGPT Plus、Claude Pro、GitHub Copilot、Cursor就变成了一笔冗余的开销。

硅谷模型3巨头的模型轮流坐庄,Google和OpenAI具有全模态整合能力,但是Google的产品的体验非常的差,你可以在X上看到用户在Antigravity帖子的评论区宣泄着自己的愤怒。

而OpenAI在C端用户群体中积累了最多的体验设计和布局,加上前期分散精力开发的多个产品,如今在卓越的产品力统筹下,即将诞生AI时代第一个超级AI应用——极致的产品设计永远是留住C端用户最强的法宝。

桌面级应用始终是兵家必争的入口平台,谁先完成统一工作台的构建,谁就拥有了定义下一代软件交互形态的话语权。

结论

回想Claude历次处理用户口碑危机的行为,不好说这是一种傲慢还是业余。形成对比的是,Codex App的负责人Sottiaux始终保持自己与用户的距离,他在X上无数次主动询问用户诉求与痛点,并在出现严重bug后主动通知大家重置所有额度来弥补用户损失。

这些都是优秀产品经理的基本素养。然而这没有发生在Claude Code和Antigravity上。

接下来是最令人期待的:ChatGPT、Codex和Atlas等多个产品的整合,人们终于可以不用同时订阅多个AI工具,在多个窗口之间切换,在做任何工作前询问什么工具最好,在做任何工作时操心每个工具的Token消耗。

AI工具的大一统,终于还是来了。

引用链接

[1] 不再服从或尊重CLAUDE.md: http://xn--claude-vp7io5c0ymgn3aryoz6n984k.md/