别了,纯聊天AI:ChatGPT与Codex合并后的执行革命

2026年6月3日深夜，OpenAI在一场名为《工作中的智能》的线上直播中宣布了一项酝酿已久的重磅决定：未来几周内，Codex的核心能力将正式整合进ChatGPT。一石激起千层浪，硅谷技术社区的讨论热度迅速蔓延至全球开发者圈层。与此同时，OpenAI一口气推出了六个面向具体岗位的Codex插件，覆盖数据分析、创意生产、销售、产品设计、公开股票投资和投行业务；还公布了Codex周活跃用户突破500万的关键数据，其中非开发人员占比约20%，增速是开发者的3倍以上。

这不是一次简单的产品合并——Codex能读写文件、处理代码库、执行复杂任务，本质上是一个能“干活”的执行型工具；ChatGPT则是对话型AI的全球最大入口，周活用户超过9亿。两者合体，意味着OpenAI正试图将AI从“会聊天”升级为“能干活”。

一、七周变数：从泄露到落地的产品整合

实际上，这场整合的变数，远不止一次产品发布会这么简单。整个故事可以从两个时间节点讲起。

节点一：三月意外泄露的产品重组。今年3月，据《华尔街日报》等多家媒体报道，OpenAI正在计划一场近年来最大的产品重组：将ChatGPT对话应用、Codex编程平台和自研浏览器Atlas分阶段整合进统一的桌面超级应用。OpenAI应用业务CEO内部备忘录坦言，过去一年产品策略存在偏差，最终由总裁Greg Brockman临时督阵产品整合。当时外界得到的信号是：三款产品会在几个月后走向统一，Codex很大概率将成为ChatGPT的“执行核心”。

节点二：六月全面落地的战略总攻。六月第一周，OpenAI正式加速了此前计划的执行。发布会上宣布未来几周内Codex能力将直接接入ChatGPT，同时额外增加了6个面向具体岗位的插件。整合完成后，用户无需在两个产品间反复切换，Codex的Agent能力将并入ChatGPT，覆盖桌面端、移动端、浏览器，以及Excel、Slack、PowerPoint等企业常用工具。

而这只是整合的第一步。据《华尔街日报》此前披露的规划，OpenAI的最终版本是把ChatGPT对话界面、Codex执行内核和Atlas浏览器统一打包为一个桌面“超级应用”（Superapp），未来AI系统会自动判断哪一个Agent在哪一个环境中执行任务。

应该说，这个产品决策是在AI大模型市场极度拥挤、头部厂商竞争白热化的背景下做出的。2026年以来，Google推出了Antigravity编程智能体套件，亚马逊新增代码微调智能体，英伟达开源Nemotron3 Ultra主攻长效编程训练。国内字节跳动Trae、阿里通义灵码、腾讯CodeBuddy等大厂产品也纷纷下场。而OpenAI的整合，其实是在锚定一个更紧迫的战略目标：赶在竞争对手之前，完成从“AI写作、聊天”到“AI真正干活”的关键跨越。

二、合体之后：技术能力的三大升级

用户最关心的，自然是两者叠加后，产品的技术能力会发生哪些实质性变化。我们从模型能力、执行能力和应用能力三个维度展开分析。

① 模型层：GPT-5.5成为首款统一旗舰模型。去年年底，GPT-5.4就已实现了Codex和GPT产品线的首次统一，支持100万token上下文窗口（约5000页文档或一个大型代码仓库）并支持原生计算机操控。今年4月，OpenAI进一步发布了GPT-5.5，这是自GPT-4.5以来首次在旗舰AI中整合新基础模型。GPT-5.5在Codex模式下被定位为“目前最强的agentic coding模型”，在Terminal-Bench 2.0上达到82.7%的准确率，SWE-Bench Pro上达到58.6%。据OpenAI透露，GPT-5.5在内部被广泛用于跨部门工作：超过85%的员工每周在软件工程、财务、市场等不同岗位中使用Codex。更重要的是，GPT-5.5在完成相同Codex任务时比GPT-5.4消耗更少的token，效率更高——这对日常大规模使用尤为重要。

② 执行层：从“辅助工具”到“独立执行单元”。如果说GPT系列模型提供的是“思考”，那么Codex带来的就是“动手”的能力。此前两产品独立时，典型的工作流是用户在ChatGPT问问题，拿到答案后再到别的地方执行。合并后，用户可以在对话窗口中以自然语言下达指令，底层Codex系统就能自主完成任务规划、代码执行和结果交付，包括数据分析、网页搭建乃至跨应用的复杂工作流。一位真实用户分享了这样的体验：给Codex一个新产品PRD，只说“go”，代码自动跑了几小时，从构建到可视化检查再到功能迭代形成完整闭环。这就是Codex模式带来的最大变化——AI不再依赖你每一步的纠正和修正，而是能从高层意图出发独立推动工作的完成，用户角色从“编码者”转变为“结果验收者”。

③ 应用层：六个岗位插件 + Sites + Annotations。 Codex新增的六类插件合计覆盖62个热门应用和110项技能。具体来说：数据分析插件连接Snowflake、Tableau等工具完成查询与报表生成；销售插件连接Salesforce、HubSpot等处理客户研究和线索跟进；创意生产和产品设计插件进入Figma、Canva的流程，实现设计素材和产品原型生成；金融类插件则接入Moody‘s、FactSet等专业金融工具，覆盖研究、估值和投行材料等工作。同时，Sites功能允许Codex把工作成果直接转换为交互式网页或轻量应用，通过链接分享给团队协作；Annotations则支持用户在Codex生成的文档、图表里直接圈选修改，像批注一样让AI继续加工。这些变化意味着Codex正在从聚焦编程的开发者工具，扩展为跨白领岗位的通用执行者。

总结来看，这次整合的三大技术升级环环相扣：模型层提供更强的“思考引擎”，执行层赋予“动手”的能力，应用层则把这些能力对齐到具体的工作场景。这是一条从“聊天”到“执行”的技术演进路径。

三、两个世界：开发者社区的激烈争议

与产品团队充满信心的姿态形成对照的，是技术社区内部几乎撕裂成两个阵营的剧烈反应。

支持一方的声音集中在“终于不用来回切换工具了”。一部分开发者分享了正面的使用体验：比如在CLI与IDE插件中更加流畅的操作、新版计划模式提供的更清晰的步骤反馈等。对于需要同时使用ChatGPT做架构讨论和Codex执行的深度用户来说，统一界面意味着工作流的顺畅度大幅提升。一位金融公司工程师的评价代表了这个群体的情绪：“以前同样的上下文要分别在两个产品里讲两次，现在在一个地方就能完成全流程。”

反对一方的担忧则是：Codex会不会在9亿人使用的通用入口里失去它的“专业灵魂”？此前，Codex在用户设备上本地运行，可以直接读写文件、处理代码库、执行复杂任务，用户对工具的掌控感是独立而完整的；ChatGPT的核心体验则在云端完成对话。当Codex被整合进ChatGPT后，一些开发者担心专业开发中的精细体验会在通用化中受损。如一位Reddit用户的尖锐评论：“我不是要在客厅里干活，我需要在工程台上干活。请不要把工程台拆掉。”

更深层的争议是控制权的转移。当Codex从独立桌面应用进入ChatGPT统一入口，它的运行逻辑也从“用户驱动”逐渐转向“Agent自主”。OpenAI方面的表态非常清晰：你可能不会24小时工作，但你在云端的Agent可以。也就是说，AI的自主执行权会越来越强。对习惯于掌控一切细节的专业开发者而言，这意味着一场权力交接——从“我告诉AI每一步怎么做”变成“我给AI一个目标，剩下让它自己判断”。

四、七寸之争：合并背后的市场逻辑

要理解OpenAI这次为什么非合并不可，还得把眼光拉回到行业的竞争全局上。

竞品格局：Claude Code已经抢走大半蛋糕。根据Menlo Ventures最新数据，Anthropic在编程场景已占据54%的模型份额。调查显示Claude Code已成为开发者最喜爱的AI编程工具（46%的喜爱度），远超其他竞争者。Claude Code的杀手锏在于其终端原生架构，它直接操作文件系统、执行bash命令、维护跨会话状态，就像一个可以直接雇用的初级开发者，而非简单的自动补全工具。这种产品体验正在快速蚕食市场，并在2026年初实现年化收入25亿美元的规模，速度惊人。

与此同时，Cursor作为AI原生的代码编辑器也快速崛起，从100万美元ARR到10亿美元ARR仅用了24个月，创造了B2B SaaS历史上的增长速度奇迹。全球AI编程工具市场规模在2025年已达到295.7亿美元，预计到2030年将攀升至646.8亿美元，年复合增长率约17.1%。

可以说，从市场占有率上看，OpenAI虽在编程场景不算落后，但较晚入局，用户心智在真正“干活”的场景上已被Claude和Cursor提前占据，留给OpenAI的市场窗口并不大。

OpenAI的新打法：用ChatGPT的9亿流量带执行能力出圈。 Codex周活跃用户已从2月到6月狂涨了6倍，突破500万。更值得注意的是，非开发人员知识工作者的占比约20%，而增速是开发人员的3倍以上。换言之，以前只被程序员当作写代码工具的东西，正被更多的营销人员、分析师、设计师、银行从业者、投资者使用。将Codex通过ChatGPT这个大入口推给这些非技术工作岗，是OpenAI的自然选择。OpenAI将Codex的定位从“写代码工具”，全面拓展为能够处理数据分析、销售准备、市场素材、产品原型、投资研究、工程修复和安全扫描的全能工作Agent。显然，这次整合的核心目标不是编程领域的增量，而是将Codex的能力输出给9亿ChatGPT用户，打开一个远大于编程市场的企业服务空间。

与此同时，OpenAI与Anthropic在企业市场的比拼也越来越激烈。从营收数据来看，Anthropic截至2026年4月的年化收入已超300亿美元，而OpenAI为250亿美元左右。但OpenAI第一季度营收57亿美元，略高于对手。OpenAI高管明确表示，企业客户贡献约40%的收入，目标是在今年年底前达到50%。除了将Codex整合进ChatGPT，OpenAI还紧跟Anthropic布局，推出面向金融和法律领域的AI工具。将Codex接入9亿用户入口，再配合针对专业岗位的插件，是OpenAI为企业客户打造的一个高黏性、全场景的方案。

五、用户的真实感受：变革的B面

从更微观的视角看，这次产品合并已经开始影响用户的日常使用体验。但感受并非一边倒的积极。

从积极的方面看，跨设备体验的打通是明显改善。早在5月，OpenAI已将Codex集成到ChatGPT移动应用中，支持所有套餐用户在iOS和安卓平台上远程连接本机Codex环境，实时查看任务进度、审批指令和发起新任务。一位产品经理分享，他出差时用手机登录ChatGPT连接办公室的Codex，让AI在几个小时里跑完数据分析后，第二天回到办公室直接验收结果，这在以前是难以想象的效率提升。很多用户也称，这种跨端体验的打通“补上了24小时干活的最后一块拼图”。

但从消极的方面看，与500万用户规模一同到来的，还有社区对OpenAI商业策略的不满。OpenAI为庆祝500万用户主动重置了付费用户的Codex使用额度，但不少用户并不认可这个策略，部分人讽刺其为“作秀”——认为新一周刚开始额度还没消耗，重置反而浪费了原有的使用节奏。更棘手的是，Codex用户在使用超出限额后需额外购买credits才能继续使用，这对于需要长期跑复杂任务的开发者来说是真实的成本压力。

这种收费策略背后的深层逻辑是整个行业都在经历的模式转型。微软旗下的GitHub Copilot已于2026年6月1日宣布告别包月无限模式，转而采用按token消耗的按量付费，有用户估算自己的月成本从不到30美元可能暴涨至746美元，甚至有人晒出账单截图称新收费下月支出可能接近3000美元。整个AI编程工具行业正从“花几十美元，得到近乎无限的智能助手”转向“按资源消耗计费”——这一转型正在重塑用户的价值预期，也意味着开发者需要重新审视自己的AI辅助支出结构。

六、AI编程赛道的未来：从Code Helper到Work Executor

纵览这次产品合并的前因后果，我们或许能从中看出AI编程赛道正在经历一次深层次的范式转移：

过去：AI是代码补全工具（Copilot、早期Codex），主要工作在IDE内部辅助人类完成编码任务。开发者掌握工具，AI只是听从指令的执行者。

现在：AI是工程伙伴（Codex + ChatGPT），能理解任务目标，跨文件操作，自主迭代并交付完整结果。开发者“对AI发号施令”，AI负责将指令转化为可交付的成果。

未来：AI是执行单元（Agentic Work Executor），可能全天24小时在云端自主工作，处理复杂工作流，让“告诉AI做什么，然后验收结果”成为常态。用户不再需要时刻守在屏幕前引导AI。

可以预见，AI编程赛道正在变成一场全面比拼“谁能帮人真正完成工作”的竞争。ChatGPT与Codex的合体是OpenAI在这场竞争中所下的最关键的一枚棋子——它试图用9亿用户流量、Codex的执行力，加上行业场景插件，构建一个在垂直行业和通用编程场景都能产生高商业价值的大模型产品网络。

而这场战役的阶段性胜负判定标准，或许可以看几个关键指标：Codex非开发用户占比能否在未来6个月内从20%提升到40%以上；融合后的超级应用能否真正减少用户切换不同AI工具的摩擦成本；以及OpenAI能否借此缩小与Anthropic在企业市场的价值差距、甚至实现反超。一切，还要看市场的最终选择。

重新发明PC：黄仁勋的Agent原生电脑如何重构英特尔时代

世界杯能否成为小红书的成年礼？

从“炫参数”到“解难题”：2026世界智能产业博览会释放的产业变革信号