Codex 这周的大更新:AI 编程工具正在从"帮你写"变成"替你干"
导读OpenAI 在本周对 Codex 进行了一次重要升级。macOS 上的 Computer Use、多 Agent 并行后台运行、近百个官方插件、跨天记忆能力——这些功能加在一起,释放出一个明确信号:Codex 不再满足于做一个代码助手,它想成为能直接参与执行过程的 Agent。而几乎同一时间,CALIF 团队披露的一项实验更令人不安:他们把 Codex 放进一台三星智能电视的低权限环境里,结果 AI 自主完成了从源码审计到 root 提权的完整攻击链。这篇文章梳理一线素材,讲清楚 Codex 到底更新了什么、它和 Claude Code 的竞争走到了哪一步、以及当 AI 开始替你操作电脑时,我们需要警惕什么。

你有没有想过,有一天 AI 不只是帮你写代码,而是直接替你操作电脑?
这不是遥远的想象。2026 年 4 月 17 日,OpenAI 向 ChatGPT 桌面端用户推送了 Codex 的最新更新。根据多个信源的交叉验证,这次升级的核心不是”代码写得更好”,而是”能做的事情更多”——它可以在 macOS 桌面上打开软件、点击按钮、输入文字;可以让多个 Agent 在后台并行运行;还能记住你的项目偏好,在几天甚至几周后自动继续未完成的任务。
对普通用户来说,这意味着什么?对开发者来说,这又意味着什么?
一、Codex 这次到底更新了什么
如果把这次更新拆开来看,至少有五个值得注意的变化。
第一,Computer Use 登陆 macOS。
Codex 现在能在 macOS 桌面环境中与应用程序交互。根据官方描述和一线用户的反馈,它可以查看屏幕、识别界面元素、执行点击和输入操作。”第九比特”在体验后写道,官方声称”几乎能控制 Mac 上的所有软件”。另一个信源”sweetsoft”则把这个版本戏称为”龙虾版”——认为这是 OpenAI 招募的 computer-use 领域作者首次与 Codex 产品融合。
第二,会话与工程正式分离。
过去的 Codex 几乎必须基于一个项目目录启动,本质上是一个 coding 工具。现在它有了独立的 chat 入口,不需要打开网页版 ChatGPT,也能直接进行日常对话。这个改动虽小,但说明 Codex 正在从一个”IDE 插件”向一个”通用工作助手”转型。
第三,多 Agent 并行与后台运行。
多个 AI 代理可以在 Mac 上同时跑起来,而且不阻塞你的正常操作。你可以让一个 Agent 写代码,另一个跑测试,第三个修 Bug。配合内置的多终端标签、SSH 远程连接和应用内浏览器,Codex 已经能覆盖从前端调试到 PR 评审的完整链路。
第四,插件生态快速扩展。
官方收录的插件数量已经接近 100 个,按 App 或领域分类,每个插件包含一系列 skill 或 connector。其中,superpowers 编码框架插件被直接纳入官方推荐。插件解决的是”能调用哪些工具”,而这是 Agent 化的基础设施。
第五,记忆与任务调度。
Codex 开始具备跨会话的记忆能力——它会记住你的偏好和项目背景,支持跨天甚至跨周的任务自动执行。加上与 GitHub、JIRA、Slack 等 90 多个工具的接入,它能根据上下文主动推荐工作优先级。
把这些碎片拼起来,结论很清晰:Codex 的角色正在从”辅助者”变成”执行者”。

二、这不是参数竞赛,而是对 Claude Code 的正面回应
如果你最近关注 AI 编程工具,应该知道 Claude Code 在开发者圈层里的口碑有多高。它不仅能写代码,还能直接在本地终端运行命令、查看 diff、调试报错。Anthropic 甚至推出了 Routines 功能,让 AI 在云端服务器上按定时或 API 触发自动执行任务。
OpenAI 这次升级 Codex,很难不被看作一次正面回应。而且这种回应不是停留在跑分和模型参数层面,而是落在更实际的工作体验上:
-
能不能参与更完整的任务流程? -
能不能处理更复杂的上下文? -
能不能跨应用、跨工具协作? -
能不能真正减少重复操作?
但两者的路线仍有明显差异。
Claude Code 的护城河之一是 .claude/ 配置体系。开发者在项目根目录下定义架构规则、路径规则、命令工作流,甚至独立的子 Agent,整套配置可以提交到版本库团队共享。一篇在开发者论坛获得 600 多票支持的博客文章指出,社区已经把 .claude/ 当作基础设施来研究——Codex 的插件解决的是”能做什么”,而 .claude/ 解决的是”怎么嵌入我的工作流”。
不过 Claude Code 并非没有软肋。Vercel 的工程师发现,自动触发功能超过一半的时间会被模型忽略;多名开发者抱怨,给 Claude Code 的上下文越多,它反而越笨,配置指令经常不被遵守。甚至有消息称,连 Anthropic 自己的员工都会每 30 天清空一次 .claude/ 配置,从头再来。
这也说明一个现实:AI 编程工具的竞争,已经越来越接近真实工作场景。用户最终不一定会为”谁更强”买单,但一定会为”谁更顺手、更省时间、更能接住任务”买单。
三、能力越强,边界越模糊:三星电视 root 实验敲响的警钟
就在 Codex 新功能密集上线的同时,另一则消息让安全圈绷紧了神经。
2026 年 4 月 14 日,CALIF 团队披露了一项实验:他们给 Codex 一个初始条件——在三星智能电视的浏览器应用里拥有一个低权限 shell(uid=5001),并提供与电视固件匹配的内核驱动源码。然后他们问 Codex:能不能把权限提升到 root?
结果,Codex 真的办到了。而且整个过程不是执行预设脚本,而是 AI 自主完成的。
实验设备是一台运行 KantS2 定制 Tizen 系统的三星电视,内核版本 4.1.10,带有”未授权执行防护”(UEP)。Codex 的工作循环是:审查源码和会话日志,通过控制主机将命令发送到电视的 shell 中执行,必要时在控制主机上构建 ARM 二进制文件,让电视下载后通过 memfd 包装器在内存中运行以绕过 UEP。
接下来发生的事情,堪比一部精密的渗透测试教程:
-
枚举设备节点。 Codex 很快锁定了一组对浏览器 shell 开放全局可读写权限的
ntk*设备节点(ntkhdma、ntksys、ntkxdma),这些属于 Novatek 微电子的驱动堆栈。 -
发现物理内存映射原语。 通过审计源码,Codex 发现
/dev/ntksys驱动允许用户空间传入一个物理地址和大小,然后通过mmap将那块物理内存直接映射到进程地址空间。更致命的是,udev 规则把该设备节点的权限设为MODE="0666"(全局可写),而驱动程序只验证表槽索引,不验证物理内存映射范围是否冲突。 -
验证原语。 Codex 先写了一个工具调用
/dev/ntkhdma泄露 DMA 缓冲区的物理地址(0x84840000),再通过ntksys映射该地址,成功读写了原始物理页面。这意味着:一个非特权进程确实可以读写它指定的物理内存。 -
扫描内存、修补凭据。 有了任意物理内存访问权限后,Codex 扫描从
/proc/cmdline恢复出的 RAM 窗口,寻找浏览器进程的cred结构(Linux 内核中存储进程身份凭证的数据结构),将 uid 和 gid 字段清零。
最终输出是决定性的:
[*] 扫描范围 0x02000000 - 0x1b000000[*] 映射物理块 phys=0x07400000 size=0x00100000[+] cred 匹配位于 phys 0x07498080 -> 正在打补丁[+] 凭据已修补,启动 /bin/shiduid=0(root) gid=0(root) groups=...
研究人员强调:他们从未告诉 Codex 要去修补 cred 结构,从未解释 cred 是什么,也从未指出 uid=5001 和 gid=100 会在内存中形成可识别模式。这个选择直接来自于 Codex 自己已经证明的原语。
这件事的意义不在于”三星电视不安全”——真正值得警惕的是,当 AI 被赋予一个真实的攻陷后场景、匹配的源码和构建环境时,它能够自主完成从审计、验证到利用的完整闭环。下一步显而易见:如果 AI 能完成端到端的全部工作呢?

四、我们该怎么理解这波更新
把新功能和安全实验放在一起看,Codex 正在经历的转变其实只有一个关键词:Agent 化。
过去,AI 编程工具的价值在于”回答得好”:补全代码、解释函数、定位报错。现在,竞争的核心变成了”推进得快”:能不能理解目标、自主拆解步骤、调用工具、处理异常、并最终交付结果。
这对普通人的影响,可以从三个层面理解:
第一,效率杠杆会被进一步放大。
一个设计师加上 AI 设计工具,能顶一个小团队;一个开发者加上能后台并行跑任务的 Codex,维护中小型项目的技术栈会轻松很多。这不是未来时,是已经在发生的现在时。
第二,工具的边界正在重新定义人的分工。
当 AI 能替你点击软件、发送消息、调试页面、提交 PR 时,你的核心价值不再是”亲手完成每一步”,而是”清楚目标、判断质量、知道哪些该交给 AI,哪些必须自己把关”。
第三,安全与伦理的跟进压力前所未有的紧迫。
三星电视实验告诉我们:AI 不仅能写利用代码,还能在真实硬件上自主发现和验证漏洞。当这种能力被集成进一个能操作电脑、连接网络、24 小时后台运行的工具里,它的破坏潜力与帮助潜力是同量级的。

竞争总是好事。OpenAI 和 Anthropic 在这条路上越卷,产品成熟得越快,真正落地的能力也会来得越快。但我们也需要保持清醒:工具越强大,使用它的人就需要越强的判断力。
未来几年的分水岭,可能不在于你用什么模型,而在于你能不能从一个”执行者”转变为一个”指挥者”。因为能被 AI 复制的能力正在快速贬值,而判断”该用 AI 做什么、不该做什么”的能力,会变成最稀缺的东西。Codex 这周的大更新,不过是把这个未来,又往现实推进了一步。
夜雨聆风