[认真] 上一篇我聊过 Andrew Curran 窗口论那篇——AI 处理信息的上下文窗口正在变成新的竞争护城河。那篇发出去 48 小时,安静了一会儿。
然后 24 小时后,OpenAI 这条 80 万查看的推文又把战线拉回近的。
OpenAI Developers @OpenAIDevs[1] 凡尔赛地来了一句:「Show Codex a workflow once. Reuse it as a skill.」
录一次,复用成 skill。
听起来很美。但有两个问题压在我脑子里挥不去:Codex Record & Replay 跟 2015 年 UiPath 干的 RPA 老活,本质区别在哪?普通用户该现在就上车吗?

Codex 这次端出什么
具体说说 OpenAI 这次推的东西。
Record & Replay 的机制很直白:用户在 macOS 上演示一遍某个重复性任务——比如填报销单、提交请假申请——Codex 在旁边看着。你停下来,Codex 弹出一个 skill 卡片,里面是一份 SKILL.md 文件,35 行左右,可以查看,可以编辑,下次你说"帮我跑报销 skill",它就自动重跑这套流程。
有几个细节值得注意:
| 维度 | OpenAI Codex Record & Replay | Anthropic Skills(claude.com/skills) | Microsoft Power Automate Desktop | UiPath |
| 路线 | 录屏 → AI 泛化 → SKILL.md | 开发者写 SKILL.md + YAML frontmatter | 低代码拖拽 + 录制 | UI 控件识别 + 脚本编排 |
| 入口 | Codex App / macOS | Claude Code / Claude Desktop / API | Windows 内置 | 企业采购 + 部署 |
| 目标用户 | 普通用户(show don't tell) | 开发者 / 技术团队 | 业务分析师 | 企业 IT / RPA 工程师 |
| 可移植性 | 低(macOS 限定,EU 封锁) | 高(markdown,跨平台,可 git 管理) | 中(微软生态内) | 中高(on-prem / cloud 双部署) |

OpenAI vs Anthropic:两条 skill 路线
表面看,两家都在说"skill"这个词。但路线完全不同。
OpenAI 是录屏 skill:用户演示 → AI 观察 → 自动生成。门槛极低,不需要会写代码。诉求是让普通人也能"编程"——只要你会做这件事,你就能教会 Codex 做这件事。
Anthropic 是 markdown skill:开发者写一个 SKILL.md 文件,加上 YAML frontmatter 定义 name、description、trigger,再配上 scripts/ 目录和 references/ 文档。整个结构像一个迷你软件包,可以 git 管理,可以 PR review,可以团队协作,可以发布到 claude.com/skills 共享给全世界。
截至 2026 年 5 月,Anthropic 官方 skills 仓库在 GitHub 上有 13.5 万 star、1.6 万 fork——这个规模说明开发者社区认可这套标准化路径。
OpenAI 原推文重重一锤:「Codex turns that demo into an inspectable, editable skill.」这句话的重点不在"inspectable",在"turns that demo"——它的卖点是把录制这个动作本身变成编程。
这两条路线的差距在哪?可维护性、可读性、协作性。
一个人录屏生成的 SKILL.md,另一个人打开可能看得懂步骤,但没有注释、没有变量说明、没有测试用例。如果工作流变了——比如报销系统换了界面——你得重录,而不是改一行代码。
Anthropic 路线的 skill 是代码,可以 review,可以测试,可以版本控制。OpenAI 路线的 skill 是录像的 transcript,维护成本随时间增长。
[兴奋] 这不是说哪个更好——是说两条路线在赌不同的用户群。OpenAI 在赌"不会写代码的人也要有 AI 工作流",Anthropic 在赌"开发者生态的 skill 质量和复用率才是护城河"。

UiPath 30 年没解的题
说 Codex Record & Replay 是新东西之前,得先想想为什么 UiPath 市值从巅峰的 350 亿美元跌到今天的约 56 亿美元。
UiPath 2015 年起做企业 RPA,核心理念跟今天 OpenAI 说的惊人相似:录制一次 UI 操作,生成可重复执行的机器人。2020 年 UiPath 年收入超过 6 亿美元,2026 财年全年营收 16.1 亿美元,同比增长 13%——数字还在涨,但市值缩水了近 85%。
为什么?
因为 RPA 的工程难点从来不在"录制",而在录制之后。
Demonstration → Program 的 4 个工程卡点
| 卡点 | 具体问题 | UiPath 的解法 | Codex 的解法(未知) |
| 意图泛化 | 演示 $35 午餐报销,能泛化到 $120 出差打车吗? | 人工配置变量映射 | AI 推断(准确率未公开) |
| 变量抽取 | 金额/日期/类别要被识别为 placeholder,不是 literal | selector + 正则表达式 | LLM 推断(鲁棒性待验证) |
| 边界条件 | 审批人 reject 后怎么 fallback?表单字段缺失怎么 recover? | 手写 exception handler | 未提及 |
| 跨 app 鲁棒性 | 报销系统改版 UI,skill 还能跑吗? | 重新录制 or 手动修选择器 | 同样要重录(猜测) |
UiPath 为了解这些问题,雇了数千名 RPA 工程师,建了 Orchestrator 编排系统,建了 AI Center 接 LLM,卖了 SLA、on-prem 部署、Enterprise Support……
Codex Record & Replay 在 2026 年 6 月的公告里,一个字没提这些。
五桶冷水:录屏不等于复用
[认真] 好了,该泼冷水了。这是我最想说的部分。
第一桶:「录一次 = skill」是 marketing 话术
从录制到真正的泛化可复用 skill,中间有一条工程鸿沟。RPA 行业用了 30 年只在这条沟里部分过河。Codex 一次性解决了吗?公告视频里演示的是最简单的 happy path。真实世界的工作流有分支、有异常、有权限问题、有网络超时——这些一个都没出现在演示视频里。
第二桶:Variable extraction 才是真正卡点
你周五录了一个报销流程:$35 午餐,日期 6 月 20 日,类别"餐饮"。下周你要报的是 $120 出差打车,日期 7 月 1 日,类别"交通"。三个字段全变了,而且类别从下拉菜单的不同选项选择。Codex 能自动识别这三个字段是变量、推断出新值的映射关系吗?没有公开测试数据,我不会轻易相信。
第三桶:数据隐私不透明
录屏意味着 OpenAI 的服务器看到你的企业内部界面——报销系统、OA 系统、内部 dashboard 的截图和交互流。官方公告完全没提"on-device only"或"数据不上传"。EU 暂不支持这个功能,原因极可能正是 GDPR 合规问题——这不是小细节,这是企业客户最大的进入门槛。
第四桶:OpenAI 进 RPA 赛道 = 直接跟 UiPath 竞争,但短期补不齐差距
UiPath 的护城河不是录制技术,是企业销售、SLA、on-prem 部署能力、以及十年积累的合规认证(SOC 2、ISO 27001、HIPAA、FedRAMP)。OpenAI 在 2026 年能给企业客户 on-prem 的 Codex 部署吗?能签 SLA 保障生产环境 99.9% 可用吗?短期答案是不行。
第五桶:跟 Anthropic Skills 比,录屏 skill 的可维护性差一个数量级
这是最容易被忽视的差距。一个开发者写的 Anthropic SKILL.md 有注释、有变量定义、有测试用例、可以被同事 PR review。录屏生成的 SKILL.md 是步骤的线性展开,没有结构,没有语义,没有测试。六个月后你回来改这个 skill,你要看的是一份步骤日志,而不是代码——更接近日记而不是程序。协作 review 这个维度,录屏 skill 几乎没有优势可言。
Skill 标准化大战:1990 押韵 2026
把视野拉远一点,2026 H2 AI agent 战争的第三条轴正在成形。
第一条轴是模型能力(GPT vs Claude vs Gemini)。第二条轴是 agent 编排(多 agent 协作框架)。第三条轴是 skill 格式标准化——谁家的 skill 格式成为行业默认,谁就掌控了开发者生态。
| 玩家 | Skill 格式 | 路线定位 |
| OpenAI | 录屏 → SKILL.md | 用户录制,低门槛普及 |
| Anthropic | 开发者写 SKILL.md + YAML | 开发者优先,高质量标准 |
| Microsoft | Power Fx + Power Automate 流程 | 微软生态,企业 IT |
| Gemini Extensions + Workspace Actions | Google 生态,企业办公 |
这场仗在哪里见过?
1990 年 word processor 大战:WordPerfect vs Microsoft Word vs Lotus。格式兼容性决定了谁活到最后——不是功能最强的那个,是格式最普及的那个。
2010 年 mobile OS 大战:iOS vs Android。最后赢的不是单一最好的 OS,是开发者生态最丰富的那个,因为 app 跑在哪个平台上,用户就跟到哪个平台。
2026 年 skill 格式大战刚开场。真正普及的不会是 demo 最炫的,是最 robust 的,是开发者愿意维护的,是企业愿意合规采购的。
{{card-4}}
你该不该现在上车
先来一个你自己的场景感受一下:
你周五下班前点开 Codex,按下录制——演示一遍每周三都要填的"周报 + OKR + 时间日志"三连击。你停止录制,Codex 弹出一个 skill 卡片,你点开看:35 行 inspectable 步骤。下周三早上 9 点,你说一句"帮我跑周报 skill"——但这周工资数字变了,部门名字改了,OKR 系统上周做了一次迭代,登录页面换了。
Codex 还能跑通吗?
我不知道。OpenAI 也没告诉我们答案。这才是真正重要的问题。
如果你是个人用户,有个人 macOS 机器,工作流相对稳定,可以试——反正是录一次的成本,试错成本低。
如果你是企业 IT 负责人,在评估是否要用 Codex Record & Replay 替代现有 RPA 方案——先不要动。等 OpenAI 公布数据隐私政策细节,等企业级合规认证落地,等看到真实生产环境的成功案例。UiPath 虽然市值大跌,但 16.1 亿美元年收入告诉你:企业愿意为 robust 的工作流自动化付真金白银,不是为了 demo 视频。
如果你是开发者,同时关注 Anthropic Skills 生态——两套都值得学。但如果要我选一个把时间精力押进去的,我选 Anthropic 的 markdown skill 路线。可维护、可版本控制、可 review、可分发,这几点在团队协作场景里价值远比"录屏门槛低"重要。
{{card-5}}
历史总是押韵
1984 年,AppleScript 说"录一次就够了"。
2009 年,Sikuli 说"截图驱动,GUI automation 不用写代码"。
2015 年,UiPath 说"企业 RPA,让机器人替你操作每一个 UI"。
2020 年,Zapier 说"zap 一下,工作流自动跑"。
2026 年,OpenAI 说"Show Codex a workflow once. Reuse it as a skill."
[感慨] 每一波都说"录一次复用一万次"。每一波都在 demo 的时候看起来改变了一切。
真正普及的,从来不是 demo 最炫的。是变量抽取做得最稳的,是边界条件处理得最好的,是企业 IT 部门敢签字投入生产的,是开发者社区愿意持续维护的。
Codex Record & Replay 是不是那个答案,现在下结论太早。
但有一件事可以确定:这场 skill 格式标准化的战争,比任何一个单点功能都重要,而且才刚开始。
觉得有用就转发,没用就来评论区骂我。
下一篇咱们接着聊 Codex Record & Replay vs Anthropic Skills,哪种 skill 格式可能成为 2026 H2 的标准。
想跟着一起练 AI 实战的,国内来星球,海外加入频道会员找大雷。

本文内链接
OpenAI Developers @OpenAIDevs: https://x.com/openaidevs/status/2067681320281723113
夜雨聆风