录一遍,AI 就能复现:Codex 这个新功能,把重复操作变成一键回放

录一遍，AI 就能复现：Codex 这个新功能，把重复操作变成一键回放

那些你做了几十遍的工作流程，现在只需要做一遍：Codex 把操作抽象为可复用流程，下次自动执行。

先说清楚：你需要一台 Mac（Record & Replay 当前阶段仅支持 macOS）、一个 ChatGPT 账号（Computer Use 需要 Plus/Pro 等付费计划，具体以 OpenAI 官方政策为准）、以及一份你想消灭的重复性工作。三样齐了？往下看。

周五下午四点，你打开公司的报销系统，对着过去一周攒下的发票，开始第 47 次输入。项目编号、费用类型、部门代码、审批人——和上周、上个月、去年填的一模一样。你知道右下角那个"提交"按钮之后会发生什么，因为你已经看过 46 次了。

你心想：这个操作为什么要我做第 47 遍？

每个职场人都有这样的"重复性肌肉记忆"：操作本身不难，但你懒得再做一遍。传统的解决思路有三条：RPA 太贵（请顾问、买 license、维护脚本），写脚本得会写代码，按键精灵录个宏吧，窗口位置一动就全崩了。

OpenAI 在 6 月 18 日给了一个新答案。Codex App 26.616 版本中，一个叫 Record & Replay 的功能上线了。官方对它的描述是"演示即编程"（Programming by Demonstration）：你把操作演示一遍，Codex 将它抽象为可复用的工作流程，下次直接回放。

它跟传统宏有什么不一样

先搞清楚 Record & Replay 到底在做什么。它跟你想的"录宏"完全是两回事。

传统自动化工具，不管是 UiPath、按键精灵还是 Keyboard Maestro，录制的是像素坐标。点击位置 (847, 392)，输入文本框 (512, 208)，下拉菜单第三项。窗口一移动、分辨率一切换、软件一更新 UI，脚本就崩了。这也是为什么 RPA 需要一个专门的维护团队。

Record & Replay 录制的是语义意图。你不是在录"点击坐标 X"，你是在录"点击'提交报销'按钮"。它不是宏录制，而是基于 GUI agent 的语义流程抽象。

工作流程分三个阶段：

录制阶段：Codex 被动观察，不做实时解析。通过 macOS 的屏幕录制和辅助功能权限，Computer Use 捕获屏幕内容、鼠标操作和键盘输入。你唯一需要做的就是保持专注——别录到一半去回微信。

分析阶段：停止录制后，Codex 对整段操作做后置分析，把操作序列翻译成语义描述。不是"光标移动到第 4 行第 3 列"，而是"在'费用类型'下拉菜单中选择'差旅费'"。输出是一个 skill 文件——结构化工作流定义，纯文本 Markdown，你可以打开看，可以直接改 [来源: OpenAI Codex 官方文档]。

执行阶段：在新对话中调用 skill 时，Codex 通过 Computer Use 操作桌面 GUI 完成回放，也可联动浏览器插件处理 Web 端操作。

录好之后，你可以把 skill 文件发给同事，对方用自己的 Codex 就能运行。一个人录的报销流程，团队其他成员也能复用。

实操：用报销单录入走一遍

说得好听，实际怎么用？用一个真实场景走一遍。

场景：公司用的是某套 Web 版财务系统，没有 API，所有操作都要在网页上手动完成。你每周要在里面录入 20 条采购单据，每条填写项 15 个字段。

第一步：装插件。 打开 Codex 桌面应用，在插件面板中找到 Record & Replay 并添加。一分钟的事。（注意：具体菜单位置可能随版本变化，以当前 Codex 界面为准。）

第二步：告诉 Codex 你要录什么。 在对话中选择 "Record a skill"，Codex 会提示你描述目标。你可以写："我要在财务系统里录入采购单据。单据类型固定是'原材料采购'，需要填写供应商名称、物料编码、数量、单价、入库仓库、经办人。"

第三步：授权。 系统偏好设置 → 隐私与安全性 → 屏幕录制 → 勾选 Codex。同样在辅助功能里也勾上。这是 Computer Use 工作所必需的。

第四步：做一遍。 打开财务系统，像往常一样操作：进入采购单据录入界面 → 选择单据类型 → 输入供应商 → 逐项填写 → 保存 → 下一张。保持专注，不要切换到无关窗口。建议控制在 5 分钟以内，只演示一条完整单据就够了——Codex 只需要看一遍就能提取出流程。

第五步：停止录制。 从菜单栏的录制浮层点停止，或者直接告诉 Codex："我做完了。"

第六步：编辑 skill。 Codex 生成 skill 文件后，打开看一眼。你可能会发现有些隐性规则没有写进去——比如"入库仓库默认选'原材料仓'，除非供应商在华东则选'华东仓'"。手动补充进去。skill 是可编辑的，不满意就让它改。

第七步：用了。 新开一个对话，把新的发票信息贴进去，告诉 Codex："用我的财务系统单据录入 skill，录入以下三张单据：供应商 A，物料 B-001，数量 200，单价 3.5……"Codex 会自动打开财务系统，逐项录入。你可以在旁边做别的事，偶尔看一眼就好。

实际消耗因任务复杂度和操作步数而异。目前官方未公布 Record & Replay 的具体定价或 token 消耗数据。

什么时候用它，什么时候别用

功能讲完了。下一个问题比"它有多强"更重要：我什么时候应该打开它？

最适合的场景："容易演示、难以描述"的任务。

如果你能用一句话说清楚要求——"帮我把这个 CSV 里的日期格式从 MM/DD/YYYY 改成 YYYY-MM-DD"——直接发 prompt 就行，不需要录。但有些任务你很难用文字描述清楚，因为里面藏着大量隐性规则：报销单里"科目代码"你每次都选那个因为历史原因，你甚至说不出为什么；视频发布时你习惯先写标题再上传封面最后填标签，这个顺序是试了五次才确定的；内部 OA 系统的界面你闭着眼都能操作但要写出来得用两千字。

这时候，录 2 分钟比写 500 字 prompt 更靠谱——那些你习以为常的操作细节，在演示里自然就有了。有人总结过一句很准的话："人正在从软件的操作者，变成软件能力的训练者。"

不适合的场景：

• 一句话能说清楚的任务 → 直接 prompt，更快
• 涉及密码、密钥、支付确认的操作 → 绝对不要录。skill 文件是可读文本，你不想把密码写进去
• 涉及金钱且需要人工判断的操作 → 可以录，但执行时在场监督
• 含复杂条件分支的流程 → 谨慎。"金额 > 1000 走审批，否则自动过"——理论上可以在 skill 中描述条件规则，但实际效果未经大规模验证

国内用户特别注意：Record & Replay 需要 ChatGPT 账号和海外网络，通常需要 Plus/Pro 等付费订阅（$20/月起），具体以 OpenAI 官方政策为准。另一个常见误解：Codex 虽然支持配置第三方模型（如 DeepSeek、Claude），但这只影响规划和推理环节——Record & Replay 的执行引擎是 Codex 原生系统，你换不了。目前没有"Ollama + Record & Replay"或"DeepSeek + Record & Replay"这种组合，Computer Use 是 OpenAI 的服务端能力，不是本地模型能跑的功能。

硬性限制，记住这五条：

• 当前阶段仅支持 macOS。依赖系统级屏幕录制和辅助功能集成。Windows 和 Linux 暂不支持，未来可能扩展
• 初始阶段排除 EU、EEA、UK、瑞士。这是分阶段推出的政策限制，非永久性产品设计
• 需要 macOS 屏幕录制 + 辅助功能双权限
• 录制没有硬性时间上限——官方文档说明录制"持续到你手动停止为止"
• 不支持第三方 LLM 替代执行引擎。Codex 虽然开放了第三方模型接入，但 Record & Replay 的执行层是 Codex 原生系统。第三方模型只影响规划/推理环节

这不止是一个新功能

实操聊完了，往大处看一眼。Record & Replay 值得专门写一篇文章，不是因为它多了个按钮，而是它刚好卡在了一个有意思的转折点上。

今年 6 月，Codex 做了两件事。第一件：全面开放第三方模型接入——DeepSeek、Claude、Gemini、Ollama 都能用。第二件：推出 Record & Replay。

注意，这是两件独立的事——Record & Replay 的执行引擎跑在 Codex 原生系统上，跟你选哪个 LLM 没有关系。但两件事放在一起看，你会发现一个挺明显的信号：Agent 工具的竞争，已经从"谁家模型更强"变成了"谁更懂用户"。模型大家可以随便换了，那差异化从哪来？看你用的 Agent 能不能理解你的工作方式——命名规范、默认选项、操作顺序。Record & Replay 是 Codex 对这个问题的回答。

对比一下其他工具的"理解用户"方式，定位会更清楚：

• Claude Code Dynamic Workflows：功能强大，但需要写 JavaScript 编排 Agent。门槛是会写代码。
• Hermes Agent 自进化：从对话中被动提取模式，自动创建 skill。用户无法主动"教"，只能等它自己发现。
• Zapier / Make：连接有 API 的 SaaS。问题是大部分企业软件没有 API。
• 传统 RPA：功能最完整，但贵、需要专业顾问、维护成本高。

Record & Replay 在这个坐标系里的位置是：零代码、零 API、零坐标。不需要会写脚本，不需要软件提供 API，不依赖屏幕分辨率。门槛只有一个：你自己得会做。

它不完美。Windows 用户当前被排除在外，欧洲用户被合规卡住，复杂分支流程还没人做过大规模验证。它目前最对路的场景，就是那些你闭着眼都会做、但你再也不想做的重复性工作。巧了，这正好是大多数职场人每周五下午的怨气来源。

如果以后能跟 Codex 的 /goal 功能打通——录制好 skill，让 Agent 自己循环跑 20 条单据——那又是另一回事了。但目前还没有看到这样的公开案例。

让下周五不一样

下周五下午四点，你打开报销系统。这一次，你先花 5 分钟做给 Codex 看。下周再打开那个系统的时候，说一句话就够了。

前提还是一样的：一台 Mac、一个 ChatGPT 付费账号、5 分钟的录制时间。

剩下的重复性工作，该让它们消失了。

有在用 Codex 的朋友吗？转发给 Ta，一起告别重复劳动。关注本号，第一时间获取 AI 工具实操指南。