录一遍,AI 就能复现:Codex 这个新功能,把重复操作变成一键回放
那些你做了几十遍的工作流程,现在只需要做一遍:Codex 把操作抽象为可复用流程,下次自动执行。
先说清楚:你需要一台 Mac(Record & Replay 当前阶段仅支持 macOS)、一个 ChatGPT 账号(Computer Use 需要 Plus/Pro 等付费计划,具体以 OpenAI 官方政策为准)、以及一份你想消灭的重复性工作。三样齐了?往下看。
周五下午四点,你打开公司的报销系统,对着过去一周攒下的发票,开始第 47 次输入。项目编号、费用类型、部门代码、审批人——和上周、上个月、去年填的一模一样。你知道右下角那个"提交"按钮之后会发生什么,因为你已经看过 46 次了。
你心想:这个操作为什么要我做第 47 遍?
每个职场人都有这样的"重复性肌肉记忆":操作本身不难,但你懒得再做一遍。传统的解决思路有三条:RPA 太贵(请顾问、买 license、维护脚本),写脚本得会写代码,按键精灵录个宏吧,窗口位置一动就全崩了。
OpenAI 在 6 月 18 日给了一个新答案。Codex App 26.616 版本中,一个叫 Record & Replay 的功能上线了。官方对它的描述是"演示即编程"(Programming by Demonstration):你把操作演示一遍,Codex 将它抽象为可复用的工作流程,下次直接回放。
它跟传统宏有什么不一样
先搞清楚 Record & Replay 到底在做什么。它跟你想的"录宏"完全是两回事。
传统自动化工具,不管是 UiPath、按键精灵还是 Keyboard Maestro,录制的是像素坐标。点击位置 (847, 392),输入文本框 (512, 208),下拉菜单第三项。窗口一移动、分辨率一切换、软件一更新 UI,脚本就崩了。这也是为什么 RPA 需要一个专门的维护团队。
Record & Replay 录制的是语义意图。你不是在录"点击坐标 X",你是在录"点击'提交报销'按钮"。它不是宏录制,而是基于 GUI agent 的语义流程抽象。
工作流程分三个阶段:
录制阶段:Codex 被动观察,不做实时解析。通过 macOS 的屏幕录制和辅助功能权限,Computer Use 捕获屏幕内容、鼠标操作和键盘输入。你唯一需要做的就是保持专注——别录到一半去回微信。
分析阶段:停止录制后,Codex 对整段操作做后置分析,把操作序列翻译成语义描述。不是"光标移动到第 4 行第 3 列",而是"在'费用类型'下拉菜单中选择'差旅费'"。输出是一个 skill 文件——结构化工作流定义,纯文本 Markdown,你可以打开看,可以直接改 [来源: OpenAI Codex 官方文档]。
执行阶段:在新对话中调用 skill 时,Codex 通过 Computer Use 操作桌面 GUI 完成回放,也可联动浏览器插件处理 Web 端操作。
录好之后,你可以把 skill 文件发给同事,对方用自己的 Codex 就能运行。一个人录的报销流程,团队其他成员也能复用。
实操:用报销单录入走一遍
说得好听,实际怎么用?用一个真实场景走一遍。
场景:公司用的是某套 Web 版财务系统,没有 API,所有操作都要在网页上手动完成。你每周要在里面录入 20 条采购单据,每条填写项 15 个字段。
第一步:装插件。 打开 Codex 桌面应用,在插件面板中找到 Record & Replay 并添加。一分钟的事。(注意:具体菜单位置可能随版本变化,以当前 Codex 界面为准。)
第二步:告诉 Codex 你要录什么。 在对话中选择 "Record a skill",Codex 会提示你描述目标。你可以写:"我要在财务系统里录入采购单据。单据类型固定是'原材料采购',需要填写供应商名称、物料编码、数量、单价、入库仓库、经办人。"
第三步:授权。 系统偏好设置 → 隐私与安全性 → 屏幕录制 → 勾选 Codex。同样在辅助功能里也勾上。这是 Computer Use 工作所必需的。
第四步:做一遍。 打开财务系统,像往常一样操作:进入采购单据录入界面 → 选择单据类型 → 输入供应商 → 逐项填写 → 保存 → 下一张。保持专注,不要切换到无关窗口。建议控制在 5 分钟以内,只演示一条完整单据就够了——Codex 只需要看一遍就能提取出流程。
第五步:停止录制。 从菜单栏的录制浮层点停止,或者直接告诉 Codex:"我做完了。"
第六步:编辑 skill。 Codex 生成 skill 文件后,打开看一眼。你可能会发现有些隐性规则没有写进去——比如"入库仓库默认选'原材料仓',除非供应商在华东则选'华东仓'"。手动补充进去。skill 是可编辑的,不满意就让它改。
第七步:用了。 新开一个对话,把新的发票信息贴进去,告诉 Codex:"用我的财务系统单据录入 skill,录入以下三张单据:供应商 A,物料 B-001,数量 200,单价 3.5……"Codex 会自动打开财务系统,逐项录入。你可以在旁边做别的事,偶尔看一眼就好。
实际消耗因任务复杂度和操作步数而异。目前官方未公布 Record & Replay 的具体定价或 token 消耗数据。
什么时候用它,什么时候别用
功能讲完了。下一个问题比"它有多强"更重要:我什么时候应该打开它?
最适合的场景:"容易演示、难以描述"的任务。
如果你能用一句话说清楚要求——"帮我把这个 CSV 里的日期格式从 MM/DD/YYYY 改成 YYYY-MM-DD"——直接发 prompt 就行,不需要录。但有些任务你很难用文字描述清楚,因为里面藏着大量隐性规则:报销单里"科目代码"你每次都选那个因为历史原因,你甚至说不出为什么;视频发布时你习惯先写标题再上传封面最后填标签,这个顺序是试了五次才确定的;内部 OA 系统的界面你闭着眼都能操作但要写出来得用两千字。
这时候,录 2 分钟比写 500 字 prompt 更靠谱——那些你习以为常的操作细节,在演示里自然就有了。有人总结过一句很准的话:"人正在从软件的操作者,变成软件能力的训练者。"
不适合的场景:
• 一句话能说清楚的任务 → 直接 prompt,更快 • 涉及密码、密钥、支付确认的操作 → 绝对不要录。skill 文件是可读文本,你不想把密码写进去 • 涉及金钱且需要人工判断的操作 → 可以录,但执行时在场监督 • 含复杂条件分支的流程 → 谨慎。"金额 > 1000 走审批,否则自动过"——理论上可以在 skill 中描述条件规则,但实际效果未经大规模验证
国内用户特别注意:Record & Replay 需要 ChatGPT 账号和海外网络,通常需要 Plus/Pro 等付费订阅($20/月起),具体以 OpenAI 官方政策为准。另一个常见误解:Codex 虽然支持配置第三方模型(如 DeepSeek、Claude),但这只影响规划和推理环节——Record & Replay 的执行引擎是 Codex 原生系统,你换不了。目前没有"Ollama + Record & Replay"或"DeepSeek + Record & Replay"这种组合,Computer Use 是 OpenAI 的服务端能力,不是本地模型能跑的功能。
硬性限制,记住这五条:
• 当前阶段仅支持 macOS。依赖系统级屏幕录制和辅助功能集成。Windows 和 Linux 暂不支持,未来可能扩展 • 初始阶段排除 EU、EEA、UK、瑞士。这是分阶段推出的政策限制,非永久性产品设计 • 需要 macOS 屏幕录制 + 辅助功能双权限 • 录制没有硬性时间上限——官方文档说明录制"持续到你手动停止为止" • 不支持第三方 LLM 替代执行引擎。Codex 虽然开放了第三方模型接入,但 Record & Replay 的执行层是 Codex 原生系统。第三方模型只影响规划/推理环节
这不止是一个新功能
实操聊完了,往大处看一眼。Record & Replay 值得专门写一篇文章,不是因为它多了个按钮,而是它刚好卡在了一个有意思的转折点上。
今年 6 月,Codex 做了两件事。第一件:全面开放第三方模型接入——DeepSeek、Claude、Gemini、Ollama 都能用。第二件:推出 Record & Replay。
注意,这是两件独立的事——Record & Replay 的执行引擎跑在 Codex 原生系统上,跟你选哪个 LLM 没有关系。但两件事放在一起看,你会发现一个挺明显的信号:Agent 工具的竞争,已经从"谁家模型更强"变成了"谁更懂用户"。模型大家可以随便换了,那差异化从哪来?看你用的 Agent 能不能理解你的工作方式——命名规范、默认选项、操作顺序。Record & Replay 是 Codex 对这个问题的回答。
对比一下其他工具的"理解用户"方式,定位会更清楚:
• Claude Code Dynamic Workflows:功能强大,但需要写 JavaScript 编排 Agent。门槛是会写代码。 • Hermes Agent 自进化:从对话中被动提取模式,自动创建 skill。用户无法主动"教",只能等它自己发现。 • Zapier / Make:连接有 API 的 SaaS。问题是大部分企业软件没有 API。 • 传统 RPA:功能最完整,但贵、需要专业顾问、维护成本高。
Record & Replay 在这个坐标系里的位置是:零代码、零 API、零坐标。不需要会写脚本,不需要软件提供 API,不依赖屏幕分辨率。门槛只有一个:你自己得会做。
它不完美。Windows 用户当前被排除在外,欧洲用户被合规卡住,复杂分支流程还没人做过大规模验证。它目前最对路的场景,就是那些你闭着眼都会做、但你再也不想做的重复性工作。巧了,这正好是大多数职场人每周五下午的怨气来源。
如果以后能跟 Codex 的 /goal 功能打通——录制好 skill,让 Agent 自己循环跑 20 条单据——那又是另一回事了。但目前还没有看到这样的公开案例。
让下周五不一样
下周五下午四点,你打开报销系统。这一次,你先花 5 分钟做给 Codex 看。下周再打开那个系统的时候,说一句话就够了。
前提还是一样的:一台 Mac、一个 ChatGPT 付费账号、5 分钟的录制时间。
剩下的重复性工作,该让它们消失了。
有在用 Codex 的朋友吗?转发给 Ta,一起告别重复劳动。关注本号,第一时间获取 AI 工具实操指南。
夜雨聆风