OpenAI Codex 上线“锁屏远程操作”:别先兴奋,先补这 7 个护栏

昨晚我在手机上瞄了一眼：Codex 还在我那台 Mac 上跑。屏幕已经锁了，它还在“代操作”。

我第一反应不是“真爽”，而是一个老程序员的条件反射：真正危险的不是 Agent 做不出来，而是它在你锁屏后做出来了、做错了，你第二天还没人能复盘。

如果你们也准备把 Computer Use（代操作）这类能力接进真实工作流，这篇你先收下——我把它拆成一个你能执行的清单。

阅读地图（先看这 5 个点）

1) 这次到底改变了什么：从“值守”到“无人值守”

2) 为什么风险会被放大：责任/审计/回滚断层

3) 上线前 7 条护栏清单（可照抄）

4) 最小可控试点流程：先可控，再扩面

5) 最常见翻车点与补救：复盘材料、止损与禁区

一句话说清楚：Codex 锁屏远程 Computer Use 是什么？

Computer Use 不是“写代码更快”，而是 Agent 能看屏幕、点鼠标、打字，替你完成一段 UI 操作。

而“锁屏远程”这一步，最关键的变化在于：它把很多人的使用形态从 “人盯着它点” 推到了 “人不在它也能继续跑”。

能力上看像是“更方便了”；运维上看，其实是控制回路被拿掉了——你得用制度/门禁把回路补回来。

官方口径（只写你能确认的事实）

• OpenAI 的官方更新与文档把这类能力描述为：在满足条件的情况下，Mac 锁屏后仍可继续 remote computer use。

• 该能力存在资格/区域限制等边界（不要默认“所有人都能用”）。

• 官方强调的前提之一是：主机需要保持在线/可用（否则“远程继续跑”无从谈起）。

（更细的启用流程与 UI 以官方为准；这篇重点讲“上线前护栏”。）

什么时候适合先试点？什么时候应该先禁用？

一句话建议：先从“低风险、可回滚、可验证”的任务试点；凡是“不可逆 + 影响外部/生产/资金/客户数据”的场景，没有护栏就先禁用。

你可以粗暴地按两类切：

• 适合先试点：整理材料、跑测试、生成草稿、批量 UI 重复点击（且有回滚/可验证）

• 建议先禁用：付款/转账、改权限、发布到生产、删除云资源、对外发送邮件/IM、批量导出敏感数据

如果你只能做一件事：最小护栏是什么？

如果你现在只能补一件事，我建议优先补这三个“最小闭环”：

1.高风险动作必须人工审批（不可逆动作先停下来）

2.全量审计日志（第二天能复盘）

3.回滚点（出了事能止损）

其它护栏都重要，但这三个能把事故从“不可控”拉回“可控”。

这次到底改变了什么：从“值守”到“无人值守”

很多人第一次玩 Computer Use，心智模型是这样的：

• 我坐在屏幕前，看它点错了就打断

• 我看到它要做危险动作（删库/付款/发邮件）就阻止

• 我看完结果，顺手把输出复制到别处

这叫“值守”。值守本身就是一层极强的护栏。

当你允许它在锁屏后继续跑，事情会变成：

• 它能在你不盯着时继续做更多步

• 错误发现从“秒级”变成“小时级/隔天级”

• 风险从“单次误点”变成“连续误操作 + 扩散”

这就是为什么我说：这不是一个新功能，是一个新运维形态。

我踩到的那个坑：翻车通常不是模型，是“复盘材料缺失”

我见过太多自动化翻车，复盘时第一句话永远是：

“我也不知道它刚才点了什么。”

你可以把它理解为：当 Agent 开始代操作，你需要的不是“更强模型”，而是三样东西：

1.审计：它做过什么？按什么顺序？关键输入输出是什么？

2.回滚：出了事，能不能止损，能不能回到安全状态？

3.责任：谁审批、谁值守、谁复盘？

少任何一样，事故就会从“工程问题”变成“政治问题”。

为什么风险会被放大：责任/审计/回滚断层

核心机制很简单：

• 值守 = 人类实时纠错（强反馈回路）q

• 锁屏远程 = 反馈回路变弱（延迟发现/无人打断）

• 无人值守要成立，你必须用“门禁 + 审计 + 回滚 + 值守制度”替代人类盯屏

【图片 2：trend or mechanism】

所以你会发现：Computer Use 越强，团队越不能省治理。

上线前 7 条护栏清单（可照抄）

下面这 7 条，你可以直接复制进团队 wiki / 试点评审表里。它们不是“最佳实践”，而是“最低生存线”。

1.权限 allow/deny（先写禁区）

• 明确列出“绝对禁止”的动作：付款、提交工单到生产、删除云资源、改权限、导出敏感数据……

• 对“允许”的动作做 allowlist：只允许在某些 app、某些目录、某些账号下操作。

• 白话解释：allowlist 是“只准做清单里的事”；比“黑名单”更安全。

高风险 denylist（示例，按你们业务裁剪）：

• 资金类：付款、转账、开通付费、绑定支付方式

• 权限类：改角色/权限、导出密钥、打开密码管理器

• 生产类：发布到生产、删除云资源、改防火墙/网关规则

• 外联类：对外发送邮件/IM、提交外部表单、上传客户数据

• 数据类：批量导出、下载敏感文件、复制大量内容到剪贴板

1.高风险动作必须人工审批（两人规则更稳）

• 所有不可逆动作：删改生产数据、发布、转账、发送外部邮件、改权限……必须停下来等人点“同意”。

• 你要的不是“更聪明的 Agent”，是“更清晰的责任边界”。

1.成本/额度/超限熔断

• 给任务设预算（时间/调用/次数），超限就停。

• 夜间无人值守尤其要有“熔断”：宁可停，也别悄悄跑一晚上。

• 白话解释：熔断就是“超过阈值自动断电”，避免小问题滚成大事故/大账单。

1.全量审计日志（可复盘）

• 至少要能回答三件事：它做了哪些关键动作、每步看到什么、输出写到哪里。

• 复盘不是为了追责，是为了止损与改规则。

最小审计 schema（示例，够用就行）：

| 字段 | 说明 | 例子 |

|---|---|---|

| runid | 本次运行唯一 ID | run2026-05-25_2215 |

| actor | 谁触发/审批 | agent / human:alice |

| timestamp | 时间戳 | 2026-05-25 22:16:04 |

| app/window | 操作对象 | browser / terminal / mail |

| eventtype | 事件类型 | view / click / type / filewrite / send |

| target | 关键目标 | config.yaml / prod-console |

| intent | 这一步想达成什么 | “更新配置并提交” |

| diff/summary | 结果摘要 | “修改 3 行，保存成功” |

| artifactpath | 输出落点 | workspace/output/run42/ |

| rollbackref | 回滚点引用 | git:abc123 / snapshot:rp001 |

你不一定一次做全，但至少要做到：可定位（知道改了哪）+ 可复现（知道怎么发生）+ 可止损（知道怎么回滚）。

1.回滚点（git/snapshot）

• 任何会改变状态的工作，都要有回滚点：代码有 git，配置有版本，数据有快照。

• 没回滚点就别上“无人值守”。

1.数据与密钥隔离（最小暴露）

• 用专门的账号/专门的机器/专门的工作区跑试点。

• 密钥不要散落在桌面与剪贴板；能不用就不用。

1.值守与告警（夜间策略）

• “锁屏远程”不等于“没人管”：你仍然需要值守人、告警阈值、夜间策略（比如只跑低风险任务）。

• 一句话：能跑 ≠ 该跑。

【图片 3：workflow】

最小可控试点流程：先可控，再扩面

如果你要把它从“个人玩具”推进到“团队试点”，我建议按这个顺序来：

1.先选任务，不选功能：只选“低风险、可回滚、可验证”的任务（比如整理材料、跑测试、生成草稿、做 UI 重复点击）。

2.先隔离环境：专用机器/专用账号/专用目录；不要一上来就进生产账号和主力环境。

3.先写禁区与审批点：把“必须停下来等人确认”的动作写清楚（第 1、2 条护栏）。

4.先把审计打通：先能复盘，再谈提效（第 4 条护栏）。

5.先做 1 周试点复盘：每天看一次日志与失败样例，反向把规则写得更严格。

6.再扩大范围：能稳定跑 3 个低风险任务，再考虑加新任务。

你会发现：这个流程最大的价值，是把“试试看”变成“可控试点”。

最常见翻车点与补救：复盘材料、止损与禁区

【图片 4：scenario】

1.越权事故：Agent 顺手点进了不该碰的系统/账号

• 补救：更强的禁区 + 更严格的账号隔离。

1.不可逆事故：一键删除/发布/发送外部消息

• 补救：所有不可逆动作强制人工审批 + 回滚点。

1.不可复盘事故：出了问题，但你不知道它做过什么

• 补救：把审计作为第一优先级；没有审计就不做无人值守。

我的判断：Computer Use 越强，治理越要前置

我不反对尝鲜，甚至我觉得你应该早点试：越早试，你越早知道“这东西到底能不能变成生产能力”。

但我非常反对一种常见做法：把它当成一个“更强自动化脚本”，直接丢进生产里跑。

Computer Use 这种能力，一旦进入锁屏远程/无人值守形态，你真正要建设的不是“提示词库”，而是：

• 权限边界（能做/不能做）

• 审计与复盘（做过什么）

• 回滚与止损（出事怎么办）

• 值守与升级（谁负责）

你把这四件事补齐，Computer Use 才可能从“惊艳 demo”变成“可控生产能力”。

结尾：你们团队最难落地的是哪条护栏？

如果你已经在团队里推进过类似能力，或者你最担心的是某一种事故类型，欢迎留言说说：

• 你们最难落地的是哪条护栏？为什么？

• 你们最怕的“背锅事故”是什么？