2026 年春天,"AI 操作电脑"终于从 demo 变成了产品、API 和工程标准。
Anthropic 发布了 Computer Use API 的最佳实践;OpenAI Codex 上线了独立光标模式;Vercel AI SDK 6 把"计算机"提升为与 runtime 和 tools 并列的一等抽象;GitHub 把可访问性 Agent 接入了 Copilot CLI;月之暗面发布了 Kimi WebBridge;小红书和蚂蚁金服都在大规模生产中部署了 GUI Agent。
这篇指南把这些线索编织成一张工程地图,帮你理解:当 AI Agent 开始操作你的屏幕时,背后到底发生了什么。
"AI 操作电脑"听起来很帅,但粒度完全不同。业界已经形成了清晰的三层分类:
第一层:浏览器操控(Browser Use) Agent 只操作浏览器,边界清晰——DOM 可观察、Cookie 可管理、爆炸半径小。典型代表是月之暗面的 Kimi WebBridge:它携带用户的真实登录态,在指定标签页内完成点击、滚动、填表等操作,但不会抢走你的键盘。能在这层解决的问题,就不要往下走。
第二层:桌面操控(Desktop Computer Use) Agent 可以操作本地任意应用。这意味着你必须解决屏幕截图分辨率、坐标空间、无障碍框架集成和沙箱隔离的问题。典型代表是 OpenAI Codex 的 Computer Use 模式:它结合无障碍框架元数据获取 UI role,用视觉模型填充缺失语义,在延迟敏感场景中降级到更快的 Spark 模型。
第三层:通用 GUI Agent 抽象到可以覆盖移动端、嵌入式设备或任意被测应用。小红书发布的数据是目前工业界最强的可比基线:覆盖 106 种设备 × 128 个测试场景,三版更新中执行了 43,000+ 次,自动化了 58% 的测试用例,人工验收后保留了 82% 的 AI 生成用例。
同时,蚂蚁金服支付设计团队用半监督评估管线来保障生成式 UI 质量:AI 生成 → 自动评分(视觉一致性、无障碍合规、回归差异)→ 小批量人工审查 —— 形成闭环。这是目前最可复用的生产级评估模板。
三条曲线在同一时间弯曲:
1. 多模态点击能力进入生产级 Sonnet 4.6 和 Opus 4.7 使 1280×720 的截图成为可靠输入。模型终于"看清楚"了屏幕。
2. OS 级隔离变得可工程化 OpenAI Codex 团队为 Windows 构建了一套完整的沙箱方案:用 SID(安全标识符)+ 写限制 Token + AppContainer 来实现硬边界。在此之前,Windows 上一直没有一套开箱即用的方案来隔离 Agent 的子进程。
3. 上层抽象稳定下来 Vercel AI SDK 6 把 agent runtime / tools / computer 拆成三个独立可替换的组件。这种分层让开发者可以像搭积木一样组合自己的 Computer Use 系统。
当三层同时就位,Agent 操作 GUI 就从 demo 走向了生产。
无论你选择哪一层,四个问题会反复出现:
1. 坐标空间 截图的像素和模型理解的像素必须一致。Claude 4.6 的安全默认值是 1280×720,你必须在 API 调用中显式声明 display_width_px / display_height_px。截图的像素超过 API 上限(4.6 系 1568px / 1.15MP,Opus 4.7 2576px / 3.75MP)会被静默降采样——你的坐标直接偏移。
2. 沙箱隔离 文件写入、网络出站、子进程权限——都需要 OS 级别强制执行。macOS 用 Seatbelt,Linux 用 seccomp/bubblewrap,Windows 用 OpenAI 团队构建的 SID + 写限制 Token + AppContainer 方案。不要指望用 prompt 来限制 Agent 的行为。
3. 独立光标 永远不要劫持用户的主鼠标。OpenAI Codex 和 Kimi WebBridge 都强调这是产品化的关键——用户可以容忍 Agent 在后台跑 30 分钟,但不能接受自己 10 秒拿不回鼠标控制权。
4. 评估管线 从小红书和蚂蚁的实践中可以看到,评估系统才是真正的护城河。把 CI 回归、Agent 探索、兼容性测试拆成三条独立的度量管线,这样团队才能回答清楚:"Agent 在退步,还是测试套件过时了?"
Step 1:先分清楚你在哪一层 读 Anthropic 的最佳实践和 OpenAI Codex 的发布文档,搞清楚你的场景是 Browser Use(如 Kimi WebBridge)、Desktop Computer Use(如 Codex)还是通用 GUI Agent(如小红书)。每层的输入(DOM vs 截图 vs 事件流)、输出空间(CDP 调用 vs 坐标 vs 按键)和风险面完全不同。
Step 2:从 1280×720 起步 搭建最小原型:固定分辨率在 1280×720,文本指令放在图片之前,返回的坐标做反向映射回到宿主显示。用 Anthropic 的诊断表格作为排查清单。
Step 3:加入沙箱 学习 OpenAI Codex 的 Windows 沙箱设计:SID + 写限制 Token 约束文件写入、denybin 加出站代理限制网络出站、AppContainer 作为 OS 硬边界。把你的本地实验从"全访问"切到显式声明 writable_roots + denybin + 白名单出站,重新观察失败模式。
Step 4:升级到持久化计算机 采用 Vercel AI SDK 6 的三元组抽象——agent runtime / tools / computer。这里的"computer"意味着给 Agent 一个跨轮次的持久文件系统、进程和终端状态,让 Agent 可以"启动、工作、关闭、恢复"。最常见的陷阱是状态边界泄露——把日志/缓存/工件分到 ephemeral / scratch / persistent 三个桶里,强制 Agent 显式声明它要哪个。
Step 5:接入评估和生产 这是从 demo 到生产最难的一步。借鉴小红书的评估指标和蚂蚁的半监督评估管线,在你的 Computer Use 管线中加入:每日通过率、回归差异、自动召回率、人工审核保留率。在第一个真实用户上线前,把这些指标接入仪表盘。
独立光标 vs 劫持整机——这是产品决策,不是技术细节
OpenAI Codex 把独立光标作为发布时最关键的 feature——用户能接受 Agent 在后台默默跑半小时,但绝不愿意 10 秒用不了自己的鼠标。Kimi WebBridge 的做法更巧妙:把 Agent 操作的浏览器标签页"着色"(加颜色标识),让用户一看就知道"AI 在操作这个页面",保持明确的"我还在掌控中"的视觉锚点。
如果 Computer Use 会话超过一分钟,必须给用户一个可见、可中断的控制面。
沙箱不是"再加一层 Docker"
OpenAI Codex 团队的复盘指出:AppContainer 对开放式开发者工作流来说太窄了,Windows Sandbox 在 Windows Home 上甚至无法使用。最终方案是 SID + 写限制 Token + ACL:一个沙箱专用 SID 拥有特定可写目录,进程的受限 SID 列表迫使每次写入都经过双重检查。
应用到 Computer Use,意味着在上线前就声明:Agent 可以写哪些目录、调用哪些命令、到达哪些出站端点——而不是事后靠 prompt 来约束。
可访问性 Agent 是被低估的突破口
GitHub 在 Copilot CLI 和 VS Code 中运行了一款通用可访问性 Agent。它的工程意义在于:可访问性规则是标准化的、机器可判断的——这就成了"自动提 PR 修复"的少数真实场景之一。
如果你需要一个低风险、高价值的 Computer Use 切入点,可访问性修复值得优先考虑。
也可以使用编排器+子智能体模式:推理模型负责规划,Sonnet/Haiku 负责执行。
常见问题快速排查:为什么我的点击总打偏?
三个典型原因:
display_width_px/display_height_px与实际发送的截图不匹配——固定 1280×720 并显式声明截图超过 API 像素上限被静默降采样——4.6 系上限 1568px / 1.15MP,Opus 4.7 上限 2576px / 3.75MP 图片放在文本之前——文本指令一定要先发
Anthropic 的最佳实践博客里有一张诊断表可以逐项排查。
Computer Use 能力的成熟,标志着 AI Agent 从一个"只会说话的助手"向"能帮你操作电脑的工具"迈出了实质性的一步。
但正如此次涌现的各家公司实践共同证明的:让模型看懂屏幕只是开始,构建可靠的执行环境、沙箱、评估和反馈闭环,才是决定 Computer Use 能否真正进入生产流程的关键。
本文编译整理自「The AI Computer Use Playbook」,涵盖 Anthropic、OpenAI Codex、Vercel、月之暗面、小红书、蚂蚁金服、GitHub 等 2026 春季发布的最新实践。
夜雨聆风