
让 AI Agent 操控浏览器,是 2026 年 Agent 领域最热门的能力之一。OpenClaw 用 725 行代码实现了一个精密的浏览器控制系统,最大的创新是——完全不使用外部视觉库。
核心创新:AI 可访问性快照
传统的浏览器自动化方案依赖视觉识别:截图 → OCR/视觉模型识别元素 → 计算坐标 → 点击。这种方案的问题是:
页面布局变化会导致识别失败 动画和过渡效果干扰识别 响应式断点改变元素位置 需要额外的视觉模型,增加延迟和成本
OpenClaw 选择了完全不同的路径:利用 Playwright 内部的 _snapshotForAI 方法,生成可访问性树(Accessibility Tree)。
什么是可访问性树?
可访问性树是浏览器为辅助技术(如屏幕阅读器)维护的页面结构表示。它包含:
每个可交互元素的角色(button、link、input 等) 元素的文本内容和标签 元素的状态(可见、禁用、选中等) 元素之间的层级关系
OpenClaw 的 snapshot 操作将这棵树转换为一个紧凑的文本表示,每个元素分配一个稳定的角色引用(Role Reference),如 e7、e12、e15。
角色引用的优势
Agent 通过角色引用操作元素:
click e7 # 点击第7个元素
type e4 "hello"# 在第4个元素中输入文本
hover e12 # 悬停在第12个元素上
角色引用的关键优势:
| 布局变化稳定性 | |||
| 动画抗干扰 | |||
| 响应式适配 | |||
| 语义清晰度 | |||
| LLM 友好度 |
13 个浏览器操作
OpenClaw 的 browser 工具包含 13 个子操作:
navigate | ||
snapshot | ||
screenshot | ||
act | ||
tabs | ||
open | ||
focus | ||
close | ||
console | ||
pdf | ||
network | ||
storage | ||
evaluate |

四种浏览器配置
OpenClaw 提供四种浏览器配置,满足不同场景:
1. OpenClaw 管理模式(默认)
browser:
type:openclaw
port:18800
Playwright 管理的独立浏览器实例 独立的用户数据目录,与个人浏览器完全隔离 最安全,适合大多数自动化场景
2. Chrome 扩展模式
browser:
type:chrome-extension
port:18792
通过本地扩展中继连接到你的实际 Chrome 浏览器 可以访问已登录的会话(如 Gmail、GitHub) 适合需要已登录状态的操作
正如 Macaron 的分析所说:OpenClaw Chrome 扩展是一个本地中继桥。它将你现有的 Chrome 标签页——带着你的真实会话、cookies 和登录状态——连接到 OpenClaw Gateway,这样你的 AI Agent 就可以驱动它们。
3. 沙箱模式
browser:
type:sandbox
Docker 容器化浏览器 完全隔离,适合不受信任的站点 容器销毁后所有数据清除
4. 远程模式
browser:
type:remote
endpoint:"wss://chrome.browserless.io"
连接远程 CDP(Chrome DevTools Protocol)端点 适合服务器端自动化和云部署 支持 Browserless.io 等服务
实际工作流示例
假设你让 OpenClaw 帮你在 GitHub 上创建一个 Issue:
browser navigate https://github.com/user/repo/issues/new | ||
browser snapshot | ||
browser act type e15 "Bug: Login fails" | ||
browser act type e18 "Steps to reproduce..." | ||
browser act click e22 | ||
browser snapshot |
整个过程中,Agent 不需要知道 CSS 选择器或 XPath,只需要理解快照中的角色引用。
与其他浏览器自动化方案的对比
| 元素识别 | ||||
| 视觉库依赖 | ||||
| LLM 集成 | ||||
| 多配置 | ||||
| 沙箱支持 | ||||
| 代码量 |
总结
OpenClaw 的浏览器自动化系统展示了一个优雅的工程决策:不追求最复杂的视觉识别方案,而是利用浏览器已有的可访问性基础设施,用最少的代码实现最可靠的自动化。725 行代码,4 种配置,13 个操作——简洁而强大。
参考链接
Macaron - OpenClaw Chrome Extension: Browser Relay Setup AIFreeAPI - OpenClaw Browser Relay Guide 2026 LobeHub - OpenClaw Browser Automation Skill Moely - OpenClaw Source Code Review RoboRhythms - How OpenClaw AI Agent Works
夜雨聆风