先说结论:
OpenClaw + web-access = 目前开源界最完整的 Agent 联网方案。前者提供 35 万 Star 级的 AI 执行框架,后者补齐了联网能力的最后一块短板。
这个组合解决的核心问题很简单——AI 能干活,但它的"眼睛"不好使。
如果你用过 OpenClaw,或者任何 AI Agent 工具(Claude Code、Codex、Cursor),你一定遇到过这种场景:
这就是当前 AI Agent 联网的三座大山:登录墙、动态渲染、低效串行。
而问题的根源在于——大多数 Agent 的"联网",其实只是"搜索+抓取",不是真正意义上的"浏览"。
主角一:OpenClaw —— AI 的"大脑和双手"
奥地利开发者 Peter Steinberger 在"退休实验"中创建的开源项目,4个月冲到 GitHub 354K+ Stars。核心理念是"让 AI 拥有双手"——通过 WhatsApp、Telegram、飞书等 20+ 平台跟你对话的同时,它能操作你的文件系统、执行命令、管理日历、调用模型……
但它有一个短板:内置的联网能力偏弱。
web_search(搜索)和 web_fetch(抓取网页转 Markdown)。支持 Brave、Perplexity、Gemini、Grok、Kimi 五种搜索源。但本质上还是 HTTP 层面的操作——不执行 JavaScript、不带登录态、不能交互点击。主角二:web-access —— AI 的"眼睛"
由开发者一泽EZE (eze-is) 创建的开源 Skill,一周内冲到 4.8K+ Stars。它不是 MCP,而是 Skill——不仅给工具,还给"怎么用工具"的完整方法论。
核心能力就一件事:让 Agent 从"搜索网页"升级为"像真人一样浏览网页"。
MCP 是给你一把螺丝刀,Skill 是给你一把螺丝刀外加一份说明书——告诉你这颗螺丝从哪个方向拧、用多大力、拧不动的时候换什么姿势。
先看一张全景图:
关键点来了——web-access 接管的是你自己正在用的 Chrome,不是另开一个无头浏览器。
这意味着什么?你在 Chrome 里登录过的所有网站——小红书、微信公众号、公司内网、GitHub——Agent 直接就能用,不需要再走一遍登录流程。这是和其他方案最大的区别。
当 OpenClaw 遇到一个联网任务时,web-access 不是上来就开浏览器,而是按优先级从轻到重逐层尝试:
直接看对比表,差距一目了然:
| 对比维度 | OpenClaw 原生联网 | + web-access 增强 |
|---|---|---|
| 工具策略 | 五层渐进式调度 ✅ | |
| 登录态处理 | 需单独维护 CDP Profile ❌ | 直连用户Chrome ✅ |
| 动态渲染 | 不支持 JS 执行 ❌ | 真实浏览器渲染 ✅ |
| 并发能力 | 并行支持弱 ❌ | 多Tab后台并行 ✅ |
| 经验沉淀 | 跨会话经验差 ❌ | 按域名自动沉淀 ✅ |
| 交互操作 | 只读模式 ❌ | 完整DOM交互 ✅ |
| 反爬对抗 | 易被封禁 ❌ | 真实浏览器指纹 ✅ |
用一句话总结:OpenClaw 原生联网是"拿着望远镜看世界",装了 web-access 之后变成了"亲自走进现场考察"。
整个 web-access 的核心底座是 CDP(Chrome DevTools Protocol)——Chrome 远程调试协议。就是你按 F12 打开开发者工具时,底层在用的那套协议。
通过 CDP,外部程序可以控制浏览器做这些事:
导航控制:打开 URL、前进后退、刷新
脚本执行:在页面里运行任意 JavaScript
DOM 操作:读取内容、修改样式、触发事件
模拟输入:键盘打字、鼠标点击、页面滚动
网络监听:捕获所有 HTTP 请求和响应
生成截图:任意时刻截取当前视口
但 CDP 原始协议是 WebSocket,调用门槛高。所以 web-access 加了一层 CDP Proxy——把 WebSocket 包装成简单的 HTTP API:
# 列出当前所有浏览器标签页curl http://localhost:3456/targets# 在指定标签页执行 curl"http://localhost:3456/eval?target=xxx"-d'document.title'# 点击页面某个元素curl"http://localhost:3456/click?target=xxx"-d'button.submit'# 截图保存当前视口curl"http://localhost:3456/screenshot?target=xxx"# 向指定元素输入文字curl"http://localhost:3456/type?target=xxx"-d'hello world'references/site-patterns/ 目录,按域名存储每次成功操作的路径经验——小红书的搜索框 CSS 选择器在哪、B站的分页是懒加载还是按钮翻页、公众号内容的渲染特点是什么。首次访问新站点会探索学习,后续同域名访问直接复用上次的经验路径。这就是"越用越顺"的技术实现。作者把这套设计提炼成了一个公式:
Skill = Agent 策略哲学 + 最小完备工具集 + 必要的事实说明
翻译成人话就是:不只告诉 Agent "有哪些工具可用",还要教它"什么时候用什么、怎么用好、踩过哪些坑"。这正是 OpenClaw Skill 架构的设计哲学——Skill 不只是工具箱,更是专家的操作手册。
前提条件:你已经装好了 OpenClaw(没装的参考文末链接)。
第一步:安装 web-access Skill
在 OpenClaw 中直接发送以下指令(通过任意已接入渠道:Telegram / Discord / CLI 等):
帮我安装 web-access skill, 仓库地址是 https://github.com/eze-is/web-access 这个 skill 原为 Claude Code 设计,安装前请先理解其核心原理 和工作逻辑,再结合 OpenClaw 的 Agent 架构与电脑环境进行适配, 使其真正融入当前环境,而非生硬移植。openclaw/skills/skills/ysyyrps777/web-access-openclaw,可以直接放到 OpenClaw 自定义技能目录中使用。两种方式都可以。第二步:开启 Chrome 远程调试
这一步只需要做一次:
# 方法一:地址栏输入(推荐)chrome://inspect/#remote-debugging # 勾选「允许远程调试」,重启 Chrome
# 方法二:命令行启动(高级用户)
# macOS
/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome \
--remote-debugging-port=9222
# Windows
"C:\Program Files\Google\Chrome\Application\chrome.exe" \--remote-debugging-port=9222
装完之后,Skill 会自动做环境检查:Node.js 版本 ≥ 22?CDP 端口通不通?Proxy 进程有没有跑起来?全部绿灯就可以用了。
以前 Agent 联网是"搜索":输关键词、拿摘要、给答案。现在是"浏览":打开页面、等渲染、点链接、读细节、整理内容。这两个动词背后的能力差距,大概相当于你让人帮你查资料,和你让他帮你实地走访一圈的差距。
工具的上限,决定了你能做事情的边界。
OpenClaw 给了 AI "双手"(执行能力),web-access 给了 AI "眼睛"(真实的联网感知能力)。两者结合,才是完整的 Agent。
夜雨聆风