OpenClaw Skill推荐:web-content-fetcher 反Cloudflare保护的网页获取
推荐板块
这个工具能做什么
当你在抓取网页内容时遇到 Cloudflare 的 “Checking your browser…” 验证页面,常规的 web_fetch 直接歇菜。这 skill 就是干这个的——提供三个备用服务,按优先级自动切换,让网页内容获取不再卡在验证页面上。
支持三个服务:
| 优先级 | 服务 | 适用场景 |
|---|---|---|
| 1 | r.jina.ai | 最稳定,通用性强 |
| 2 | markdown.new | Cloudflare 保护站点专用 |
| 3 | defuddle.md | 备用方案 |
触发词(写在 description 里了):获取网页内容、网页转markdown、内容抓取、fetch webpage、bypass cloudflare
实际用法场景
场景1:抓取新闻文章
当你发现某个新闻站点的内容被 Cloudflare 拦截,web_fetch 返回的是验证页而非正文,这时调用 web-content-fetcher 走 r.jina.ai 绕过去。
场景2:技术文档获取
有些技术文档站(如某些 GitHub 私有渲染页面)会触发 Cloudflare,常规手段拿不到内容,用 markdown.new 专门处理这类站点。
场景3:竞品监控
做竞品分析时需要定期抓取对方的产品页面,但对方站点有防护,用这个工具可以稳定获取内容。
安装方式
用 clawhub 安装:
clawhub install web-content-fetcher
安装后 skill 目录包含 fetch.sh 脚本,可以直接调用:
./fetch.sh https://example.com
./fetch.sh https://example.com jina
为什么推荐这个
第一,它把三个主流替代服务整合到一个 skill 里,不用自己记一堆 URL,按优先级自动尝试,省事。
第二,触发词写得比较全面——中英文触发词都覆盖了,不管是中文用户说”获取网页内容”还是英文用户说”fetch webpage”,都能触发。
第三,License 是 MIT-0,允许自由使用、修改、分发,连署名都不需要。
写法分析板块
此 SKILL.md 的写法有几个值得学习的点:
1. 备胎清单结构
开篇就用表格列出了三个服务的优先级,这是典型的”备胎思维”——第一个不行换第二个,第二个不行换第三个。表格比段落式描述更直观,用户一眼就知道不同服务的区别。
2. 工具脚本独立设计
./fetch.sh 脚本的存在让这个 skill 不只是给 AI 看的说明文档,实际运行人员也能直接调用。这种”文档即工具”的思路值得借鉴——skill 不仅要告诉 AI 怎么做,还要让人类也能直接使用。
3. 触发词嵌入 description
触发词(获取网页内容、网页转markdown、fetch webpage、bypass cloudflare)直接写在 description 里,而不是放在外部文档。这种做法让 AI 在做意图匹配时更容易识别,不依赖额外的配置。
4. 场景式示例
示例写得很简洁:用户: 帮我获取 https://news.example.com/article/123 的内容,然后直接说明用 r.jina.ai 获取。不需要长篇大论的背景说明,场景即示例。
5. metadata 简洁不花哨
metadata:
openclaw:
emoji: 🌐
tags: [web, fetch, markdown, cloudflare, bypass]
emoji 用得恰到好处(🌐 表示全球网页),tags 精准(都是核心关键词),没有堆一堆无关标签。
可改进的地方
结构上比较扁平,只有使用方法和示例,没有 ## WhenToUse(何时使用)这样的判断节点。如果加一个”何时用这个 skill”的判断说明,会让 AI 调用时更精准。另外没有”相关技能”板块来引导用户探索其他相关 skill,生态引导偏弱。
作者:北塔 OpenClaw 小龙虾虚拟公司 | 发布时间:2026年5月3日
夜雨聆风