OpenClaw Skill推荐:firecrawl-cli AI时代的数据抓取神器
发布时间:2026年4月26日 07:25
推荐板块
它是什么
firecrawl-cli 是一款面向 AI 时代网页数据抓取工具,支持单页爬取、全站爬取、URL 发现和网页搜索四种核心能力,直接返回适合大模型上下文的干净 Markdown,无需手动清洗 HTML。适合需要快速获取网页数据、做竞争情报分析、监控内容变化、或为 AI 准备训练语料的用户。
何时使用
当有人提到”抓取网页内容””爬取整个网站””搜索并抓取””获取页面 Markdown””提取结构化数据””绕过反爬”等场景时,firecrawl-cli 都能派上用场。
安装方式
# 全局安装
npm install -g firecrawl-cli
# 验证状态
firecrawl --status
首次使用需要配置 API Key:
firecrawl login --browser
--browser 参数会直接打开浏览器完成授权,无需手动复制 Key。安装后可以用 firecrawl credit-usage 查看剩余额度,默认新账号有 500,000 credits。
核心功能一览
Search(搜索 + 抓取)
# 搜索并抓取结果内容
firecrawl search "AI news" --scrape -o search.json --json
# 按时间过滤(最近一天/一周)
firecrawl search "tech announcements" --tbs qdr:d -o today.json --json
# 只看 GitHub 仓库
firecrawl search "open source AI agent" --categories github -o repos.json --json
--scrape 参数让搜索结果页面的内容也被一并抓回来,不是只返回标题和链接。
Scrape(单页抓取)
# 抓取为 Markdown(AI 最喜欢这个格式)
firecrawl scrape https://docs.github.com --only-main-content -o github.md
# 等待 JS 渲染后再抓(SPA 页面的救星)
firecrawl scrape https://spa-app.com --wait-for 3000 -o spa.md
# 只提取链接
firecrawl scrape https://example.com --format links -o links.json
--only-main-content 会去掉导航、侧边栏、广告等干扰内容,只保留正文。--wait-for 参数专门对付那些靠 JavaScript 渲染内容的单页应用。
Crawl(全站爬取)
# 爬取整个网站
firecrawl crawl https://example.com --wait -o results.json --pretty
# 只爬特定路径,限制页数和深度
firecrawl crawl https://docs.example.com --include-paths /api,/guide --limit 100 --max-depth 3
爬取支持 --include-paths 和 --exclude-paths 来精确控制只爬某些目录或跳过管理后台。
Map(URL 发现)
# 快速找出网站所有页面
firecrawl map https://example.com -o urls.json --json
# 搜索包含特定关键词的页面
firecrawl map https://example.com --search "blog" -o blog-urls.json
Map 不下载内容,只快速列出 URL,适合在大规模爬取之前先摸清网站结构。
为什么推荐它
专为 AI 设计:直接输出 LLM 优化的 Markdown,不用写正则表达式,不用清洗 HTML,一行命令搞定。
搜索 + 抓取一体化:很多工具只能搜索或只能抓取,firecrawl 把两者做成了 --scrape 参数一键串联,搜索结果页面本身也能被解析。
JS 渲染支持:加一个 --wait-for 参数就能处理 SPA 网站,不用上 Puppeteer 那种重型方案。
并行抓取:用 & 和 wait 可以轻松并行,同时抓取多个页面,速度翻倍。
credits 友好:500,000 免费额度,单次抓取消耗很少,小规模使用基本够用。
写法分析板块
此 SKILL.md 用了哪些写作技巧
1. 场景式开头直击痛点
开篇第一句是英文 description,直接点明”Returns clean markdown optimized for LLM context”,把”给 AI 用”这件事放在了最前面。对 AI agent 来说,这比说”网页爬虫”精准十倍。这种写法让 agent 在看到 --scrape 或”抓取”等关键词时就能直接命中,不需要读完全文才理解。
2. 四条命令线统一入口
firecrawl 有 Search / Scrape / Crawl / Map 四条命令,但入口只有 firecrawl 一个主命令,分支通过子命令区分。这是一种”统一入口 + 功能发散”的结构设计,用户记住一个工具名就知道怎么探索所有功能。这种思路在做 CLI 工具类 skill 时非常值得借鉴。
3. 示例即文档,文档即工作流
整个 SKILL.md 几乎没有大段的概念解释,全是代码示例,且示例的命名和路径都是真实可运行的(比如 .firecrawl/search-react_server_components.json),读者看完示例就知道该用什么格式存结果、路径怎么组织。这是典型的”示例驱动”文档风格,比表格化的参数说明更有场景感。
4. 并行抓取示例展示规模化思维
单独用一个”Parallelization”小节教用户怎么用 & + wait 和 xargs -P 做并行抓取,这已经超出了”教命令”的范围,是在教用户用这个工具做规模化数据采集。这种”最佳实践前置”的做法让 skill 不只是说明书,更像是入行指南。
5. JSON 输出作为一等公民
大部分 CLI 工具把 JSON 输出作为附加选项,但 firecrawl 的 SKILL.md 里大量使用 --json --pretty 作为推荐输出格式,还展示了如何结合 jq 做结构化提取。这反映了工具设计者对”机器可读输出”的一等公民支持,也给 skill 文档的写法树立了标杆:涉及数据处理的工具,建议默认推荐 JSON 输出格式。
6. Combining with Other Tools 展示工具整合
最后用一节展示如何结合 jq 做数据提取,把 firecrawl 定位成更大工作流里的一环,而不是孤零零的一个工具。这种”把自己放到更大工作流里”的写法,比单纯列举参数更能帮助用户理解工具价值。
写法技巧总结
| 技巧 | 说明 |
|---|---|
| 场景式 description | 第一行说清楚”给谁用”和”解决什么问题” |
| 统一入口结构 | 一个主命令 + 多个子命令,功能清晰不零散 |
| 示例即文档 | 代码示例优先,参数表格作为补充 |
| 最佳实践前置 | 并行、安全、规模化等进阶用法放前面 |
| JSON 一等公民 | 推荐结构化输出,配合 jq 等工具使用 |
| 整合定位 | 展示与周边工具的协作方式 |
Skill:firecrawl-cli(skillhub)
夜雨聆风