OpenClaw Skill推荐:firecrawl-cli AI时代的数据抓取神器-夜雨聆风

OpenClaw Skill推荐:firecrawl-cli AI时代的数据抓取神器

发布时间：2026年4月26日 07:25

推荐板块

它是什么

firecrawl-cli 是一款面向 AI 时代网页数据抓取工具，支持单页爬取、全站爬取、URL 发现和网页搜索四种核心能力，直接返回适合大模型上下文的干净 Markdown，无需手动清洗 HTML。适合需要快速获取网页数据、做竞争情报分析、监控内容变化、或为 AI 准备训练语料的用户。

何时使用

当有人提到”抓取网页内容””爬取整个网站””搜索并抓取””获取页面 Markdown””提取结构化数据””绕过反爬”等场景时，firecrawl-cli 都能派上用场。

安装方式

# 全局安装
npm install -g firecrawl-cli

# 验证状态
firecrawl --status

首次使用需要配置 API Key：

firecrawl login --browser

--browser 参数会直接打开浏览器完成授权，无需手动复制 Key。安装后可以用 firecrawl credit-usage 查看剩余额度，默认新账号有 500,000 credits。

核心功能一览

Search（搜索 + 抓取）

# 搜索并抓取结果内容
firecrawl search "AI news" --scrape -o search.json --json

# 按时间过滤（最近一天/一周）
firecrawl search "tech announcements" --tbs qdr:d -o today.json --json

# 只看 GitHub 仓库
firecrawl search "open source AI agent" --categories github -o repos.json --json

--scrape 参数让搜索结果页面的内容也被一并抓回来，不是只返回标题和链接。

Scrape（单页抓取）

# 抓取为 Markdown（AI 最喜欢这个格式）
firecrawl scrape https://docs.github.com --only-main-content -o github.md

# 等待 JS 渲染后再抓（SPA 页面的救星）
firecrawl scrape https://spa-app.com --wait-for 3000 -o spa.md

# 只提取链接
firecrawl scrape https://example.com --format links -o links.json

--only-main-content 会去掉导航、侧边栏、广告等干扰内容，只保留正文。--wait-for 参数专门对付那些靠 JavaScript 渲染内容的单页应用。

Crawl（全站爬取）

# 爬取整个网站
firecrawl crawl https://example.com --wait -o results.json --pretty

# 只爬特定路径，限制页数和深度
firecrawl crawl https://docs.example.com --include-paths /api,/guide --limit 100 --max-depth 3

爬取支持 --include-paths 和 --exclude-paths 来精确控制只爬某些目录或跳过管理后台。

Map（URL 发现）

# 快速找出网站所有页面
firecrawl map https://example.com -o urls.json --json

# 搜索包含特定关键词的页面
firecrawl map https://example.com --search "blog" -o blog-urls.json

Map 不下载内容，只快速列出 URL，适合在大规模爬取之前先摸清网站结构。

为什么推荐它

专为 AI 设计：直接输出 LLM 优化的 Markdown，不用写正则表达式，不用清洗 HTML，一行命令搞定。

搜索 + 抓取一体化：很多工具只能搜索或只能抓取，firecrawl 把两者做成了 --scrape 参数一键串联，搜索结果页面本身也能被解析。

JS 渲染支持：加一个 --wait-for 参数就能处理 SPA 网站，不用上 Puppeteer 那种重型方案。

并行抓取：用 & 和 wait 可以轻松并行，同时抓取多个页面，速度翻倍。

credits 友好：500,000 免费额度，单次抓取消耗很少，小规模使用基本够用。

写法分析板块

此 SKILL.md 用了哪些写作技巧

1. 场景式开头直击痛点

开篇第一句是英文 description，直接点明”Returns clean markdown optimized for LLM context”，把”给 AI 用”这件事放在了最前面。对 AI agent 来说，这比说”网页爬虫”精准十倍。这种写法让 agent 在看到 --scrape 或”抓取”等关键词时就能直接命中，不需要读完全文才理解。

2. 四条命令线统一入口

firecrawl 有 Search / Scrape / Crawl / Map 四条命令，但入口只有 firecrawl 一个主命令，分支通过子命令区分。这是一种”统一入口 + 功能发散”的结构设计，用户记住一个工具名就知道怎么探索所有功能。这种思路在做 CLI 工具类 skill 时非常值得借鉴。

3. 示例即文档，文档即工作流

整个 SKILL.md 几乎没有大段的概念解释，全是代码示例，且示例的命名和路径都是真实可运行的（比如 .firecrawl/search-react_server_components.json），读者看完示例就知道该用什么格式存结果、路径怎么组织。这是典型的”示例驱动”文档风格，比表格化的参数说明更有场景感。

4. 并行抓取示例展示规模化思维

单独用一个”Parallelization”小节教用户怎么用 & + wait 和 xargs -P 做并行抓取，这已经超出了”教命令”的范围，是在教用户用这个工具做规模化数据采集。这种”最佳实践前置”的做法让 skill 不只是说明书，更像是入行指南。

5. JSON 输出作为一等公民

大部分 CLI 工具把 JSON 输出作为附加选项，但 firecrawl 的 SKILL.md 里大量使用 --json --pretty 作为推荐输出格式，还展示了如何结合 jq 做结构化提取。这反映了工具设计者对”机器可读输出”的一等公民支持，也给 skill 文档的写法树立了标杆：涉及数据处理的工具，建议默认推荐 JSON 输出格式。

6. Combining with Other Tools 展示工具整合

最后用一节展示如何结合 jq 做数据提取，把 firecrawl 定位成更大工作流里的一环，而不是孤零零的一个工具。这种”把自己放到更大工作流里”的写法，比单纯列举参数更能帮助用户理解工具价值。

写法技巧总结

技巧	说明
场景式 description	第一行说清楚”给谁用”和”解决什么问题”
统一入口结构	一个主命令 + 多个子命令，功能清晰不零散
示例即文档	代码示例优先，参数表格作为补充
最佳实践前置	并行、安全、规模化等进阶用法放前面
JSON 一等公民	推荐结构化输出，配合 jq 等工具使用
整合定位	展示与周边工具的协作方式

Skill：firecrawl-cli（skillhub）