乐于分享
好东西不私藏

OpenClaw Skill推荐:firecrawl-cli AI时代的数据抓取神器

OpenClaw Skill推荐:firecrawl-cli AI时代的数据抓取神器

发布时间:2026年4月26日 07:25


推荐板块

它是什么

firecrawl-cli 是一款面向 AI 时代网页数据抓取工具,支持单页爬取、全站爬取、URL 发现和网页搜索四种核心能力,直接返回适合大模型上下文的干净 Markdown,无需手动清洗 HTML。适合需要快速获取网页数据、做竞争情报分析、监控内容变化、或为 AI 准备训练语料的用户。

何时使用

当有人提到”抓取网页内容””爬取整个网站””搜索并抓取””获取页面 Markdown””提取结构化数据””绕过反爬”等场景时,firecrawl-cli 都能派上用场。

安装方式

# 全局安装
npm install -g firecrawl-cli

# 验证状态

firecrawl --status

首次使用需要配置 API Key:

firecrawl login --browser

--browser 参数会直接打开浏览器完成授权,无需手动复制 Key。安装后可以用 firecrawl credit-usage 查看剩余额度,默认新账号有 500,000 credits。

核心功能一览

Search(搜索 + 抓取)

# 搜索并抓取结果内容
firecrawl search "AI news" --scrape -o search.json --json

# 按时间过滤(最近一天/一周)

firecrawl search "tech announcements" --tbs qdr:d -o today.json --json

# 只看 GitHub 仓库

firecrawl search "open source AI agent" --categories github -o repos.json --json

--scrape 参数让搜索结果页面的内容也被一并抓回来,不是只返回标题和链接。

Scrape(单页抓取)

# 抓取为 Markdown(AI 最喜欢这个格式)
firecrawl scrape https://docs.github.com --only-main-content -o github.md

# 等待 JS 渲染后再抓(SPA 页面的救星)

firecrawl scrape https://spa-app.com --wait-for 3000 -o spa.md

# 只提取链接

firecrawl scrape https://example.com --format links -o links.json

--only-main-content 会去掉导航、侧边栏、广告等干扰内容,只保留正文。--wait-for 参数专门对付那些靠 JavaScript 渲染内容的单页应用。

Crawl(全站爬取)

# 爬取整个网站
firecrawl crawl https://example.com --wait -o results.json --pretty

# 只爬特定路径,限制页数和深度

firecrawl crawl https://docs.example.com --include-paths /api,/guide --limit 100 --max-depth 3

爬取支持 --include-paths--exclude-paths 来精确控制只爬某些目录或跳过管理后台。

Map(URL 发现)

# 快速找出网站所有页面
firecrawl map https://example.com -o urls.json --json

# 搜索包含特定关键词的页面

firecrawl map https://example.com --search "blog" -o blog-urls.json

Map 不下载内容,只快速列出 URL,适合在大规模爬取之前先摸清网站结构。

为什么推荐它

专为 AI 设计:直接输出 LLM 优化的 Markdown,不用写正则表达式,不用清洗 HTML,一行命令搞定。

搜索 + 抓取一体化:很多工具只能搜索或只能抓取,firecrawl 把两者做成了 --scrape 参数一键串联,搜索结果页面本身也能被解析。

JS 渲染支持:加一个 --wait-for 参数就能处理 SPA 网站,不用上 Puppeteer 那种重型方案。

并行抓取:用 &wait 可以轻松并行,同时抓取多个页面,速度翻倍。

credits 友好:500,000 免费额度,单次抓取消耗很少,小规模使用基本够用。


写法分析板块

此 SKILL.md 用了哪些写作技巧

1. 场景式开头直击痛点

开篇第一句是英文 description,直接点明”Returns clean markdown optimized for LLM context”,把”给 AI 用”这件事放在了最前面。对 AI agent 来说,这比说”网页爬虫”精准十倍。这种写法让 agent 在看到 --scrape 或”抓取”等关键词时就能直接命中,不需要读完全文才理解。

2. 四条命令线统一入口

firecrawl 有 Search / Scrape / Crawl / Map 四条命令,但入口只有 firecrawl 一个主命令,分支通过子命令区分。这是一种”统一入口 + 功能发散”的结构设计,用户记住一个工具名就知道怎么探索所有功能。这种思路在做 CLI 工具类 skill 时非常值得借鉴。

3. 示例即文档,文档即工作流

整个 SKILL.md 几乎没有大段的概念解释,全是代码示例,且示例的命名和路径都是真实可运行的(比如 .firecrawl/search-react_server_components.json),读者看完示例就知道该用什么格式存结果、路径怎么组织。这是典型的”示例驱动”文档风格,比表格化的参数说明更有场景感。

4. 并行抓取示例展示规模化思维

单独用一个”Parallelization”小节教用户怎么用 & + waitxargs -P 做并行抓取,这已经超出了”教命令”的范围,是在教用户用这个工具做规模化数据采集。这种”最佳实践前置”的做法让 skill 不只是说明书,更像是入行指南。

5. JSON 输出作为一等公民

大部分 CLI 工具把 JSON 输出作为附加选项,但 firecrawl 的 SKILL.md 里大量使用 --json --pretty 作为推荐输出格式,还展示了如何结合 jq 做结构化提取。这反映了工具设计者对”机器可读输出”的一等公民支持,也给 skill 文档的写法树立了标杆:涉及数据处理的工具,建议默认推荐 JSON 输出格式。

6. Combining with Other Tools 展示工具整合

最后用一节展示如何结合 jq 做数据提取,把 firecrawl 定位成更大工作流里的一环,而不是孤零零的一个工具。这种”把自己放到更大工作流里”的写法,比单纯列举参数更能帮助用户理解工具价值。

写法技巧总结

       

         
           
           
         

技巧 说明
场景式 description 第一行说清楚”给谁用”和”解决什么问题”
统一入口结构 一个主命令 + 多个子命令,功能清晰不零散
示例即文档 代码示例优先,参数表格作为补充
最佳实践前置 并行、安全、规模化等进阶用法放前面
JSON 一等公民 推荐结构化输出,配合 jq 等工具使用
整合定位 展示与周边工具的协作方式

       

     


Skill:firecrawl-cli(skillhub)