乐于分享
好东西不私藏

openclaw技能分享—网站爬取

openclaw技能分享—网站爬取

装上 Web Scraper 技能后,OpenClaw,就可以变成一个“AI爬虫助手”。
不需要自己从零写代码,只要说明想抓取的网站、内容字段和保存格式,AI 就能根据网页情况生成爬虫脚本,帮助整理公开网页数据。

一、适合哪些场景?

比较适合这些任务:
收集某个网站的新闻标题和链接;
批量整理政府政策文件;
抓取学校官网通知公告;
整理行业资讯;
收集论文写作需要的公开资料;
抓取网页表格数据;
把网页内容保存成 Excel 可用的数据表。

二、环境准备

第一步:打开 OpenClaw / QClaw / AutoClaw
先进入你安装好的工具,例如 OpenClaw、腾讯 QClaw 或智谱 AutoClaw。
如没有openclaw 推荐浏览器搜索并下载Qclaw
第二步:安装 Web Scraper 技能
将文件移进claw相关技能区
或将skill.md文件发送给你的claw助手,输入:
帮我安装该技能
第三步:获取你想要抓取文章的网址
到浏览器发布文章的目录网页下复制网址
第四步:直接用自然语言下指令
比如可以这样说:
使用相关技能帮我抓取这个网站的通知公告栏目,提取标题、发布时间、链接和正文内容,保存为 CSV 和 TXT 文件到桌面。
网址是:https://xxx.com/news
也可以说得更具体:
请抓取该网站前 5 页文章列表,每篇文章需要提取标题、发布日期、来源、正文和原文链接,最后保存为 data.csv 和.txt。
第五步:查看输出文件
爬取完成后,一般在桌面会得到这些文件:
data.csv  text_files/
其中:data.csv 可以用 Excel 打开;
text_files  里是单篇文章的文本文件。

三、推荐提示词

可以直接复制下面这段使用:
你现在是一个 AI 爬虫助手。请帮我抓取以下网站的公开网页内容。
目标网址:
【在这里粘贴网址】
需要提取的字段:
标题、发布时间、来源、正文、原文链接
要求:
  1. 结果保存为 CSV和 TXT 文件;
  2. 只抓取公开可访问内容,不绕过登录、验证码或权限限制。

四、使用时注意

使用 AI 爬虫时,只建议抓取公开网页内容。
不要抓取需要登录、验证码、付费权限的数据,也不要采集个人隐私信息。
Ps:skill文件 关注公众号发送AI爬虫获取