1.6 万次下载的公众号爬虫 Skill,我实测后只想提醒一句:别把归档当洗稿

今天测的这个 Skill，叫 wechat-article-spider。

它在 SkillHub 上的中文名是：微信公众号文章爬虫。

页面描述非常直接：

将微信公众号文章转换为 Markdown + 本地图片。

从功能上看，它不是一个写作工具，也不是一个排版工具。

它解决的是一个很具体的问题：

当你看到一篇公众号文章，想把它整理成可保存、可检索、可复盘的资料时，它能把网页内容抓下来，生成 Markdown 文件，并把文章里的图片下载到本地 images/ 文件夹。

听起来很实用。

但这类工具也最容易踩线。

所以这篇测评，我不会把它写成“公众号爆文一键搬运神器”。

我更想测的是：

它适不适合做内容归档和资料整理？边界在哪里？

01 这个 Skill 的基本信息

从 SkillHub API 抓到的信息看，wechat-article-spider 的基础数据是：

名称：微信公众号文章爬虫

来源：ClawHub

作者：chenchaoqun

版本：1.0.0

分类：content-creation

下载量：16191

安装量：6467

星标：36

安全检测：科恩实验室、云鼎实验室均显示安全、无风险

标签：requires_api_key = false

它的文件结构也比较清楚。

核心说明在 SKILL.md，脚本在 scripts/ 目录下，包括：

main.py

scraper.py

images.py

requirements.txt

依赖也很轻：

requests、beautifulsoup4、lxml。

这意味着它不是依赖外部大模型 API 的技能，而更像一个传统爬虫脚本被包装成 Skill。

这点很重要。

因为它的价值不在“智能生成”，而在“把网页资料结构化保存”。

02 我给它的真实测试任务

我给它设计的任务是：

把一篇公众号文章整理成可复盘的本地资料包。

这个任务很贴近我们平时做内容工作。

比如你看到一篇很值得学习的文章，里面有标题、正文、配图、案例、金句、结构。

如果只是收藏链接，过几天可能就忘了。

如果手动复制，又会遇到几个麻烦：

图片要一张张保存。

格式容易乱。

标题和段落层级要重新整理。

以后检索不方便。

想做文章拆解时，还要重新打开网页。

所以我对这个 Skill 的测试标准很简单：

能不能输入一个微信文章 URL？

能不能抓到正文内容？

能不能把图片下载到本地？

能不能生成 Markdown？

图片路径能不能用相对路径引用？

如果这些都能做到，它就不是一个“炫技工具”。

它是一个内容资料整理工具。

03 我按 5 步做测评

根据 SKILL.md，它的使用流程很直接。

第一步，安装依赖。

进入 scripts 目录，执行：

pip install -r requirements.txt

第二步，准备公众号文章 URL。

输入格式类似：

https://mp.weixin.qq.com/s/xxxxx

第三步，运行脚本。

命令行用法是：

python main.py <文章 URL> [输出目录]

第四步，检查输出结构。

正常情况下，它会生成：

一个 Markdown 文件。

一个 images/ 文件夹。

多张本地图片文件。

第五步，人工复核内容。

这一步不能省。

因为微信文章可能有反爬机制，部分动态加载图片可能抓不到，段落格式也可能需要后期整理。

所以真正靠谱的使用方式是：

先抓取，再检查。

先归档，再拆解。

先尊重版权，再考虑二次使用。

04 它做得好的地方

我认为 wechat-article-spider 最大的价值，是降低内容复盘的门槛。

很多人做内容学习，最大的问题不是看得少，而是看完不沉淀。

收藏夹里有很多链接。

聊天记录里有很多转发。

浏览器里开了很多标签页。

但真正能复用的资料很少。

这个 Skill 的价值，就是把一篇在线文章变成一个本地资料包：

Markdown 用来阅读、标注、拆结构。

图片文件夹用来保存原文配图。

相对路径方便后续迁移和整理。

本地文件方便加入自己的资料库。

对于做公众号、课程、选题研究、竞品分析的人来说，这个动作很实用。

它不是帮你写文章。

它是帮你把别人文章里的结构、案例、表达方式保存下来，方便后续学习和复盘。

05 它的边界也很明显

这个 Skill 最大的边界，不是技术，而是使用方式。

它可以帮助你归档文章。

但不能把别人的文章变成你的文章。

它可以帮助你保存图片。

但不代表图片版权自动归你。

它可以帮助你生成 Markdown。

但不代表你可以直接复制、改几个字、重新发布。

这点必须说清楚。

内容工具越方便，越要守边界。

适合的用法是：

个人学习。

资料归档。

文章拆解。

选题研究。

团队内部复盘。

谨慎的用法是：

批量搬运。

洗稿改写。

未经授权转载。

商用使用原文图片。

采集敏感或付费内容。

另外，它也有技术边界。

SKILL.md 里提醒：微信文章可能有反爬机制，失败时可稍后重试；部分动态加载图片可能无法获取。

所以它不是“百分百成功的公众号采集器”。

它更适合做日常内容资料整理，而不是高强度批量采集。

06 我的评分

这次我给 wechat-article-spider 的综合评价是：适合内容工作者做公众号文章归档的实用型 Skill。

我的评分如下：

场景明确度：4.6 / 5

上手成本：4.0 / 5

资料整理价值：4.5 / 5

格式可复用性：4.2 / 5

批量采集稳定性：3.0 / 5

版权合规风险：2.5 / 5

注意，最后一项分数低，不是说这个工具本身不好。

而是因为这类工具天然容易被误用。

它越好用，越要提醒自己：

归档是为了学习。

拆解是为了理解。

复用的是方法，不是原文。

07 我会怎么用它

如果是我自己用，我不会拿它做批量搬运。

我会这样用：

看到一篇值得学习的公众号文章。

用它抓成 Markdown + 本地图片。

把文章结构拆成标题、开头、案例、金句、转折、结尾。

标注哪些地方值得学习。

最后只把方法沉淀到自己的写作模板里。

这才是它最舒服的位置。

最后给一个结论：

wechat-article-spider 值得放进内容工作者的工具箱。

但它不是洗稿工具，也不是搬运工具。

它真正有价值的地方，是把公众号文章变成可保存、可检索、可复盘的学习资料。

工具负责提高效率。

人负责守住边界。