乐于分享
好东西不私藏

1.6 万次下载的公众号爬虫 Skill,我实测后只想提醒一句:别把归档当洗稿

1.6 万次下载的公众号爬虫 Skill,我实测后只想提醒一句:别把归档当洗稿

今天测的这个 Skill,叫 wechat-article-spider。
它在 SkillHub 上的中文名是:微信公众号文章爬虫。
页面描述非常直接:
将微信公众号文章转换为 Markdown + 本地图片。
从功能上看,它不是一个写作工具,也不是一个排版工具。
它解决的是一个很具体的问题:
当你看到一篇公众号文章,想把它整理成可保存、可检索、可复盘的资料时,它能把网页内容抓下来,生成 Markdown 文件,并把文章里的图片下载到本地 images/ 文件夹。
听起来很实用。
但这类工具也最容易踩线。
所以这篇测评,我不会把它写成“公众号爆文一键搬运神器”。
我更想测的是:
它适不适合做内容归档和资料整理?边界在哪里?

01 这个 Skill 的基本信息

从 SkillHub API 抓到的信息看,wechat-article-spider 的基础数据是:
名称:微信公众号文章爬虫
来源:ClawHub
作者:chenchaoqun
版本:1.0.0
分类:content-creation
下载量:16191
安装量:6467
星标:36
安全检测:科恩实验室、云鼎实验室均显示安全、无风险
标签:requires_api_key = false
它的文件结构也比较清楚。
核心说明在 SKILL.md,脚本在 scripts/ 目录下,包括:
main.py
scraper.py
images.py
requirements.txt
依赖也很轻:
requests、beautifulsoup4、lxml。
这意味着它不是依赖外部大模型 API 的技能,而更像一个传统爬虫脚本被包装成 Skill。
这点很重要。
因为它的价值不在“智能生成”,而在“把网页资料结构化保存”。

02 我给它的真实测试任务

我给它设计的任务是:
把一篇公众号文章整理成可复盘的本地资料包。
这个任务很贴近我们平时做内容工作。
比如你看到一篇很值得学习的文章,里面有标题、正文、配图、案例、金句、结构。
如果只是收藏链接,过几天可能就忘了。
如果手动复制,又会遇到几个麻烦:
图片要一张张保存。
格式容易乱。
标题和段落层级要重新整理。
以后检索不方便。
想做文章拆解时,还要重新打开网页。
所以我对这个 Skill 的测试标准很简单:
能不能输入一个微信文章 URL?
能不能抓到正文内容?
能不能把图片下载到本地?
能不能生成 Markdown?
图片路径能不能用相对路径引用?
如果这些都能做到,它就不是一个“炫技工具”。
它是一个内容资料整理工具。

03 我按 5 步做测评

根据 SKILL.md,它的使用流程很直接。
第一步,安装依赖。
进入 scripts 目录,执行:
pip install -r requirements.txt
第二步,准备公众号文章 URL。
输入格式类似:
https://mp.weixin.qq.com/s/xxxxx
第三步,运行脚本。
命令行用法是:
python main.py <文章 URL> [输出目录]
第四步,检查输出结构。
正常情况下,它会生成:
一个 Markdown 文件。
一个 images/ 文件夹。
多张本地图片文件。
第五步,人工复核内容。
这一步不能省。
因为微信文章可能有反爬机制,部分动态加载图片可能抓不到,段落格式也可能需要后期整理。
所以真正靠谱的使用方式是:
先抓取,再检查。
先归档,再拆解。
先尊重版权,再考虑二次使用。

04 它做得好的地方

我认为 wechat-article-spider 最大的价值,是降低内容复盘的门槛。
很多人做内容学习,最大的问题不是看得少,而是看完不沉淀。
收藏夹里有很多链接。
聊天记录里有很多转发。
浏览器里开了很多标签页。
但真正能复用的资料很少。
这个 Skill 的价值,就是把一篇在线文章变成一个本地资料包:
Markdown 用来阅读、标注、拆结构。
图片文件夹用来保存原文配图。
相对路径方便后续迁移和整理。
本地文件方便加入自己的资料库。
对于做公众号、课程、选题研究、竞品分析的人来说,这个动作很实用。
它不是帮你写文章。
它是帮你把别人文章里的结构、案例、表达方式保存下来,方便后续学习和复盘。

05 它的边界也很明显

这个 Skill 最大的边界,不是技术,而是使用方式。
它可以帮助你归档文章。
但不能把别人的文章变成你的文章。
它可以帮助你保存图片。
但不代表图片版权自动归你。
它可以帮助你生成 Markdown。
但不代表你可以直接复制、改几个字、重新发布。
这点必须说清楚。
内容工具越方便,越要守边界。
适合的用法是:
个人学习。
资料归档。
文章拆解。
选题研究。
团队内部复盘。
谨慎的用法是:
批量搬运。
洗稿改写。
未经授权转载。
商用使用原文图片。
采集敏感或付费内容。
另外,它也有技术边界。
SKILL.md 里提醒:微信文章可能有反爬机制,失败时可稍后重试;部分动态加载图片可能无法获取。
所以它不是“百分百成功的公众号采集器”。
它更适合做日常内容资料整理,而不是高强度批量采集。

06 我的评分

这次我给 wechat-article-spider 的综合评价是:适合内容工作者做公众号文章归档的实用型 Skill。
我的评分如下:
场景明确度:4.6 / 5
上手成本:4.0 / 5
资料整理价值:4.5 / 5
格式可复用性:4.2 / 5
批量采集稳定性:3.0 / 5
版权合规风险:2.5 / 5
注意,最后一项分数低,不是说这个工具本身不好。
而是因为这类工具天然容易被误用。
它越好用,越要提醒自己:
归档是为了学习。
拆解是为了理解。
复用的是方法,不是原文。

07 我会怎么用它

如果是我自己用,我不会拿它做批量搬运。
我会这样用:
看到一篇值得学习的公众号文章。
用它抓成 Markdown + 本地图片。
把文章结构拆成标题、开头、案例、金句、转折、结尾。
标注哪些地方值得学习。
最后只把方法沉淀到自己的写作模板里。
这才是它最舒服的位置。
最后给一个结论:
wechat-article-spider 值得放进内容工作者的工具箱。
但它不是洗稿工具,也不是搬运工具。
它真正有价值的地方,是把公众号文章变成可保存、可检索、可复盘的学习资料。
工具负责提高效率。
人负责守住边界。