乐于分享
好东西不私藏

微信公众号文章AI读不了?这个开源工具在"强行破门"

微信公众号文章AI读不了?这个开源工具在"强行破门"

你试过让AI帮你分析一篇公众号文章吗?

给它一个链接,它说”我无法访问这个页面”;你把内容复制粘贴进去,格式全乱了,图片也没了;你想批量分析一个账号的50篇文章,一篇一篇复制粘贴,手指都酸了。

微信公众号,几乎是AI工作流里最顽固的一座墙。

今天介绍一个开源工具,它专门解决这件事——wechat-article-for-ai


它解决了一个被忽视的问题

你可能没意识到:微信公众号是互联网上最难被程序访问的内容平台之一。

微信对外部爬取有严格的反爬机制,大部分工具一访问就被弹窗验证码;就算绕过了,微信文章的HTML结构混乱,图片用的是延迟加载,代码块被微信自己的样式覆盖……

于是,公众号文章几乎是AI工作流里唯一的”盲区”

你想用AI做这些事情:

  • 监控竞品公众号的内容策略
  • 批量分析某个领域的文章特征
  • 让AI自动总结、提炼公众号干货

但没有工具,一切都卡在”拿到内容”这一步。

wechat-article-for-ai解决的就是这第一步。


核心技术:反检测抓取

这个工具的核心难点不是解析文章,而是绕过微信的反爬机制

它用的是 Camoufox[1],一个专门为反检测设计的浏览器驱动。简单说,它会让爬虫看起来像一个真实的用户在操作——随机化的鼠标轨迹、真实的浏览器指纹、规避WebDriver检测。

除了反检测,工具还用了一个聪明的等待策略:不是用固定时间的 sleep,而是等页面 networkidle(网络空闲)才认为内容加载完成。这个细节很重要,因为微信文章的图片是懒加载,如果用固定等待时间,图片往往还没出来。

还有重试机制:页面加载失败会3次指数退避重试,图片下载失败会3次线性退避重试。这让工具在网络波动时也能稳定运行。


批量处理 + 图片本地化

单篇转换很简单:

python main.py "https://mp.weixin.qq.com/s/ARTICLE_ID"

但它真正强大的地方是批量处理

把一堆URL写进一个文本文件,一行一个,工具可以一口气全部跑完:

python main.py -f urls.txt -o ./output -v

每一篇文章会输出一个独立文件夹,里面有.md文件和images/图片文件夹。图片会被异步并发下载到本地,Markdown里的图片链接自动替换成本地路径——这样文章就可以完全离线使用,不依赖原始URL。

另外,工具会自动保留代码块的语言标识,还能过滤掉微信自己的CSS计数器垃圾文本。


AI工作流的最后一公里:MCP Server

如果只是CLI工具,它的价值有限。它真正有意思的地方是自带MCP Server

MCP(Model Context Protocol)是一种让AI模型调用外部工具的协议。支持MCP的AI客户端(比如Claude Desktop、Cursor等),可以直接把这个工具暴露为可调用的函数:

{"mcpServers":{"wechat-to-md":{"command":"python","args":["mcp_server.py"],"cwd":"/path/to/wechat-article-for-ai"}}}

配置好后,AI就可以说”帮我把链接里的文章转成Markdown”,然后直接拿到干净的内容继续处理。微信公众号这个AI盲区,就这样被接入了AI工作流。

它还自带 SKILL.md,可以直接作为 Claude Code 的技能使用。


适合谁用?

这个工具不是给普通读者用的,它的用户是有AI工作流需求的人

  • AI研究者:批量采集公众号语料,训练或测试中文内容分析模型
  • 内容运营:监控竞品公众号,自动化采集+分析内容策略
  • 知识工作者:把公众号的碎片化阅读,变成可整理的本地知识库
  • AI开发者:把公众号文章接入RAG系统,让AI能真正”读”微信内容

局限性也要说

工具虽好,也有几个需要注意的地方:

验证码问题:微信的反爬机制在不断升级,遇到验证码页面时,工具会报错提示,但目前没有自动破解方案,只能手动在非无头模式下解决。

处理速度:因为用了完整浏览器驱动,单篇文章的转换比纯HTTP请求慢一些,批量处理大几十篇需要耐心等待。

依赖维护:这是一个个人维护的开源项目(GitHub 55 stars),更新频率依赖作者个人时间。


一点思考

微信公众号是一座数据孤岛——微信建了一座高墙,把内容锁在里面,外面的人很难程序化地访问。

但AI时代的到来,让这座墙变得越来越碍眼。因为AI需要数据,而公众号里有大量有价值的原创内容,却偏偏是AI最难触达的地方。

wechat-article-for-ai是一种”强行破门”的尝试。它不完美,但它让一种新的可能性变得可行:让你的AI助手真正读懂你关注的那些公众号。


项目地址:bzd6661/wechat-article-for-ai[2]

支持:CLI / MCP Server / SKILL.md

相关链接

[1]Camoufox: https://github.com/nichochar/camoufox

[2]bzd6661/wechat-article-for-ai: https://github.com/bzd6661/wechat-article-for-ai