乐于分享
好东西不私藏

公众号文章自动采集下载

公众号文章自动采集下载

大家好,我是苍一,一个干了13年的后端开发,正在探索AI编程,从产品到开发的全生命周期最佳实践,如果您感兴趣,欢迎关注👇,看我如何自我革命。

大多数人有这样的习惯:刷到一篇深度好文,随手转发到收藏夹,然后再也没有打开过。收藏夹越堆越满,真正读过的寥寥无几。更麻烦的是,很多技术类文章需要配合工具操作,如果让 AI 辅助处理,还得手动复制粘贴,效率极低。

核心矛盾不在「信息太多」,而在「缺少一套自动化的采集和整理流程」。公众号没有 RSS 输出,没有开放 API,内容被封锁在微信生态内部,Agent 根本无法直接访问。

we-mp-rss 这个项目解决了这个问题。它能把公众号内容转化成标准 RSS 订阅源,同时支持将文章导出为 PDF、HTML、Word 等格式,方便后续交给 AI 处理。

项目地址:https://github.com/rachelos/we-mp-rss

1️⃣ 授权原理

we-mp-rss 的抓取方式比较巧妙。它不依赖爬虫模拟,而是借助微信公众号管理后台的官方接口。具体来说,你需要一个已经开通了公众号的微信号来完成扫码授权。授权后,系统就能以公众号管理者的身份访问后台数据,拉取文章列表和正文内容。

如果没有公众号,注册一个个人订阅号就行,整个过程大概 5 分钟。与早期那些需要手动抓 Cookie、拼请求头的方案相比,we-mp-rss 把这些步骤全部封装好了,扫码即用。

2️⃣ 订阅公众号

授权完成后进入订阅管理界面。直接输入公众号名称搜索,系统会匹配对应的账号。我测试时一次性添加了 6 个不同领域的公众号,涵盖 AI 资讯、硬件评测、自媒体运营等方向,全部识别成功,暂时没有发现订阅数量限制。

添加完成后,系统会自动拉取这些账号的历史文章,在首页以列表形式展示。

3️⃣ 文章导出与格式选择

首页提供导出功能,支持多种格式。建议选择 PDF。原因很简单:公众号文章的排版普遍比较复杂,图文混排、嵌入卡片、自定义样式非常常见。转成 Markdown 格式大概率会丢失大量排版信息,Word 格式则经常出现字体和间距错乱。PDF 是保真度最高的选择,而且主流的 AI 工具都能直接解析 PDF 内容。

4️⃣ RSS 订阅集成

如果你需要持续跟踪某个公众号的更新,可以使用 RSS 功能。每个订阅的公众号都会生成一个独立的 RSS 链接,可以直接接入 FreshRSS、RSSHub 等阅读器,也可以集成到支持 RSS 的 Agent 工作流中。

这种方式的好处是自动化程度高:有新文章发布时,RSS 源会自动更新,Agent 可以通过轮询或 Webhook 检测到变化并触发后续流程。

5️⃣ Access Key 与 Agent 深度集成

如果你不想维护 RSS 轮询逻辑,we-mp-rss 还提供了更直接的方案。在「更多」菜单中可以创建 Access Key,配置好权限后会生成 API 密钥。把项目地址和 Key 交给 Agent,它可以自行阅读 API 文档、调用接口、拉取文章内容。

这意味着 Agent 可以完全自主地完成从检测更新到下载文章的全流程,不需要额外的中间件。

6️⃣ 威联通 NAS 部署

作为 7×24 小时运行的采集服务,部署在 NAS 上是合理的。以下是 Docker Compose 配置:

services:
  werss:
    image: rachelos/we-mp-rss:latest
    ports:
      - "8001:8001"
    volumes:
      - /share/Container/werss:/app/data
    restart: unless-stopped

在威联通的 Container Station 中创建应用,粘贴上面的 YAML 文件并启动即可。端口映射和数据目录都可以按实际需求调整。部署完成后通过 NAS_IP:8001 访问 Web 界面,默认账号 admin,密码 admin@123

7️⃣ 自动化采集的实际场景

把上面的组件串起来,一个完整的自动化流程是这样的:we-mp-rss 在 NAS 上持续运行,监控已订阅公众号的更新。当检测到新文章时,通过 RSS 或 API 通知 Agent。Agent 下载文章 PDF,可以选择将其存入向量数据库做 Embedding,或者直接让大模型生成摘要和提纲。

更进一步,可以设定规则让 Agent 定期学习特定作者的文章内容,逐步积累领域知识。所有原始文档归档在 NAS 本地存储中,随时可以调阅。

这套方案把「手动收藏、定期遗忘」的低效循环,变成了「自动采集、结构化存储、按需调用」的系统流程。we-mp-rss 是其中负责内容获取的关键节点。

如果嫌文章太长、怕后面走丢,可以关注下面的ima知识号,让这篇文章成为你的知识顾问,随时随地等候你的提问。

知识号中内容会以笔记形式分享,可以根据大家反馈和实测情况,实时更新,保证最新方案的稳定、可用。

【ima 知识库】