乐于分享
好东西不私藏

用 AI 2小时搞定公众号文章下载+上传知识库

用 AI 2小时搞定公众号文章下载+上传知识库
今天周六娃体检回来花了2小时用 AI 协助一键下载公众号文章并且整理到知识库。起因是有小红薯月大群的粉丝说有没有月大文章的合集,那么下载合集这些东西有啥用呢,主要是考虑到两个原因,一是如果关注的公众号被封了或者文章被删除了后面就访问不了了、二呢就是这些东西可以落到知识库,自己本地的知识库再搭配上AI,能干的事情就有了,简直无敌了,相当于可以基于这个东西让被关注人的思路回答你的问题。所以我也想这个能否通过 AI 实现,于是先搜索了一波,找了一些资料。发现了 github 开源社区也有人分享了一些工具。链接贴在下面
https://github.com/xiaoguyu/wechatDownload
https://github.com/wechat-article/wechat-article-exporter 
https://gitee.com/pplus_open_source/wechatArticleDownload
发现还是有不少好东西的,后来看到有文章说其中有一个还有界面操作,那就无脑先用了,好处是界面上可以一键导出公众号的文章,用完之后其实还是发现也不少坑的,为此我还专门加了开源作者的沟通群咨询一些问题,当然最大的问题就是这么搞公众号会不会封,个人感觉操作过多微信官方肯定是能检测到的,毕竟这玩意是爬虫操作,还是有一定封号的风险只是时间问题,问了作者也没正面回答。
https://down.mptext.top/dashboard/account
https://docs.mptext.top/get-started/usage
具体操作简单的,具体可以看上面链接的操作手册那里写的很详细,一共就四步,登录自己的公众号--> 添加要导出的公众号--> 同步公众号记录--> 全选抓取内容和导出。这里导出推荐 markdown 和 word 格式,后续作者说也会开放 pdf 格式。word 格式图片展示有点问题显示不全、文字还好。我用的是 markdown 格式,一是导出的数据容量很小,二是这样上传到知识库也不用占用多大存储,限制就是只能上传到腾讯的ima知识库否则 markdown 的文中各种链接是访问不了的。
我两种都搞了, word版本由于还在内测还是有bug的,这里主要采用的是 markdown 导出,但是它这个导出来的文件第一行和最后三行有点问题,原因是最后的固定位展示识别不了产生一堆乱码,所以得用 AI 工具给它批量清理一把。导出的原始文件可以看到非常小,几KB,所以 1000 多个文件也就 2MB,毫无知识库存储上传限制。
接下来主要是使用 字节的 Trae 完成脚本的清洗,这个说简单也简单的,不过得首先会用提示词,贴网址还是字节提示词:
https://promptpilot.volcengine.com/
把你的诉求用中文说下,然后让提示词优化一下,当然写提升词的套路还是有的一般是角色、优先级、规则、执行步骤、参考资料等具体就不再这说明了,再丢给 Trae 去写代码,在执行的过程中会让你同意运行和安装一些东西,运行即可,最后编码完成让 Trae 执行一下代码,很快 5 秒不到就执行完毕,检查一下没问题的话就准备上传到知识库了。
这里使用的腾讯自带的ima知识库,也属于微信体系,容量也蛮大有 30G,我这有链接,想要下载自取,安装好后,这里有个人知识库和共享知识库,从本地直接上传文件夹即可,很快 30 秒就传完了。同时 markdown 文中还有原始的公众号文章链接直接点进去就可以打开,这个打通还可以。之后就可以依据知识库玩耍了。当然后续还有优化的地方,我也研究过开源网站的API接口,这样就可以后续每天定期拉取最新的文章同步过来了。
https://ima.qq.com/mp-user-space-share?channel=10000105

今天主要花费在第一个网站下载的过程中,还是有不同的体验,公众号做知识库看也是算一种知识整理吧,慢慢学习!