任意网页文档转播客PPT + 把书变成AI可执行技能|实用开源项目
1、用自然语言把任何内容变成任何格式
qiaomu-anything-to-notebooklm 一个专为 Claude 打造的多源内容智能处理技能(Skill)。它能自动把公开网页、YouTube 视频、 PDF 文档等抓取并喂给 Google NotebookLM,最终按需转化为播客、PPT 或思维导图,打通从碎片化阅读到结构化知识输出的壁垒。
通吃 15 种以上的格式输入。不管是YouTube 视频(自动提取字幕),还是本地的 Excel 表格与扫描版 PDF(支持自动 OCR),直接把链接或文件丢过去就能混合处理。
还有付费墙绕过机制。系统内置了 6 层级联的“破壁”策略,通过伪装搜索引擎爬虫 UA、清理计量 Cookie 或直接调用网页存档库(如 archive.today),能强行抓取包括《华尔街日报》、《经济学人》在内的全球 300 多家主流媒体的付费文章全文。
纯自然语言驱动的闭环工作流。直接对着 Claude 下达口语指令,它就会在后台全自动跑完“抓取解析 → 上传 NotebookLM → 生成目标物”的整套流程。你可以要求它生成一段适合通勤听的双人对话英文播客,或者用于期末复习的自测题闪卡。
项目主要由 Python 和 Shell 编写(1.1k Stars),底层调用了 Playwright 自动化浏览器与 Microsoft markitdown 文件转换器,基于 MIT 协议开源。环境门槛极低,只需本机预装 Python 3.9+ 及 Git 即可通过脚本一键跑通所有依赖。
避坑提醒:对内容长度有客观限制(支持 500 到 50 万字,官方建议 1000 至 10000 字区间效果最稳);此外,它内置的付费墙破解与爬虫功能游走在规则边缘,作者明确声明相关能力仅限个人私下学习研究使用,严禁用于任何商业牟利场景。
项目地址:https://github.com/joeseesun/qiaomu-anything-to-notebooklm
2、把一本书蒸馏成一组可执行的 AI 智能体技能
cangjie-skill(仓颉) 一款专注于知识蒸馏的开源 AI Agent 技能提取项目,由独立开发者“袋鼠帝”(kangarooking)开发。
核心目标是将每一本高价值的书从静态文字转化为可独立调用、可组合、可压力测试的 AI Agent 技能包,让知识用起来,而不是仅仅停留在读书笔记层面。
独创 RIA-TV++ 六步提取流水线。系统不会一上来就盲目摘抄金句,而是先吃透整本书的骨架,然后同时派出 5 个专项提取器(分别专攻找框架、找原则、找案例、找反例、建术语词典)对全文进行无死角的并行扫描。
“三重验证”淘汰机制。所有提取出来的候选知识点,至少有 2 处独立佐证(跨域)、能回答书中未明说的新问题(预测力)、不是常识(独特性)。
只有通过了这关,知识点才会被正式封装成带有“未来触发场景”和“操作步骤”的独立卡片,淘汰率通常高达 50% 到 75%。
项目地址:https://github.com/kangarooking/cangjie-skill
夜雨聆风