Book2Skill重新定义RAG,把PDF变成Claude的skill

嗨，我是PaperAGI，主要关注LLM、RAG、Agent等AI前沿技术，每天分享业界最新成果和实战案例。

5 月 6 日，晚点 LatePost 独家消息：月之暗面（Kimi）即将完成新一轮 20 亿美元融资，投后估值突破 200 亿美元（约 1368 亿元人民币）。本轮由美团龙珠领投，中国移动、CPE（中信产业基金）等参投，仅龙珠一家就出手超 2 亿美元。

估值更是坐了火箭：从去年 11 月的约 43 亿美元，一路飙到 100 亿、180 亿，再到如今的 200 亿+，不到半年翻了 4 倍有余。

资本疯狂押注的背后，是 Kimi 在 Agent 和编程能力上的持续突破。4 月 20 日发布的 Kimi K2.6 强化了代码生成和 Agent 集群能力，可支持最多 300 个子 Agent 协作；Kimi Claw 云端智能体支持一键部署。美团龙珠合伙人王新宇透露，Kimi 的年度经常性收入（ARR）在 3 月初突破 1 亿美元，4 月已超 2 亿美元。

一句话：Agent 不再是"能聊天"，而是"能干活"。而"干活"的前提是，Agent 得真正"读懂"你手边的资料。这次RAG上大分，阿里SkillRouter 1.2B模型搞定8万skill路由

Book2Skill到底解决了什么问题？

1. 你买的书，读完了就忘；你的 PDF，搜了也白搜

买一本技术大部头，读完三个月后，第七章讲了什么？完全没印象。

传统补救办法有三个，个个鸡肋：

搜 PDF → 给你一堆页码，不是答案；
问 Claude → 要么幻觉，要么直接说"我没这书的内容"；
记笔记 → 攒了 200 行文档，再也没打开过。

核心痛点：书是"死"的，知识没有嵌入你的工作流。

2. RAG 的困境：它擅长"找句子"，不擅长"用框架"

现在主流的 RAG方案，逻辑是：RAG换思路了，Corpus2Skill:告别检索，直接导航企业知识库

把书切成碎片 → 全部向量化 → 用户提问时找语义相近的片段 → 塞进 prompt 里让 AI 回答。

这套流程适合"我有 50 本书，帮我搜一下哪本提到了 CAP 定理"。

但它有个致命缺陷：它检索的是"句子碎片"，不是"作者的思维框架"。 你问"什么时候该用事件溯源"，RAG 可能丢给你三段提到"event sourcing"的原文，但作者真正想传递的决策模型、反模式清单、适用边界——这些结构化的知识，散落在各章，RAG 拼不出来。

RAG 回答："这里有几段话可能相关。"你真正需要的："作者总结的 12 个框架，以及每个框架该在什么时候用。"

3. Book2Skill 的解法：不是"检索"，是"编译"

Book2Skill换了一个思路：

不在"提问时"切片搜索，而在"导入时"深度分析，把一本书编译成一套 Claude Code 可直接加载的 Skill。

具体流程：

提取：根据书籍类型（技术书/纯文本）自动选择提取工具。技术书用 docling，保留 Markdown 表格和代码块；纯文本用 pdftotext，速度极快。
分析：Claude 通读全书，提取结构——标题、作者、目录、章节关系。
编译：生成一整套 Skill 文件：

SKILL.md：核心思维模型 + 章节索引（约 4,000 tokens）
chapters/ch01-*.md：每章摘要，按需加载（每章约 1,000 tokens）
glossary.md：关键术语表，带章节引用（约 1,500 tokens）
patterns.md：所有技术、算法、设计模式（约 2,000 tokens）
cheatsheet.md：决策表和速查规则（约 1,000 tokens）

使用：在 Claude Code 里直接调用，比如 /designing-data-intensive-apps replication，Claude 会加载对应章节，基于实际内容回答。

关键设计：章节文件是"按需加载"的——没问到的话题不占 token 预算，问到时才从磁盘读入。

Book2Skill vs 传统 RAG

维度	传统 RAG	Book2Skill
工作时机	查询时实时切片、 embedding、检索	导入时一次性"编译"
输出形态	语义相近的文本碎片	作者的思维框架 + 命名模式 + 反模式
知识粒度	句子级	框架级（12 个模型、决策表、速查规则）
token 效率	400 页书 ≈ 20 万 tokens，每次全量注入	仅加载相关章节，核心 SKILL.md 仅 4,000 tokens
幻觉风险	中（依赖训练数据压缩）	低（ grounded 于你提供的实际文本）
适用场景	"50 本书里搜一段"	"1 本书吃透，边工作边查"

一句话总结：

RAG 是"图书馆检索"，Book2Skill 是"作者坐在你旁边陪你干活"。

为什么这个思路值得传播

角度一：范式变化——从"检索知识"到"编译能力"

传统 RAG 把知识当成"文档库"来管理。Book2Skill 把知识当成"技能包"来管理。

作者花几年写一本书，真正值钱的不只是那些句子，而是他命名的框架、总结的决策树、提炼的反模式。Book2Skill 在"编译阶段"就把这些结构抽出来，让 Claude 不是在"搜索文本"，而是在"调用思维模型"。

角度二：对普通人的现实影响——你的内部文档、小众书籍也能变 Skill

Claude 的训练数据里有《Clean Code》《设计数据密集型应用》的"大众印象"，但：

你公司的内部技术规范
刚出版的小众技术书
翻译版或影印版 PDF
你自己整理的 EPUB 资料

这些 Claude "没读过"。Book2Skill 让它们全部变成可调用 Skill。

角度三：产品化潜力——Claude Code 的 Skill 生态正在成型

Claude Code 的 Skill 机制允许用户自定义指令集和知识库。Book2Skill 本质上是在批量生产 Skill——把静态文档变成动态能力。随着 Claude Code 用户增长，"PDF → Skill" 的转换需求会越来越大。

技术细节：它是怎么工作的？

提取层：智能选择工具

书籍类型	推荐工具	安装命令	特点
技术书（含代码、表格、公式）	`docling`	`pip3 install docling`	~1.5s/页，保留 Markdown 表格和代码块
纯文本书	`pdftotext`	`sudo apt install poppler-utils`	瞬间完成
纯文本备选	`PyPDF2` / `pdfminer.six`	`pip3 install ...`	纯 Python，无需系统依赖
EPUB	`ebooklib` + `beautifulsoup4`	`pip3 install ...`	最佳质量

设计原则

密度优于完整：1,000 tokens 的摘要胜过 10,000 tokens 的原文摘录
实践者口吻：写"当 Y 发生时用 X"，而不是"本书解释了 X"
前置核心：SKILL.md 把最重要的内容放在前 5,000 tokens
按需加载：话题索引告诉 Claude 该读哪个文件，无关章节不加载
永不丢原始文本：总是先综合、摘要、提取信号，而不是直接 dump

性能基准（103 页技术书，纯 CPU）

方法	耗时	Tokens	表格	代码块
pdftotext	0.1s	27K	0	0
docling	164s	27K (+1.2%)	48	36

技术书用 docling 虽然慢，但能完整保留 48 个表格和 36 个代码块——这对技术书来说是不可替代的。

一句话总判断

这篇项目最值得写，不是因为"它能把 PDF 转成文本"，而是因为它说明了：RAG 的下一步不是"搜得更准"，而是"把知识编译成 Agent 能直接调用的能力"。

Book2Skill 没有发明新模型，也没有刷新 SOTA，但它用极低的工程成本（一个 Python 脚本 + Claude API）解决了一个真实的 workflow 痛点：让静态文档变成动态技能。

在 Kimi 估值破 200 亿美元、全行业押注 Agent 的当下，"知识如何被 Agent 使用"比"知识如何被存储"更重要。Book2Skill 提供了一个务实且可复现的答案。

https://github.com/virgiliojr94/book-to-skill

每天一篇大模型Paper来锻炼我们的思维~已经读到这了，别忘了点赞、关注噢