嗨,我是PaperAGI,主要关注LLM、RAG、Agent等AI前沿技术,每天分享业界最新成果和实战案例。
5 月 6 日,晚点 LatePost 独家消息:月之暗面(Kimi)即将完成新一轮 20 亿美元融资,投后估值突破 200 亿美元(约 1368 亿元人民币)。本轮由美团龙珠领投,中国移动、CPE(中信产业基金)等参投,仅龙珠一家就出手超 2 亿美元。
估值更是坐了火箭:从去年 11 月的约 43 亿美元,一路飙到 100 亿、180 亿,再到如今的 200 亿+,不到半年翻了 4 倍有余。
资本疯狂押注的背后,是 Kimi 在 Agent 和编程能力上的持续突破。4 月 20 日发布的 Kimi K2.6 强化了代码生成和 Agent 集群能力,可支持最多 300 个子 Agent 协作;Kimi Claw 云端智能体支持一键部署。美团龙珠合伙人王新宇透露,Kimi 的年度经常性收入(ARR)在 3 月初突破 1 亿美元,4 月已超 2 亿美元。
一句话:Agent 不再是"能聊天",而是"能干活"。而"干活"的前提是,Agent 得真正"读懂"你手边的资料。这次RAG上大分,阿里SkillRouter 1.2B模型搞定8万skill路由
Book2Skill到底解决了什么问题?
1. 你买的书,读完了就忘;你的 PDF,搜了也白搜
买一本技术大部头,读完三个月后,第七章讲了什么?完全没印象。
传统补救办法有三个,个个鸡肋:
搜 PDF → 给你一堆页码,不是答案; 问 Claude → 要么幻觉,要么直接说"我没这书的内容"; 记笔记 → 攒了 200 行文档,再也没打开过。
核心痛点:书是"死"的,知识没有嵌入你的工作流。
2. RAG 的困境:它擅长"找句子",不擅长"用框架"
现在主流的 RAG方案,逻辑是:RAG换思路了,Corpus2Skill:告别检索,直接导航企业知识库
把书切成碎片 → 全部向量化 → 用户提问时找语义相近的片段 → 塞进 prompt 里让 AI 回答。
这套流程适合"我有 50 本书,帮我搜一下哪本提到了 CAP 定理"。
但它有个致命缺陷:它检索的是"句子碎片",不是"作者的思维框架"。 你问"什么时候该用事件溯源",RAG 可能丢给你三段提到"event sourcing"的原文,但作者真正想传递的决策模型、反模式清单、适用边界——这些结构化的知识,散落在各章,RAG 拼不出来。
RAG 回答:"这里有几段话可能相关。"你真正需要的:"作者总结的 12 个框架,以及每个框架该在什么时候用。"
3. Book2Skill 的解法:不是"检索",是"编译"
Book2Skill换了一个思路:
不在"提问时"切片搜索,而在"导入时"深度分析,把一本书编译成一套 Claude Code 可直接加载的 Skill。
具体流程:
提取:根据书籍类型(技术书/纯文本)自动选择提取工具。技术书用 docling,保留 Markdown 表格和代码块;纯文本用pdftotext,速度极快。分析:Claude 通读全书,提取结构——标题、作者、目录、章节关系。 编译:生成一整套 Skill 文件: SKILL.md:核心思维模型 + 章节索引(约 4,000 tokens)chapters/ch01-*.md:每章摘要,按需加载(每章约 1,000 tokens)glossary.md:关键术语表,带章节引用(约 1,500 tokens)patterns.md:所有技术、算法、设计模式(约 2,000 tokens)cheatsheet.md:决策表和速查规则(约 1,000 tokens)使用:在 Claude Code 里直接调用,比如 /designing-data-intensive-apps replication,Claude 会加载对应章节,基于实际内容回答。
关键设计:章节文件是"按需加载"的——没问到的话题不占 token 预算,问到时才从磁盘读入。
Book2Skill vs 传统 RAG
| 工作时机 | ||
| 输出形态 | ||
| 知识粒度 | ||
| token 效率 | ||
| 幻觉风险 | ||
| 适用场景 |
一句话总结:
RAG 是"图书馆检索",Book2Skill 是"作者坐在你旁边陪你干活"。
为什么这个思路值得传播
角度一:范式变化——从"检索知识"到"编译能力"
传统 RAG 把知识当成"文档库"来管理。Book2Skill 把知识当成"技能包"来管理。
作者花几年写一本书,真正值钱的不只是那些句子,而是他命名的框架、总结的决策树、提炼的反模式。Book2Skill 在"编译阶段"就把这些结构抽出来,让 Claude 不是在"搜索文本",而是在"调用思维模型"。
角度二:对普通人的现实影响——你的内部文档、小众书籍也能变 Skill
Claude 的训练数据里有《Clean Code》《设计数据密集型应用》的"大众印象",但:
你公司的内部技术规范 刚出版的小众技术书 翻译版或影印版 PDF 你自己整理的 EPUB 资料
这些 Claude "没读过"。Book2Skill 让它们全部变成可调用 Skill。
角度三:产品化潜力——Claude Code 的 Skill 生态正在成型
Claude Code 的 Skill 机制允许用户自定义指令集和知识库。Book2Skill 本质上是在批量生产 Skill——把静态文档变成动态能力。随着 Claude Code 用户增长,"PDF → Skill" 的转换需求会越来越大。
技术细节:它是怎么工作的?
提取层:智能选择工具
docling | pip3 install docling | ||
pdftotext | sudo apt install poppler-utils | ||
PyPDF2pdfminer.six | pip3 install ... | ||
ebooklibbeautifulsoup4 | pip3 install ... |
设计原则
密度优于完整:1,000 tokens 的摘要胜过 10,000 tokens 的原文摘录 实践者口吻:写"当 Y 发生时用 X",而不是"本书解释了 X" 前置核心:SKILL.md 把最重要的内容放在前 5,000 tokens 按需加载:话题索引告诉 Claude 该读哪个文件,无关章节不加载 永不丢原始文本:总是先综合、摘要、提取信号,而不是直接 dump
性能基准(103 页技术书,纯 CPU)
| 48 | 36 |
技术书用 docling 虽然慢,但能完整保留 48 个表格和 36 个代码块——这对技术书来说是不可替代的。
一句话总判断
这篇项目最值得写,不是因为"它能把 PDF 转成文本",而是因为它说明了:RAG 的下一步不是"搜得更准",而是"把知识编译成 Agent 能直接调用的能力"。
Book2Skill 没有发明新模型,也没有刷新 SOTA,但它用极低的工程成本(一个 Python 脚本 + Claude API)解决了一个真实的 workflow 痛点:让静态文档变成动态技能。
在 Kimi 估值破 200 亿美元、全行业押注 Agent 的当下,"知识如何被 Agent 使用"比"知识如何被存储"更重要。Book2Skill 提供了一个务实且可复现的答案。
https://github.com/virgiliojr94/book-to-skill
夜雨聆风