用 LLM 把你的文档变成活着的知识库:nashsu/llm

用 LLM 把你的文档变成活着的知识库:nashsu/llm_wiki 上手与拆解

Wiki · 知识库 · LLM · 增量构建 · RAG 优化 —— nashsu/llm_wiki 将传统 RAG 的"每次查询临时检索"升级为"LLM 增量维护持久化 Wiki"，让知识积累从一次性的问答管道变成可生长的结构化网络。

你的知识库为什么越用越死

你往 Notion 里塞了上百篇笔记、论文 PDF 和会议纪要，但每次想找某个概念时，要么打开全文搜索碰运气，要么靠印象翻文件夹。传统的 RAG 给你一个对话窗口，但它每次收到问题才去向量库里搜相关片段然后从头回答——搜到什么算什么，搜不到就"我不知道"。

更麻烦的是，你今天问"Adam 优化器"得到的答案，明天再问可能完全不同，因为 RAG 不"记住"上一轮。你的知识没有积累，每次都是临时工。

Karpathy 提出的 LLM Wiki 模式给出了另一个思路：不要每次都在原文里打捞碎片，而是让 LLM 先通读你的文档，编译出一个有目录、有链接、有层次的 Wiki。这个 Wiki 是你的知识骨架，每页都标注来源，页与页之间用 [[wikilink]] 双向引用。每次提问时 LLM 只读 Wiki（而非全部原始文档），答案更准、更一致。

nashsu/llm_wiki 是该模式第一个完整桌面实现。基于 Tauri v2 + React 19，支持 macOS、Windows 和 Linux。项目 2026 年 4 月 8 日发布，20 天内积累 3600+ star，社区反应印证了需求真实存在。

十分钟上手：从导入文档到知识查询

导入文件，自动构建 Wiki。从 Release 下载安装包后启动应用，选择"Researcher" 模板创建项目，应用自动生成 purpose.md（研究目标）和 schema.md（结构规则）。点击 Sources 面板，拖入 PDF、DOCX、Markdown 甚至 XLSX 文件，或者导入整个文件夹。Activity 面板实时显示进度： LLM 逐个分析文件并写入 wiki/ 页面。一个 50 页 PDF 约需 2-4 分钟（取决于你用的 LLM 模型）。

所有原始文件保留在 raw/sources/ 中不可修改， Wiki 页面在 wiki/ 下——这意味着你能以 Obsidian Vault 直接打开该目录，在两个工具间自由切换。

用 Chat 获得带引用的答案。在 Chat 面板输入"这篇论文里几种方法的优劣势是什么？"LLM 进入检索流水线：分词搜索 -> 图谱扩展 -> 上下文预算控制 -> 组装 prompt。答案附带 Wiki 页面编号 [1]，References 面板可展开看到具体引用。启用向量搜索后，召回率从纯分词匹配的 58% 提升到 71%（只需要配置任意 OpenAI 兼容的 embedding 端点）。

用知识图谱发现隐藏联系。点击左侧 Graph 图标，一个 sigma.js 渲染的力导向图展示页面间关系。节点颜色按类型或社区分，边粗细反映关联度。Louvain 社区检测自动把相关页面聚成簇——比如所有关于"Transformer 变体"的页面自然集中。 Graph Insights 还会列出"惊奇连接"（跨社区链接）和"孤立页面"，这些靠人工几乎不可能发现。

四信号图谱与两步摄入：核心创新

两步链式摄入（Two-Step CoT Ingest）。传统方案是 LLM 读原文直接写 Wiki。该项目拆成两次 LLM 调用，极大改善输出质量。

• 第一步（分析）：LLM 输出结构化分析，包含关键实体、概念、论据、与已有 Wiki 的关联与矛盾点

• 第二步（生成）：LLM 拿着分析结果生成具体 Wiki 页面，含 frontmatter、来源标注、交叉链接

配合 SHA256 增量缓存——源文件未变更则不重复调用 LLM，大幅节省 tokens。处理队列持久化到磁盘，崩溃后重启可继续，失败任务最多重试 3 次。

四信号知识图谱相关度模型。检索不依赖纯向量相似度，而是构建 Graph Expansion 管道。Token 分词搜索命中 Top 页面作为种子，然后以种子为中心做两跳遍历，每对页面计算四维加权相关度：

信号	权重	含义
直接链接	×3.0	页面间有 `[[wikilink]]`
来源重叠	×4.0	对应同一原始文档（权重最高）
Adamic-Adar	×1.5	共享共同邻居数，按度数加权
类型亲和	×1.0	同类页面额外加分

四信号比纯 embedding 更可解释：权重确定且可调。向量搜索作为独立的 Phase 1.5 层可选启用，通过 RRF （K=60）融合两套排名，公平融合。采用经典的三层架构：Raw Sources -> Wiki -> Schema。新增的 purpose.md 定义了"这个 Wiki 为什么存在"，LLM 每次摄入和查询都读它，让输出更有方向。

你可以怎么用它

论文阅读与研究管理。研究生或科研人员每周读 5-10 篇论文，建立 Research 项目后拖入 PDF。LLM Wiki 自动生成摘要页面，提取关键概念、方法、结论并相互引用。两个月后写综述时，问"强化学习用于 LLM 推理的方法对比"，LLM 从已构建的 Wiki 中组织答案，每句话都带论文出处。

团队知识沉淀。在共享文件夹中建立 Wiki 项目，导入技术方案、复盘文档和 API 规范。新成员入职后导入同一资料库，通过 Chat 或知识图谱就能快速了解系统模块关系和设计决策。 purpose.md 让 LLM 理解团队最关心的维度，输出的 Wiki 页面自然围绕目标组织。

从更宽阔的视角看，该项目探索了一个有趣的方向：让 LLM 从"问答工具"转变为"知识管理工具"。当知识被增量编译而非临时拼凑，长期维护的信息系统将产生质的飞跃。目前项目 3600+ star、20 天获得， Graph Insights 和 Deep Research 还在快速演进，感兴趣的读者可以在 GitHub 上跟踪后续发布。