Wiki · 知识库 · LLM · 增量构建 · RAG 优化 —— nashsu/llm_wiki 将传统 RAG 的"每次查询临时检索"升 级为"LLM 增量维护持久化 Wiki",让知识积累从一次性 的问答管道变成可生长的结构化网络。
你的知识库为什么越用越死
你往 Notion 里塞了上百篇笔记、论文 PDF 和会议纪要, 但每次想找某个概念时,要么打开全文搜索碰运气,要么 靠印象翻文件夹。传统的 RAG 给你一个对话窗口,但它每 次收到问题才去向量库里搜相关片段然后从头回答——搜到 什么算什么,搜不到就"我不知道"。
更麻烦的是,你今天问"Adam 优化器"得到的答案,明 天再问可能完全不同,因为 RAG 不"记住"上一轮。 你的知识没有积累,每次都是临时工。
Karpathy 提出的 LLM Wiki 模式给出了另一个思路: 不要每次都在原文里打捞碎片,而是让 LLM 先通读你的 文档,编译出一个有目录、有链接、有层次的 Wiki。 这个 Wiki 是你的知识骨架,每页都标注来源,页与页 之间用 [[wikilink]] 双向引用。每次提问时 LLM 只读 Wiki(而非全部原始文档),答案更准、更一致。
nashsu/llm_wiki 是该模式第一个完整桌面实现。 基于 Tauri v2 + React 19,支持 macOS、Windows 和 Linux。项目 2026 年 4 月 8 日发布,20 天内积累 3600+ star,社区反应印证了需求真实存在。
十分钟上手:从导入文档到知识查询
导入文件,自动构建 Wiki。 从 Release 下载安装包后启动应用,选择"Researcher" 模板创建项目,应用自动生成 purpose.md(研究目标) 和 schema.md(结构规则)。点击 Sources 面板, 拖入 PDF、DOCX、Markdown 甚至 XLSX 文件,或者 导入整个文件夹。Activity 面板实时显示进度: LLM 逐个分析文件并写入 wiki/ 页面。一个 50 页 PDF 约需 2-4 分钟(取决于你用的 LLM 模型)。
所有原始文件保留在 raw/sources/ 中不可修改, Wiki 页面在 wiki/ 下——这意味着你能以 Obsidian Vault 直接打开该目录,在两个工具间自由切换。
用 Chat 获得带引用的答案。 在 Chat 面板输入"这篇论文里几种方法的优劣势是什 么?"LLM 进入检索流水线:分词搜索 -> 图谱扩展 -> 上下文预算控制 -> 组装 prompt。答案附带 Wiki 页面 编号 [1],References 面板可展开看到具体引用。 启用向量搜索后,召回率从纯分词匹配的 58% 提升到 71%(只需要配置任意 OpenAI 兼容的 embedding 端点)。
用知识图谱发现隐藏联系。 点击左侧 Graph 图标,一个 sigma.js 渲染的力导向图 展示页面间关系。节点颜色按类型或社区分,边粗细反映 关联度。Louvain 社区检测自动把相关页面聚成簇——比 如所有关于"Transformer 变体"的页面自然集中。 Graph Insights 还会列出"惊奇连接"(跨社区链接) 和"孤立页面",这些靠人工几乎不可能发现。
四信号图谱与两步摄入:核心创新
两步链式摄入(Two-Step CoT Ingest)。 传统方案是 LLM 读原文直接写 Wiki。该项目拆成两次 LLM 调用,极大改善输出质量。
• 第一步(分析):LLM 输出结构化分析,包含关键 实体、概念、论据、与已有 Wiki 的关联与矛盾点
• 第二步(生成):LLM 拿着分析结果生成具体 Wiki 页面,含 frontmatter、来源标注、交叉链接
配合 SHA256 增量缓存——源文件未变更则不重复调用 LLM,大幅节省 tokens。处理队列持久化到磁盘,崩溃后 重启可继续,失败任务最多重试 3 次。
四信号知识图谱相关度模型。 检索不依赖纯向量相似度,而是构建 Graph Expansion 管道。Token 分词搜索命中 Top 页面作为种子,然后以 种子为中心做两跳遍历,每对页面计算四维加权相关度:
[[wikilink]] | ||
四信号比纯 embedding 更可解释:权重确定且可调。 向量搜索作为独立的 Phase 1.5 层可选启用,通过 RRF (K=60)融合两套排名,公平融合。采用经典的三层 架构:Raw Sources -> Wiki -> Schema。新增的 purpose.md 定义了"这个 Wiki 为什么存在",LLM 每次摄入和查询都读它,让输出更有方向。
你可以怎么用它
论文阅读与研究管理。 研究生或科研人员每周读 5-10 篇论文,建立 Research 项目后拖入 PDF。LLM Wiki 自动生成摘要页面,提取 关键概念、方法、结论并相互引用。两个月后写综述时, 问"强化学习用于 LLM 推理的方法对比",LLM 从已 构建的 Wiki 中组织答案,每句话都带论文出处。
团队知识沉淀。 在共享文件夹中建立 Wiki 项目,导入技术方案、复盘 文档和 API 规范。新成员入职后导入同一资料库,通过 Chat 或知识图谱就能快速了解系统模块关系和设计决策。 purpose.md 让 LLM 理解团队最关心的维度,输出的 Wiki 页面自然围绕目标组织。
从更宽阔的视角看,该项目探索了一个有趣的方向: 让 LLM 从"问答工具"转变为"知识管理工具"。 当知识被增量编译而非临时拼凑,长期维护的信息系统 将产生质的飞跃。目前项目 3600+ star、20 天获得, Graph Insights 和 Deep Research 还在快速演进, 感兴趣的读者可以在 GitHub 上跟踪后续发布。
夜雨聆风