别再用 RAG 了,让 AI 帮你养一个会长大的知识库!

点击上方卡片关注我

设置星标学习更多AI出海知识

上周 Karpathy 在 GitHub 上发了一个 gist，叫 llm-wiki，不是代码，不是项目，就是一个 idea file，一份关于怎么用 LLM 构建个人知识库的思路文档。

但这个东西发出来之后在 HN 上引发了不少讨论，因为它提出的思路跟目前主流的 RAG 方案完全不同。

仔细看了一遍，觉得这个想法确实值得分享给大家。

先说 RAG 的问题在哪

大多数人用 LLM 处理文档的方式是 RAG：把文件丢进去，LLM 查询时检索相关片段，拼起来生成回答，NotebookLM、ChatGPT 文件上传、各种知识库产品，底层都是这套。

RAG 能用，但有一个根本性的问题——它没有积累。

每次你问一个问题，LLM 都是从零开始找碎片、拼答案，你上周问过的、上个月研究过的，它全忘了，问一个需要综合五份文档才能回答的复杂问题，它每次都得重新把五份文档翻出来拼凑。

就像一个每天上班都失忆的同事，你给他交代过的事情第二天又要重新说一遍。

让 LLM 养一个 Wiki

Karpathy 的方案反过来了，不是查询时临时检索，而是让 LLM 增量构建并维护一个持久化的 Wiki。

每加入一份新资料，LLM 不是简单地存起来等着以后检索，它会读这份资料，提取关键信息，然后把新知识整合进已有的 Wiki 里，更新实体页面、修订主题摘要、标记新旧数据的矛盾、补充交叉引用。

知识是「编译一次，持续维护」的，不是「每次查询重新发现」的。

Karpathy 自己的用法是：一边开着 LLM Agent（Claude Code 或者 Codex），一边开着 Obsidian。LLM 在那边改 Wiki，他在 Obsidian 里实时看结果——点链接、看关系图、读更新后的页面，用他的原话说：Obsidian 是 IDE，LLM 是程序员，Wiki 是代码库。

三层架构，分工很清楚

Raw Sources（原始资料）。 收集的文章、论文、图片、数据文件。这些是只读的，LLM 只能读不能改，这是信息源头。

Wiki（知识库）。 一个由 LLM 生成和维护的 markdown 文件目录，里面有摘要页、实体页、概念页、对比分析、综述，这一层完全由 LLM 负责，它创建页面、更新页面、维护交叉引用、保持一致性。你只管读，它负责写。

Schema（配置文件）。 一份告诉 LLM 这个 Wiki 怎么组织、有什么规范、各种操作该怎么做的文档，就是 CLAUDE.md 或者 AGENTS.md，和 LLM 一起慢慢迭代这份配置，找到最适合你领域的工作流。

这个分层设计很聪明，原始资料保真不动、Wiki 由 AI 全权维护、配置文件控制行为规范，职责划分清晰，不容易搞乱。

三种核心操作

Ingest（摄入）。 往原始资料里丢一份新文档，让 LLM 去处理，LLM 读完之后讨论要点，然后写摘要页，更新索引，更新所有相关的实体页和概念页，一份资料可能会触发十几个 Wiki 页面的更新。

Query（查询）。 向 Wiki 提问。LLM 搜索相关页面，读完综合回答，带引用，关键在于：好的回答可以反向存回 Wiki，你做过的分析、发现的关联、对比的结论，这些不该消失在聊天记录里，应该沉淀到知识库中。

Lint（审查）。 定期让 LLM 对 Wiki 做健康检查，找矛盾、找过期信息、找孤儿页面、找缺失页面，这个操作让 Wiki 在不断生长的同时保持健康。

能用在什么场景

个人成长：把日记、播客笔记、文章摘要都喂进去，LLM 帮你建一个结构化的自我认知图谱。

深度研究：花几周甚至几个月研究一个课题，每篇论文读完就摄入，Wiki 自动更新综述和交叉引用。到最后你手里有一个完整的知识体系，不是一堆散落的笔记。

读书：每读完一章就摄入，LLM 自动建角色页、主题页、情节线索页。等你读完整本书，手里就有一个类似 Tolkien Gateway 那样的个人 Wiki。

团队知识库：Slack 讨论、会议纪要、项目文档、客户通话都可以喂进去，LLM 帮你维护一个永远最新的内部 Wiki。没有人愿意做的知识库维护工作，交给 LLM。

这个思路好在哪？

RAG 是「被动检索」——你问了才找，Karpathy 的 LLM Wiki 是「主动编译」，你加了资料它就处理，知识在不断积累和关联。

这个差别在使用初期不明显，但随着资料量增大，差距会越来越大。RAG 的回答质量取决于检索质量，检索找不到的信息就像不存在。而 Wiki 里的交叉引用早就建好了，矛盾早就标记了，综合分析早就写好了。

另一个好处是这个方案几乎不需要额外基础设施，不用部署向量数据库，不用搞 embedding pipeline，就是 markdown 文件加一个 LLM Agent 加一个 Obsidian。Wiki 规模小的时候靠 index.md 就够了，大了可以上 qmd，一个本地搜索工具，混合 BM25 和向量搜索，全部跑在本地，有 CLI 也有 MCP server。

但也得说一句：这个方案不是开箱即用的产品，是一个 idea file，需要自己配置 Agent、设计 Schema、跑通工作流，适合有动手能力、愿意花时间调教 LLM 的人。