创建个人AI知识库|第 1 篇:你的知识正在腐烂——为什么传统笔记系统已经不够用了

这样的场景，你是否似曾相识？

明天要交一份竞品分析报告，记得自己收藏过一篇非常棒的深度分析——讲的就是竞争对手的产品策略。打开微信收藏夹，输入关键词搜索，出来的却是 47 条结果，翻了三页都没找到那篇。

又打开 Notion，搜索"竞品"，跳出来 23 个页面。点开第一个，是三个月前的草稿；第二个，是上周的会议记录；第三个，好像有点关系，但内容已经过时了。

"我记得明明保存过啊……"

最后打开浏览器收藏夹，又打开印象笔记，又打开语雀。最后，在邮箱的"已发送"里找到了那篇文章的链接——原来他当时转发给了自己。

点进去，页面 404。

知识管理的三大困境

我们这一代人，是信息最丰富的一代，也是知识最焦虑的一代。

每天，我们被海量的信息包围：公众号文章、知乎回答、B 站视频、播客、论文、报告、邮件、聊天记录……我们本能地觉得"这个有用"，然后点击收藏、保存、转发。

但收藏之后呢？

困境一：收藏即遗忘

根据一项针对知识工作者的调查，超过 80% 的人收藏的在线内容，从未被第二次打开。

我们像是在囤积知识的松鼠，把坚果一颗一颗埋进土里，却再也想不起来埋在了哪里。

更可怕的是，我们收藏的内容本身也在消失。网页会失效，链接会 404，视频会被下架，公众号文章会被删除。

你辛苦收藏的知识，正在以肉眼可见的速度"腐烂"。

困境二：检索即重读

假设你幸运地找到了那篇收藏的文章。

你打开它，发现需要重新阅读才能理解—因为三个月前读的时候做的笔记，已经找不到了。或者，你根本没有做笔记，只是点了"收藏"。

于是，你不得不重新阅读一遍，重新理解一遍，重新整理一遍。

每一次检索，都是一次重读。每一次重读，都是一次重新学习。

你的大脑在重复劳动，而你的时间正在被浪费。

困境三：笔记即碎片

也许你会说："我做笔记啊，我用 Notion/Obsidian/印象笔记，整理得井井有条。"

但让我们诚实一点：你的笔记，真的是"井井有条"吗？

大多数人的笔记系统，是这样的：

- 按时间顺序排列的日记式笔记

- 按来源分类的文件夹（微信收藏、网页剪藏、读书笔记）

- 按项目划分的项目文档

- 零散的想法和灵感

这些笔记之间，有联系吗？

当你在读一篇关于"注意力机制"的论文时，你能立刻想起三个月前读的另一篇相关论文的观点吗？当你在写一个产品方案时，你能快速调取过去所有相关的竞品分析吗？

每一个笔记都是一座孤岛，孤岛之间没有桥梁。你拥有的不是知识网络，而是知识碎片。

RAG：一个看似美好的解决方案

2023 年，大语言模型（LLM）爆火，RAG（Retrieval-Augmented Generation，检索增强生成）技术应运而生。

RAG 的思路很简单：

1. 把你的文档切成碎片，存入向量数据库

2. 当你提问时，用 AI 搜索最相关的碎片

3. 把这些碎片喂给大模型，让它综合生成答案

听起来很美好，对吧？

"我终于不用自己整理笔记了，AI 会帮我检索和总结！"

但现实是：

RAG 的问题一：每次从零开始

每次你提问，RAG 系统都会重新搜索、重新检索、重新生成。

它不会记住你上周问过什么，不会积累你过去三个月的阅读理解，不会发现你收藏的两篇文章之间的矛盾。

它像一个金鱼，只有 7 秒记忆。

RAG 的问题二：检索质量不稳定

RAG 的核心是"检索最相关的碎片"。但"相关"是一个主观的概念。

- 有时候，它会漏掉真正重要的内容

- 有时候，它会混入无关的噪音

- 有时候，它无法理解你的真实意图

你问："Transformer 和 RNN 有什么区别？"

它可能给你一段关于 Transformer 的详细解释，和一段关于 RNN 的详细解释，但完全没有对比分析——因为原始文档里就没有对比。

RAG 的问题三：知识无法演化

RAG 系统不会学习。

你读了一篇新文章，它不会自动更新知识库。你发现两个文档之间的矛盾，它不会帮你标记。你总结了一个精彩的洞察，它不会保存下来供以后使用。

RAG 是一个"用完即弃"的系统，而不是一个"持续演化"的系统。

一个 Gist 引发的革命

2026 年 4 月，一个名为 Andrej Karpathy 的人在 GitHub 上发布了一个 Gist。

如果你不熟悉这个名字，他是：

- 前特斯拉 AI 总监，领导 Autopilot 团队

- OpenAI 创始成员之一

- 斯坦福大学 CS231n（深度学习计算机视觉）课程的创建者

- 在 YouTube 上拥有百万粉丝的 AI 教育者

这个 Gist 的标题很简单："LLM-Wiki"。

它没有华丽的排版，没有复杂的代码，只有几千字的 Markdown 文档。但就是这个文档，在短短几周内获得了 5000+ Stars，被 Fork 了 5000 多次，在社交媒体上引发了 1250 万人次的围观讨论。

Karpathy 本人都感叹："哇，我这条推文真的火爆了。"

核心洞察：停止重新推导，开始编译

Karpathy 在 Gist 中提出了一个简单但深刻的观点：

传统 RAG 是"解释器模式"——每次查询都重新执行，重新推导。 LLM-Wiki 是"编译器模式"——知识被编译一次，持续更新，重复使用。

他用了一个精妙的类比：

想象你在学习一门编程语言。

- 解释器模式：每次运行代码，都逐行解释执行。慢，但可以立即看到结果。

- 编译器模式：先把代码编译成机器码，然后直接运行编译后的结果。快，且可以优化。

RAG 就像解释器，每次提问都重新"解释"你的文档。而 LLM-Wiki 就像编译器，先把你的知识"编译"成结构化的 Wiki，然后直接查询编译后的结果。

三层架构：Raw → Wiki → Schema

Karpathy设计的LLM-Wiki系统，由三层组成：

第一层：Raw（原始资料）

这是你收藏的所有内容：PDF 论文、网页文章、会议记录、图片、视频字幕……

这一层是"只读"的。AI 不会修改你的原始文件，它们是唯一的"真相来源"。

第二层：Wiki（知识库）

这是 AI 帮你生成的结构化笔记。

当你"喂"给 AI 一篇新文章，它会：

- 提取关键概念和实体

- 创建摘要页面

- 建立页面之间的链接

- 更新索引和目录

这些 Wiki 页面是互相链接的，形成一个知识网络。你可以像浏览维基百科一样浏览你的个人知识库。

第三层：Schema（规则手册）

这是一个配置文件，告诉 AI：

- Wiki 应该如何组织

- 页面应该遵循什么格式

- 如何处理新资料

- 如何回答查询

Schema 是系统中最关键的文件。它把通用的 LLM 变成一个有纪律的知识库管理员。

三大核心操作

Ingest（摄入）

把新资料放入 Raw 目录，让 AI 处理：

- 阅读并理解内容

- 在 Wiki 中创建或更新页面

- 建立交叉引用

- 记录操作日志

Query（查询）

基于 Wiki 提问，让 AI 综合回答：

- 搜索相关页面

- 理解知识间的逻辑关系

- 生成连贯的答案

- 标注信息来源

Lint（健康检查）

定期让 AI 检查知识库的健康状况：

- 发现页面之间的矛盾

- 标记过时的信息

- 修复断裂的链接

- 识别知识空白

为什么 LLM-Wiki 不一样？

让我们回到开头的那个场景。

如果使用的是 LLM-Wiki 系统，会发生什么？

场景一：当他收藏那篇竞品分析时

当你把文章放入 raw/ 目录，对 AI 说："请摄入这篇文章。"

AI 会：

- 阅读文章，提取关键信息

- 在 wiki/ 中创建"竞品分析-XX公司"页面

- 提取文中提到的产品、策略、数据，创建实体页面

- 建立页面之间的链接（如"XX产品 → 使用 → YY技术"）

- 更新 index.md，让这篇分析可以被检索到

- 在 log.md 中记录："[2026-05-18] ingest | 竞品分析-XX公司"

场景二：当你需要写报告时

问 AI："帮我总结一下我们主要竞争对手的产品策略。"

AI 会：

- 搜索 Wiki 中所有"竞品分析"相关的页面

- 理解不同竞争对手的策略差异

- 综合生成一份对比分析报告

- 标注每个观点的来源（"根据 2026-03-15 的竞品分析……"）

- 输出格式可以是：Markdown 文档、对比表格、甚至幻灯片

场景三：当新的竞品动态出现时

当收藏了一篇新的竞品分析，让 AI 摄入。

AI 会：

- 发现新信息与旧信息的关联

- 自动更新相关的 Wiki 页面

- 如果发现矛盾（如"竞争对手的策略变了"），会标记出来

- 在对比分析中体现最新动态

这才是知识管理应该有的样子。

不是收藏了就遗忘，不是每次检索都重读，不是笔记之间孤立无援。

而是：知识被理解、被链接、被演化、被复用。

从 Memex 到 LLM-Wiki

Karpathy 在 Gist 中提到，LLM-Wiki 的理念与 1945 年 Vannevar Bush 提出的 "Memex" 概念一脉相承。

Memex 是 "Memory Extender"（记忆扩展器）的缩写，是 Bush 设想的一种未来设备：

"它是一台机器，一个人可以在其中存储他所有的书籍、记录和通信，并且可以以极高的速度和灵活性进行查阅。它是他记忆的放大和补充。"

80 年过去了，我们有了互联网、有了搜索引擎、有了云笔记、有了 AI。

但我们真的实现了 Memex 的愿景吗？

搜索引擎让我们可以找到信息，但不能理解信息。云笔记让我们可以存储信息，但不能链接信息。AI 让我们可以生成内容，但不能积累知识。

LLM-Wiki 可能是我们离 Memex 最近的一次。

它不是完美的，它还在演化，但它指向了一个正确的方向：

让 AI 成为知识的管理者，而不是搜索的工具。让知识库成为活的系统，而不是死的仓库。

本系列预告：你将学会什么？

在接下来的 14 篇文章中，我将手把手带你搭建属于自己的 AI 进化知识库。

第 2-3 篇：认知篇

- 深入理解 LLM-Wiki 的工作原理

- 了解不同人群（学生、白领、创作者）的定制方案

第 4-7 篇：搭建篇

- 工具选型：Obsidian + Claude Code 为什么是黄金组合

- 环境搭建：Mac 和 Windows 的完整教程

- 首次实操：让 AI 吃下你的第一份资料

第 8-10 篇：深化篇

- 多格式资料加工：PDF、Word、PPT、视频、音频的处理方法

- 大规模文件处理：上下文限制与自动化策略

- 查询与维护：让知识库"越用越聪明"

第 11-13 篇：场景篇

- toC 落地：学习、工作、内容创作的完整工作流

- toB 落地：小团队和企业的知识管理方案

- Schema 进阶：让你的 AI 知识管理员越来越专业

第 14-15 篇：前沿篇

- 社区生态与经典案例：别人是怎么用 AI 知识库的

- 未来展望：从个人到企业的知识管理趋势

今天就可以做的 3 件事

在正式进入下一篇之前，我建议你：

1. 盘点你的知识现状

打开你的微信收藏夹、浏览器书签、笔记软件，回答这几个问题：

- 你收藏了多少内容？

- 过去一个月，你重新打开过多少？

- 有多少链接已经失效了？

- 你能快速找到三个月前收藏的一篇重要文章吗？

2. 思考你的知识需求

- 你目前最大的知识管理痛点是什么？

- 你最希望 AI 帮你解决什么问题？

- 你属于哪类人群（学生/白领/创作者/其他）？

3. 关注本系列

如果你认同"知识不应该腐烂"的理念，请关注本系列的更新。

下一篇，我们将深入探讨 LLM-Wiki 的核心原理，用 5 分钟让你彻底搞懂这个系统是如何工作的。

写在最后

知识管理，本质上是一场与遗忘的对抗。

我们收藏、记录、整理，都是为了对抗时间的侵蚀。但传统的工具和方法，在这场对抗中节节败退。

LLM-Wiki 不是银弹，它不能解决所有问题。但它提供了一个新的可能性：

让 AI 成为我们的知识伙伴，而不是替代品。让知识库成为活的有机体，而不是死的档案柜。

你的知识，值得被更好地对待。

下篇预告：

《第 2 篇：5 分钟搞懂 LLM-Wiki——AI 知识库到底是什么》

我们将用一个生活类比，让你彻底理解 LLM-Wiki 的三层架构和三大操作。不需要任何技术背景，5 分钟后，你就能向别人解释清楚这个系统。