
这样的场景,你是否似曾相识?
明天要交一份竞品分析报告,记得自己收藏过一篇非常棒的深度分析——讲的就是竞争对手的产品策略。打开微信收藏夹,输入关键词搜索,出来的却是 47 条结果,翻了三页都没找到那篇。
又打开 Notion,搜索"竞品",跳出来 23 个页面。点开第一个,是三个月前的草稿;第二个,是上周的会议记录;第三个,好像有点关系,但内容已经过时了。
"我记得明明保存过啊……"
最后打开浏览器收藏夹,又打开印象笔记,又打开语雀。最后,在邮箱的"已发送"里找到了那篇文章的链接——原来他当时转发给了自己。
点进去,页面 404。
知识管理的三大困境
我们这一代人,是信息最丰富的一代,也是知识最焦虑的一代。
每天,我们被海量的信息包围:公众号文章、知乎回答、B 站视频、播客、论文、报告、邮件、聊天记录……我们本能地觉得"这个有用",然后点击收藏、保存、转发。
但收藏之后呢?
困境一:收藏即遗忘
根据一项针对知识工作者的调查,超过 80% 的人收藏的在线内容,从未被第二次打开。
我们像是在囤积知识的松鼠,把坚果一颗一颗埋进土里,却再也想不起来埋在了哪里。
更可怕的是,我们收藏的内容本身也在消失。网页会失效,链接会 404,视频会被下架,公众号文章会被删除。
你辛苦收藏的知识,正在以肉眼可见的速度"腐烂"。
困境二:检索即重读
假设你幸运地找到了那篇收藏的文章。
你打开它,发现需要重新阅读才能理解—因为三个月前读的时候做的笔记,已经找不到了。或者,你根本没有做笔记,只是点了"收藏"。
于是,你不得不重新阅读一遍,重新理解一遍,重新整理一遍。
每一次检索,都是一次重读。每一次重读,都是一次重新学习。
你的大脑在重复劳动,而你的时间正在被浪费。
困境三:笔记即碎片
也许你会说:"我做笔记啊,我用 Notion/Obsidian/印象笔记,整理得井井有条。"
但让我们诚实一点:你的笔记,真的是"井井有条"吗?
大多数人的笔记系统,是这样的:
- 按时间顺序排列的日记式笔记
- 按来源分类的文件夹(微信收藏、网页剪藏、读书笔记)
- 按项目划分的项目文档
- 零散的想法和灵感
这些笔记之间,有联系吗?
当你在读一篇关于"注意力机制"的论文时,你能立刻想起三个月前读的另一篇相关论文的观点吗?当你在写一个产品方案时,你能快速调取过去所有相关的竞品分析吗?
每一个笔记都是一座孤岛,孤岛之间没有桥梁。你拥有的不是知识网络,而是知识碎片。
RAG:一个看似美好的解决方案
2023 年,大语言模型(LLM)爆火,RAG(Retrieval-Augmented Generation,检索增强生成)技术应运而生。
RAG 的思路很简单:
1. 把你的文档切成碎片,存入向量数据库
2. 当你提问时,用 AI 搜索最相关的碎片
3. 把这些碎片喂给大模型,让它综合生成答案
听起来很美好,对吧?
"我终于不用自己整理笔记了,AI 会帮我检索和总结!"
但现实是:
RAG 的问题一:每次从零开始
每次你提问,RAG 系统都会重新搜索、重新检索、重新生成。
它不会记住你上周问过什么,不会积累你过去三个月的阅读理解,不会发现你收藏的两篇文章之间的矛盾。
它像一个金鱼,只有 7 秒记忆。
RAG 的问题二:检索质量不稳定
RAG 的核心是"检索最相关的碎片"。但"相关"是一个主观的概念。
- 有时候,它会漏掉真正重要的内容
- 有时候,它会混入无关的噪音
- 有时候,它无法理解你的真实意图
你问:"Transformer 和 RNN 有什么区别?"
它可能给你一段关于 Transformer 的详细解释,和一段关于 RNN 的详细解释,但完全没有对比分析——因为原始文档里就没有对比。
RAG 的问题三:知识无法演化
RAG 系统不会学习。
你读了一篇新文章,它不会自动更新知识库。你发现两个文档之间的矛盾,它不会帮你标记。你总结了一个精彩的洞察,它不会保存下来供以后使用。
RAG 是一个"用完即弃"的系统,而不是一个"持续演化"的系统。
一个 Gist 引发的革命
2026 年 4 月,一个名为 Andrej Karpathy 的人在 GitHub 上发布了一个 Gist。
如果你不熟悉这个名字,他是:
- 前特斯拉 AI 总监,领导 Autopilot 团队
- OpenAI 创始成员之一
- 斯坦福大学 CS231n(深度学习计算机视觉)课程的创建者
- 在 YouTube 上拥有百万粉丝的 AI 教育者
这个 Gist 的标题很简单:"LLM-Wiki"。
它没有华丽的排版,没有复杂的代码,只有几千字的 Markdown 文档。但就是这个文档,在短短几周内获得了 5000+ Stars,被 Fork 了 5000 多次,在社交媒体上引发了 1250 万人次的围观讨论。
Karpathy 本人都感叹:"哇,我这条推文真的火爆了。"
核心洞察:停止重新推导,开始编译
Karpathy 在 Gist 中提出了一个简单但深刻的观点:
传统 RAG 是"解释器模式"——每次查询都重新执行,重新推导。 LLM-Wiki 是"编译器模式"——知识被编译一次,持续更新,重复使用。
他用了一个精妙的类比:
想象你在学习一门编程语言。
- 解释器模式:每次运行代码,都逐行解释执行。慢,但可以立即看到结果。
- 编译器模式:先把代码编译成机器码,然后直接运行编译后的结果。快,且可以优化。
RAG 就像解释器,每次提问都重新"解释"你的文档。而 LLM-Wiki 就像编译器,先把你的知识"编译"成结构化的 Wiki,然后直接查询编译后的结果。
三层架构:Raw → Wiki → Schema
Karpathy设计的LLM-Wiki系统,由三层组成:
第一层:Raw(原始资料)
这是你收藏的所有内容:PDF 论文、网页文章、会议记录、图片、视频字幕……
这一层是"只读"的。AI 不会修改你的原始文件,它们是唯一的"真相来源"。
第二层:Wiki(知识库)
这是 AI 帮你生成的结构化笔记。
当你"喂"给 AI 一篇新文章,它会:
- 提取关键概念和实体
- 创建摘要页面
- 建立页面之间的链接
- 更新索引和目录
这些 Wiki 页面是互相链接的,形成一个知识网络。你可以像浏览维基百科一样浏览你的个人知识库。
第三层:Schema(规则手册)
这是一个配置文件,告诉 AI:
- Wiki 应该如何组织
- 页面应该遵循什么格式
- 如何处理新资料
- 如何回答查询
Schema 是系统中最关键的文件。它把通用的 LLM 变成一个有纪律的知识库管理员。
三大核心操作
Ingest(摄入)
把新资料放入 Raw 目录,让 AI 处理:
- 阅读并理解内容
- 在 Wiki 中创建或更新页面
- 建立交叉引用
- 记录操作日志
Query(查询)
基于 Wiki 提问,让 AI 综合回答:
- 搜索相关页面
- 理解知识间的逻辑关系
- 生成连贯的答案
- 标注信息来源
Lint(健康检查)
定期让 AI 检查知识库的健康状况:
- 发现页面之间的矛盾
- 标记过时的信息
- 修复断裂的链接
- 识别知识空白
为什么 LLM-Wiki 不一样?
让我们回到开头的那个场景。
如果使用的是 LLM-Wiki 系统,会发生什么?
场景一:当他收藏那篇竞品分析时
当你把文章放入 raw/ 目录,对 AI 说:"请摄入这篇文章。"
AI 会:
- 阅读文章,提取关键信息
- 在 wiki/ 中创建"竞品分析-XX公司"页面
- 提取文中提到的产品、策略、数据,创建实体页面
- 建立页面之间的链接(如"XX产品 → 使用 → YY技术")
- 更新 index.md,让这篇分析可以被检索到
- 在 log.md 中记录:"[2026-05-18] ingest | 竞品分析-XX公司"
场景二:当你需要写报告时
问 AI:"帮我总结一下我们主要竞争对手的产品策略。"
AI 会:
- 搜索 Wiki 中所有"竞品分析"相关的页面
- 理解不同竞争对手的策略差异
- 综合生成一份对比分析报告
- 标注每个观点的来源("根据 2026-03-15 的竞品分析……")
- 输出格式可以是:Markdown 文档、对比表格、甚至幻灯片
场景三:当新的竞品动态出现时
当收藏了一篇新的竞品分析,让 AI 摄入。
AI 会:
- 发现新信息与旧信息的关联
- 自动更新相关的 Wiki 页面
- 如果发现矛盾(如"竞争对手的策略变了"),会标记出来
- 在对比分析中体现最新动态
这才是知识管理应该有的样子。
不是收藏了就遗忘,不是每次检索都重读,不是笔记之间孤立无援。
而是:知识被理解、被链接、被演化、被复用。
从 Memex 到 LLM-Wiki
Karpathy 在 Gist 中提到,LLM-Wiki 的理念与 1945 年 Vannevar Bush 提出的 "Memex" 概念一脉相承。
Memex 是 "Memory Extender"(记忆扩展器)的缩写,是 Bush 设想的一种未来设备:
"它是一台机器,一个人可以在其中存储他所有的书籍、记录和通信,并且可以以极高的速度和灵活性进行查阅。它是他记忆的放大和补充。"
80 年过去了,我们有了互联网、有了搜索引擎、有了云笔记、有了 AI。
但我们真的实现了 Memex 的愿景吗?
搜索引擎让我们可以找到信息,但不能理解信息。云笔记让我们可以存储信息,但不能链接信息。AI 让我们可以生成内容,但不能积累知识。
LLM-Wiki 可能是我们离 Memex 最近的一次。
它不是完美的,它还在演化,但它指向了一个正确的方向:
让 AI 成为知识的管理者,而不是搜索的工具。 让知识库成为活的系统,而不是死的仓库。
本系列预告:你将学会什么?
在接下来的 14 篇文章中,我将手把手带你搭建属于自己的 AI 进化知识库。
第 2-3 篇:认知篇
- 深入理解 LLM-Wiki 的工作原理
- 了解不同人群(学生、白领、创作者)的定制方案
第 4-7 篇:搭建篇
- 工具选型:Obsidian + Claude Code 为什么是黄金组合
- 环境搭建:Mac 和 Windows 的完整教程
- 首次实操:让 AI 吃下你的第一份资料
第 8-10 篇:深化篇
- 多格式资料加工:PDF、Word、PPT、视频、音频的处理方法
- 大规模文件处理:上下文限制与自动化策略
- 查询与维护:让知识库"越用越聪明"
第 11-13 篇:场景篇
- toC 落地:学习、工作、内容创作的完整工作流
- toB 落地:小团队和企业的知识管理方案
- Schema 进阶:让你的 AI 知识管理员越来越专业
第 14-15 篇:前沿篇
- 社区生态与经典案例:别人是怎么用 AI 知识库的
- 未来展望:从个人到企业的知识管理趋势
今天就可以做的 3 件事
在正式进入下一篇之前,我建议你:
1. 盘点你的知识现状
打开你的微信收藏夹、浏览器书签、笔记软件,回答这几个问题:
- 你收藏了多少内容?
- 过去一个月,你重新打开过多少?
- 有多少链接已经失效了?
- 你能快速找到三个月前收藏的一篇重要文章吗?
2. 思考你的知识需求
- 你目前最大的知识管理痛点是什么?
- 你最希望 AI 帮你解决什么问题?
- 你属于哪类人群(学生/白领/创作者/其他)?
3. 关注本系列
如果你认同"知识不应该腐烂"的理念,请关注本系列的更新。
下一篇,我们将深入探讨 LLM-Wiki 的核心原理,用 5 分钟让你彻底搞懂这个系统是如何工作的。
写在最后
知识管理,本质上是一场与遗忘的对抗。
我们收藏、记录、整理,都是为了对抗时间的侵蚀。但传统的工具和方法,在这场对抗中节节败退。
LLM-Wiki 不是银弹,它不能解决所有问题。但它提供了一个新的可能性:
让 AI 成为我们的知识伙伴,而不是替代品。 让知识库成为活的有机体,而不是死的档案柜。
你的知识,值得被更好地对待。
下篇预告:
《第 2 篇:5 分钟搞懂 LLM-Wiki——AI 知识库到底是什么》
我们将用一个生活类比,让你彻底理解 LLM-Wiki 的三层架构和三大操作。不需要任何技术背景,5 分钟后,你就能向别人解释清楚这个系统。
夜雨聆风