前言:如果你生活至今仍未有构建知识库的习惯,希望看完文章能让你有所行动
“You can’t really know anything if you just remember isolated facts.”
Charlie Munger
很多人真正缺的,不是信息,而是把信息连起来、留下来、再用起来的能力。
这也是我觉得 Karpathy 最近那两条内容特别值得看的原因。
先说一句背景。Andrej Karpathy 是 OpenAI 早期创始成员之一,也做过特斯拉 AI 负责人。2026 年 4 月 2 日,他在 X 上发了一条《LLM Knowledge Bases》;两天后,也就是 2026 年 4 月 4 日,他又放出了一份更系统的 Gist,标题叫《LLM Wiki》。
很多人第一眼会觉得,这又是一个 AI 圈的新概念,离普通人很远。
但我看完后的感觉正好相反。
这套方法最值得学的地方,不是“怎么把 AI 用得更炫”,而是它把“建立自己的知识库”这件事讲清楚了。
很多人从小到大都没有“建立知识库”的习惯。
我们更习惯的是另一套流程:看过,觉得有用,收藏;过几天忘了;下次再遇到类似问题,再重新搜一遍。
这套流程看起来没有问题,但长期下来会有一种很明显的损耗:
• 你读过很多内容,但脑子里留不住结构 • 你收藏过很多资料,但真正要用时找不到 • 你其实已经想过一些判断,但没有沉淀下来,最后又得从头想 • 你踩过坑,也记过教训,但过几个月又会重复一次
没有知识库的人,长期其实是在重复消费信息;有知识库的人,才有机会让信息慢慢变成自己的东西。
这里说的“知识库”,并不一定是什么很重的系统。
对普通人来说,它可以先很简单:一个文件夹,一组 markdown 页面,几类稳定的笔记结构。关键不在工具,关键在于你有没有一个地方,能把你看过、想过、做过的东西持续整理下来,并且以后还找得到、接得上、改得动。
这件事哪怕和 AI 完全无关,也一样重要。
因为工作、学习、投资、写作、训练、育儿、健康管理,本质上都在反复做同一件事:把零散经验慢慢整理成可靠判断。
Karpathy 这次到底公开了什么
Karpathy 这次讲的,不是“再做一个问答机器人”,也不是“把 PDF 丢进去让模型帮你总结”。
他真正公开的,是一套用 LLM 维护个人知识库的模式。
他的核心思路可以概括成一句话:
不要只把资料存起来,也不要每次提问都从原始资料重新检索;更好的做法,是让 LLM 帮你维护一层长期存在、持续更新的 wiki。
这层 wiki 夹在原始资料和聊天问答之间。
你可以把它理解成三层:
1. raw/:原始资料文章、论文、笔记、截图、网页、数据,尽量保留原貌,它们是事实来源。2. wiki/:整理后的知识页面主题页、概念页、人物页、问题页、对比页、索引页,都放在这里。3. 规则文件比如 CLAUDE.md、AGENTS.md这种,专门告诉 LLM 这个知识库该怎么命名、怎么更新、怎么回答问题、怎么做质量检查。
这第三层其实特别重要。
因为没有规则时,LLM 很容易退回成“当场回答”的聊天工具;有了规则,它才更像一个长期帮你维护知识库的编辑。
它和传统 RAG 的差别,到底在哪
这也是最容易被说飘的地方,所以我尽量讲直白一点。
传统 RAG 的常见流程是:你先把一堆资料扔进去,等提问的时候,系统再临时检索相关内容,最后拼成一个回答。
这种方式当然有用,但它更像“现查现答”。
每问一次,系统都要重新找、重新拼、重新组织。答完以后,真正留下来的积累其实有限。
Karpathy 这套 LLM Wiki 更像是在做另一件事:
它不是每次都临时开卷考试,而是先把你读过的材料慢慢整理成一套长期存在的知识结构。
以后你再问问题,问的就不只是原始资料,而是“已经被整理过、连接过、更新过”的知识层。
所以更准确的说法不是“它一定比 RAG 更强”,而是:
如果你在做长期研究、长期写作、长期积累,它通常比“只在提问时临时检索”更有复利。
这套系统平时怎么运转
Karpathy 在 Gist 里讲得很清楚,核心其实就三件事。
1. ingest:新资料进来,不只是存档
一篇新文章进来后,不是只给它做个摘要就结束。
LLM 还要去做几件事:
• 更新已有主题页 • 补充相关概念页 • 新建必要的条目 • 建立交叉链接 • 标出哪里和旧信息一致,哪里有冲突
重点不是“总结一下”,而是把新信息融进现有知识结构。
2. query:提问不只是消费,也是在建设
当你开始基于整个 wiki 提问题时,问题的质量会变得不一样。
比如你问的可能不再是“这篇文章说了什么”,而会变成:
• 这个主题最核心的 5 个概念是什么? • A 和 B 看起来很像,真正分歧在哪里? • 这些资料里反复出现、但还没有单独整理的概念是什么? • 如果我要给新人讲明白这件事,最短路径该怎么走?
更妙的是,好的问答结果还可以继续写回 wiki。
这一下,提问本身就不再是一次性消费,而是知识库继续生长的一部分。
3. lint:定期体检
Karpathy 还强调了一个很容易被忽略、但特别像“编辑工作”的环节:lint。
也就是定期检查:
• 哪些页面重复了 • 哪些页面太薄了 • 哪些结论过期了 • 哪些说法互相矛盾 • 哪些高频概念还没有独立成条目 • 下一批最值得补的资料是什么
以前这类工作最碎,也最容易被拖着不做。现在它反而特别适合交给 LLM。
为什么这套方法对普通人特别有用
很多人一听“知识库”,脑子里马上想到的是很重的系统:复杂标签、复杂数据库、复杂检索、复杂自动化。
Karpathy 这次分享真正有价值的一点,是它把门槛拉回到了一个普通人也能开始的程度。
他自己也提到,原本以为以后会更依赖 fancy RAG,但实际做下来发现,在中小规模上,只要索引、摘要和页面组织做得好,LLM 已经能很好地在知识库上工作。
换句话说,你不用先有一整套“大工程”,才能开始建立自己的知识库。
你甚至可以从一个很小的话题开始:
• AI Agent 学习笔记 • 你的行业研究 • 写作素材库 • 健身和饮食实验记录 • 产品洞察和用户反馈
不要一开始就想着做“第二大脑”。
这个词太大,容易让人迟迟不开始。
更好的起点是:选一个你最近反复在看、反复在想、但下次还会忘的主题。
这就是最适合拿来做第一版知识库的东西。
如果今天就开始,最小版本该怎么搭
如果你想按 Karpathy 的思路搭一个最小版本,我觉得完全可以从下面这套开始。
第一步:先建两个文件夹
• raw/• wiki/
raw/ 负责放原始资料,wiki/ 负责放整理后的页面。
第二步:先只做三类页面
• index.md:总入口• topic-xxx.md:主题页• source-xxx.md:单篇资料摘要页
别一开始就想着把所有类型都设计完。先让最核心的三类页面跑起来。
第三步:每来一篇资料,就做三件事
1. 写一页摘要 2. 更新相关主题页 3. 给 index.md补入口
做到这一步,你的知识库就已经不是单纯的收藏夹了。
第四步:积累到十几篇后,再开始抽概念
当某些概念、人物、争议点开始反复出现时,再单独建词条。
知识库不是靠一开始设计得多完整,而是靠后面慢慢长出来。
第五步:每周做一次 lint
每周问自己几个问题就够了:
• 哪些页面其实在重复? • 哪些结论已经过时? • 哪些高频概念还没单独整理? • 哪些地方的说法在打架? • 下一批最值得补什么材料?
这套动作很轻,但长期价值很大。
我觉得 Karpathy 这次最厉害的地方
说到底,我最喜欢的不是他又提出了一个新名词,而是他把一件长期被说得太复杂的事,讲回了它本来的样子。
知识库不是拿来显得自己很会管理信息的。知识库真正的价值,是帮你把零散输入慢慢变成稳定判断。
而 AI 在这里最值钱的角色,也不是替你“写一段很像样的话”。
它更像一个不会嫌烦的编辑:
• 帮你整理 • 帮你串联 • 帮你更新 • 帮你检查冲突 • 帮你把散的东西慢慢连起来
这就是为什么我觉得,这套方法不只是 AI 从业者该看。
对任何一个长期需要学习、思考、写作、判断的人来说,建立自己的知识库,本来就是一件迟早要做的事。
Karpathy 这次只是顺手告诉我们:现在终于有了一个很合适的搭子,可以帮你把这件事做得更轻、更稳,也更能坚持下去。
参考原文
• Karpathy 于 2026 年 4 月 2 日发布的《LLM Knowledge Bases》:https://www.techtwitter.com/tweet/57a46282-277d-4ceb-95bb-9b468f86f4ff • Karpathy 于 2026 年 4 月 4 日发布的 Gist《LLM Wiki》:https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f • Charlie Munger 关于“零散事实”的引用整理:https://fs.blog/a-lesson-on-worldly-wisdom/
夜雨聆风