AI教父:硅谷权威大佬Karpathy公开知识库搭建思路,比传统RAG更实用的方法来了

前言：如果你生活至今仍未有构建知识库的习惯，希望看完文章能让你有所行动
“You can’t really know anything if you just remember isolated facts.”
Charlie Munger

很多人真正缺的，不是信息，而是把信息连起来、留下来、再用起来的能力。

这也是我觉得 Karpathy 最近那两条内容特别值得看的原因。

先说一句背景。Andrej Karpathy 是 OpenAI 早期创始成员之一，也做过特斯拉 AI 负责人。2026 年 4 月 2 日，他在 X 上发了一条《LLM Knowledge Bases》；两天后，也就是 2026 年 4 月 4 日，他又放出了一份更系统的 Gist，标题叫《LLM Wiki》。

很多人第一眼会觉得，这又是一个 AI 圈的新概念，离普通人很远。

但我看完后的感觉正好相反。

这套方法最值得学的地方，不是“怎么把 AI 用得更炫”，而是它把“建立自己的知识库”这件事讲清楚了。

很多人从小到大都没有“建立知识库”的习惯。

我们更习惯的是另一套流程：看过，觉得有用，收藏；过几天忘了；下次再遇到类似问题，再重新搜一遍。

这套流程看起来没有问题，但长期下来会有一种很明显的损耗：

• 你读过很多内容，但脑子里留不住结构
• 你收藏过很多资料，但真正要用时找不到
• 你其实已经想过一些判断，但没有沉淀下来，最后又得从头想
• 你踩过坑，也记过教训，但过几个月又会重复一次

没有知识库的人，长期其实是在重复消费信息；有知识库的人，才有机会让信息慢慢变成自己的东西。

这里说的“知识库”，并不一定是什么很重的系统。

对普通人来说，它可以先很简单：一个文件夹，一组 markdown 页面，几类稳定的笔记结构。关键不在工具，关键在于你有没有一个地方，能把你看过、想过、做过的东西持续整理下来，并且以后还找得到、接得上、改得动。

这件事哪怕和 AI 完全无关，也一样重要。

因为工作、学习、投资、写作、训练、育儿、健康管理，本质上都在反复做同一件事：把零散经验慢慢整理成可靠判断。

Karpathy 这次到底公开了什么

Karpathy 这次讲的，不是“再做一个问答机器人”，也不是“把 PDF 丢进去让模型帮你总结”。

他真正公开的，是一套用 LLM 维护个人知识库的模式。

他的核心思路可以概括成一句话：

不要只把资料存起来，也不要每次提问都从原始资料重新检索；更好的做法，是让 LLM 帮你维护一层长期存在、持续更新的 wiki。

这层 wiki 夹在原始资料和聊天问答之间。

你可以把它理解成三层：

1. raw/：原始资料文章、论文、笔记、截图、网页、数据，尽量保留原貌，它们是事实来源。
2. wiki/：整理后的知识页面主题页、概念页、人物页、问题页、对比页、索引页，都放在这里。
3. 规则文件比如 CLAUDE.md、AGENTS.md 这种，专门告诉 LLM 这个知识库该怎么命名、怎么更新、怎么回答问题、怎么做质量检查。

这第三层其实特别重要。

因为没有规则时，LLM 很容易退回成“当场回答”的聊天工具；有了规则，它才更像一个长期帮你维护知识库的编辑。

它和传统 RAG 的差别，到底在哪

这也是最容易被说飘的地方，所以我尽量讲直白一点。

传统 RAG 的常见流程是：你先把一堆资料扔进去，等提问的时候，系统再临时检索相关内容，最后拼成一个回答。

这种方式当然有用，但它更像“现查现答”。

每问一次，系统都要重新找、重新拼、重新组织。答完以后，真正留下来的积累其实有限。

Karpathy 这套 LLM Wiki 更像是在做另一件事：

它不是每次都临时开卷考试，而是先把你读过的材料慢慢整理成一套长期存在的知识结构。

以后你再问问题，问的就不只是原始资料，而是“已经被整理过、连接过、更新过”的知识层。

所以更准确的说法不是“它一定比 RAG 更强”，而是：

如果你在做长期研究、长期写作、长期积累，它通常比“只在提问时临时检索”更有复利。

这套系统平时怎么运转

Karpathy 在 Gist 里讲得很清楚，核心其实就三件事。

1. ingest：新资料进来，不只是存档

一篇新文章进来后，不是只给它做个摘要就结束。

LLM 还要去做几件事：

• 更新已有主题页
• 补充相关概念页
• 新建必要的条目
• 建立交叉链接
• 标出哪里和旧信息一致，哪里有冲突

重点不是“总结一下”，而是把新信息融进现有知识结构。

2. query：提问不只是消费，也是在建设

当你开始基于整个 wiki 提问题时，问题的质量会变得不一样。

比如你问的可能不再是“这篇文章说了什么”，而会变成：

• 这个主题最核心的 5 个概念是什么？
• A 和 B 看起来很像，真正分歧在哪里？
• 这些资料里反复出现、但还没有单独整理的概念是什么？
• 如果我要给新人讲明白这件事，最短路径该怎么走？

更妙的是，好的问答结果还可以继续写回 wiki。

这一下，提问本身就不再是一次性消费，而是知识库继续生长的一部分。

3. lint：定期体检

Karpathy 还强调了一个很容易被忽略、但特别像“编辑工作”的环节：lint。

也就是定期检查：

• 哪些页面重复了
• 哪些页面太薄了
• 哪些结论过期了
• 哪些说法互相矛盾
• 哪些高频概念还没有独立成条目
• 下一批最值得补的资料是什么

以前这类工作最碎，也最容易被拖着不做。现在它反而特别适合交给 LLM。

为什么这套方法对普通人特别有用

很多人一听“知识库”，脑子里马上想到的是很重的系统：复杂标签、复杂数据库、复杂检索、复杂自动化。

Karpathy 这次分享真正有价值的一点，是它把门槛拉回到了一个普通人也能开始的程度。

他自己也提到，原本以为以后会更依赖 fancy RAG，但实际做下来发现，在中小规模上，只要索引、摘要和页面组织做得好，LLM 已经能很好地在知识库上工作。

换句话说，你不用先有一整套“大工程”，才能开始建立自己的知识库。

你甚至可以从一个很小的话题开始：

• AI Agent 学习笔记
• 你的行业研究
• 写作素材库
• 健身和饮食实验记录
• 产品洞察和用户反馈

不要一开始就想着做“第二大脑”。

这个词太大，容易让人迟迟不开始。

更好的起点是：选一个你最近反复在看、反复在想、但下次还会忘的主题。

这就是最适合拿来做第一版知识库的东西。

如果今天就开始，最小版本该怎么搭

如果你想按 Karpathy 的思路搭一个最小版本，我觉得完全可以从下面这套开始。

第一步：先建两个文件夹

• raw/
• wiki/

raw/ 负责放原始资料，wiki/ 负责放整理后的页面。

第二步：先只做三类页面

• index.md：总入口
• topic-xxx.md：主题页
• source-xxx.md：单篇资料摘要页

别一开始就想着把所有类型都设计完。先让最核心的三类页面跑起来。

第三步：每来一篇资料，就做三件事

1. 写一页摘要
2. 更新相关主题页
3. 给 index.md 补入口

做到这一步，你的知识库就已经不是单纯的收藏夹了。

第四步：积累到十几篇后，再开始抽概念

当某些概念、人物、争议点开始反复出现时，再单独建词条。

知识库不是靠一开始设计得多完整，而是靠后面慢慢长出来。

第五步：每周做一次 lint

每周问自己几个问题就够了：

• 哪些页面其实在重复？
• 哪些结论已经过时？
• 哪些高频概念还没单独整理？
• 哪些地方的说法在打架？
• 下一批最值得补什么材料？

这套动作很轻，但长期价值很大。

我觉得 Karpathy 这次最厉害的地方

说到底，我最喜欢的不是他又提出了一个新名词，而是他把一件长期被说得太复杂的事，讲回了它本来的样子。

知识库不是拿来显得自己很会管理信息的。知识库真正的价值，是帮你把零散输入慢慢变成稳定判断。

而 AI 在这里最值钱的角色，也不是替你“写一段很像样的话”。

它更像一个不会嫌烦的编辑：

• 帮你整理
• 帮你串联
• 帮你更新
• 帮你检查冲突
• 帮你把散的东西慢慢连起来

这就是为什么我觉得，这套方法不只是 AI 从业者该看。

对任何一个长期需要学习、思考、写作、判断的人来说，建立自己的知识库，本来就是一件迟早要做的事。

Karpathy 这次只是顺手告诉我们：现在终于有了一个很合适的搭子，可以帮你把这件事做得更轻、更稳，也更能坚持下去。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

参考原文

• Karpathy 于 2026 年 4 月 2 日发布的《LLM Knowledge Bases》：https://www.techtwitter.com/tweet/57a46282-277d-4ceb-95bb-9b468f86f4ff
• Karpathy 于 2026 年 4 月 4 日发布的 Gist《LLM Wiki》：https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f
• Charlie Munger 关于“零散事实”的引用整理：https://fs.blog/a-lesson-on-worldly-wisdom/