抄了前 OpenAI 大佬的 AI 笔记法 22 天,我决定把 80% 的功能全扔了
致读者: 本篇 5000+ 字,预计阅读时间 13min。2026 年 4 月 4 日 Andrej Karpathy 在 GitHub Gist 发布了一篇叫 "LLM Wiki" 的笔记——这位前 OpenAI 创始团队、特斯拉 AI 总监、Eureka Labs 创始人,提出了一套"让 AI 帮你编译知识库"的方法。
AI 圈集体高潮:Roam 用户、Obsidian 用户、Notion 用户都在抄。我 4 月 8 日也跟着抄了——建了 知识库/概念Wiki/,搭了"📥知识 Ingest SKILL"+"🔬知识 Lint SKILL",兴致冲冲。
22 天后,我自己写了个 lint 脚本扒了一遍 vault 里的真实数据——8099 个 md 文件 / 6361 个全类型文件——结果让我把抄来的 80% 功能全扔了。不是 Karpathy 错了,是他设计这套方法时假设的「读者的笔记库长什么样」根本不是我的笔记库。
这篇把这 22 天的崩盘数据 + 范式陷阱 + 我现在真正在用的 4 层架构 + 给 AI 喂本地笔记的 4 条反直觉铁律,一次摊开。给所有想让 AI 真的读懂你笔记的人。

01. Karpathy 这个方法到底是什么 · 为什么火
2026-04-04,Karpathy 公开了一篇名为 LLM Wiki 的方法论 GIST。
它的核心观点一句话讲完:
知识复利 = 让每次阅读产生持续可复用的结构化产物,而不是一次性回答。
为什么有人喜欢?因为它把"AI 帮你处理信息"分成了两种范式,对比鲜明:
传统 RAG 模式(主流做法):
资料库 → 每次提问现拼 → 答案出来 → 知识没沉淀
Wiki 模式(Karpathy 提出):
资料库 → LLM 编译成结构化中间层 → 持续更新 → 查询时先查 Wiki 再综合
它把架构定义成三层:
| Raw Sources | |
| Wiki | |
| Schema |
关键操作三件:
- Ingest
:新资料进来 → 提炼要点 → 更新相关概念页 → 建交叉链接 → 记 CHANGELOG - Lint
:定期检查矛盾、过时结论、孤儿页、缺失链接 - 写回
:有价值的分析/对比/结论写回 Wiki,不让对话消失
听起来非常完美。
我 4 月 8 日花了大半天动手抄了:
新建 知识库/概念Wiki/目录写了 📥知识 Ingest SKILL(手动触发的 ingest 流水线)写了 🔬知识 Lint SKILL(月度健康检查)建 知识库/CHANGELOG.md(全局变更日志)写了 知识库使用迭代记录.md(自己迭代历史)
干完那一天我特别有成就感:我的知识库进入了 v3.0。

02. 22 天后的实测崩盘数据 · 1.1% / 5.4% / 16%
22 天后,4 月 30 日,我决定给自己 vault 做个体检,看看抄来的方法到底跑得怎么样。
我写了个 100 行的 vault_lint.py 脚本,扫了整个 vault——6361 个文件 / 8099 个 md 文件,扒出 3 个让我崩溃的数字:
wikilink[[xxx]] | 1.1% | |
markdown link[文字](path.md) | 5.4% | |
frontmatter type: 字段 | 16% |
这 3 个数字什么意思?
Karpathy 整套方法依赖 3 个底层假设——在我的 vault 里全部不成立:
🔴 假设 1:笔记之间有密集 wikilink 联系 → 我只有 1.1% 🔴 假设 2:链接关系是 vault 的核心导航方式 → 我只有 5.4% 🔴 假设 3:笔记带结构化 type 标签便于聚类 → 我只有 16%
也就是说——Karpathy 的方法是为 "Roam 派 / 重度 wikilink 用户" 设计的,我不是这派人。
我抄过来后实际跑出来的结果:
❌ enrich-wikilinks(自动给笔记加 [[]]) → 强加 = 污染。我 99% 的笔记根本不用 wikilink,你给我加 = 制造垃圾 ❌ 4-Signal relevance(directLink + sourceOverlap + Adamic-Adar + typeAffinity) → type 16% 覆盖,4 个信号 3 个废,计算结果全是噪声 ❌ Louvain 社区检测 → 孤儿率 80%(采集系统的原始数据稀释),聚出来的"社区"互相之间没意义 ❌ 两步 CoT ingest 提示词 → 我已经有 6 件套(公众号)+ 手册 v3.0 + 鲈鱼工厂 + NotebookLM Teacher 层 4 套定制管线,通用 ingest 是降级 ❌ Tauri desktop 剪藏 / LanceDB 向量 → 我用 NotebookLM + qiaomu-anything-to-notebooklm + to-md,已经覆盖
抄来的 80% 全扔了。
留下来 20% 的有用部分:
✅ 结构 lint(死链检测) —— 5 秒跑完,实测产出 124 个死 wikilink + 59 个死 md 链 = ~180 个真实卫生信号 ✅ JSON 替换模式(让 LLM 返回 [{term, target}] 不是重写整页) —— 这条提示词工程经验保留 ✅ 手动 Ingest 触发的设计哲学 —— 但管线我有更好的

03. 为什么不能直接抄大佬方法 · 4 种知识库范式
我后来花了一周对比开源社区,发现做笔记库的人其实分成 4 个完全不同的派系——抄方法不看派系,等于抄错答案。
🌐 wikilink 范式:Roam Research / Tana / Logseq / Obsidian 重度 wikilink 用户 - 特征:每篇笔记带 5-20 个 [[]] 双向链接 - 导航:靠图谱 + 反向链接面板 - AI 喂法:Karpathy LLM Wiki 完美匹配
📁 folder 范式:文件夹层级 + INDEX/README + emoji 前缀 - 特征:目录结构本身就是导航,链接只是辅助 - 导航:靠路径 + emoji 视觉路标(🐟内容工厂/📥知识 Ingest/🔥提示词锻造) - AI 喂法:CLAUDE.md / .cursorrules / MEMORY 索引
📅 timeline 范式:Daily Note + 时间戳 - 特征:Obsidian Daily Notes Plugin 重度用户 / 灵感日记派 - 导航:靠日期 + 周回顾 + 时间线 - AI 喂法:按时间窗口喂
🗺️ MOC 范式:Maps of Content + 主题入口页 - 特征:核心是一组"入口页",每页是一个主题的总览 + 链接清单 - 导航:靠主题入口 - AI 喂法:让 AI 从 MOC 开始读
我是 folder + AI memory 混合范式——这跟 Karpathy 设计 LLM Wiki 时假设的 wikilink 派完全不同。
具体我的导航方式:
🐟内容工厂开发/🔮命理人生/🌍Life OS/—— emoji 前缀当视觉路标_中台/INDEX.md—— 项目级索引 ~/.claude/memory/MEMORY.md—— AI 端主索引(Claude 必读) _router.md—— 触发词到 SSOT/SKILL 的路由表 核心画像/RULES.md—— 跨 AI 共享的硬规则
这 5 件东西对我有用,wikilink 图谱对我没用——不是 Karpathy 错了,是范式不同。
如果你也想抄某个大佬的方法,先问一句:他做的是 wikilink 派,还是 folder 派,还是 MOC 派?和我一样吗?
不一样 → 别抄整套,只抄哲学。

04. 给 AI 喂本地知识库的 4 条反直觉铁律
这是我 22 天扒出来的 4 条铁律,反共识程度从低到高排:
🔥 铁律 1:别抄大佬的范式 · 先扒自己 vault 的真实数据
抄之前先跑 lint,看 5 个指标:
# 你只要在 vault 根目录跑一遍这种统计:
1. wikilink [[]] 覆盖率 — 你是不是 wikilink 派
2. markdown link 覆盖率 — 你的链接密度
3. frontmatter 字段覆盖率 — 你有没有在用结构化标签
4. 文件夹层级深度分布 — 你是平铺还是树状
5. 文件命名规律 — emoji 前缀 / 编号 / 日期前缀
这 5 个数字告诉你:你真实在用的范式是什么。
不是你"想用"的,是你"已经在用"的——身体不会骗人,你 8099 个文件里只有 1.1% 带 wikilink,说明你这辈子也不会变成 wikilink 派。
范式选对,后面的工具才能选对。
🔥 铁律 2:手动 Ingest > 全自动 Ingest
大家都在追求"自动化"——一打开新文章 AI 就自动总结、自动建概念页、自动加 wikilink、自动归档。
实测下来全自动是负价值:
- Token 烧光
:每篇都跑一遍 ingest,一个月烧 50 美金不夸张 - 低质污染
:你刷的一半内容不值得沉淀,自动 ingest 等于往知识库里倒垃圾 - AI 误判
:在你脑子里这件事是属于"未来某个项目"的灵感,AI 不知道,胡乱归类
我的方案:把 ingest 做成 手动触发——
触发词 = "沉淀一下" / "Ingest 这个" / "更新概念页" 只对"会反复查阅 / 跨主题关联 / 形成可复用概念"的内容启动 月度跑一次 Lint(不是日级),做死链检测 + 矛盾检查 设计 CHANGELOG.md 记录"知识库本身的变化",不是记内容
22 天后我的概念 Wiki 只长出了 3 个概念页——但这 3 个页都是反复在用的:「知识复利方法论」「壳内核分离」「索引层级」。
质量 > 数量。每个月手动加 1-2 个真正反复用到的概念,胜过 AI 自动生成 100 个孤儿页。
🔥 铁律 3:多层索引 > 单一图谱
大佬们爱秀的 "Obsidian 知识图谱可视化"——节点连线像星空——对实际使用几乎零价值。
我实测有用的是 4 层平行索引,各司其职:
Layer 1 · AI 索引(给 AI 读的) - 路径:~/.claude/memory/MEMORY.md + 各域子索引(MEMORY-content/-collection/-tools/-methodology) - 内容:每条 1 行指针 + 触发词 + 文件路径 - 用途:Claude 新会话冷启动 30 秒拿到全局画像
Layer 2 · 中台索引(给项目用的) - 路径:🐟内容工厂开发/_中台/INDEX.md - 内容:项目主体的所有产物 + factory-map + 数据源地图 + production-log - 用途:跨任务衔接
Layer 3 · 文件系统索引(给人眼看的) - emoji 前缀:🐟内容工厂 / 🔥提示词锻造 / 📥知识 Ingest / 🔮命理人生 / 🌍Life OS - 编号前缀:01- / 02- / 03- 序列 - 用途:Finder/Obsidian 侧边栏一眼定位
Layer 4 · 人格画像(跨 AI 共享) - 路径:知识库/核心画像/(WHO_AM_I/RULES/TOOLS/LESSONS/WORKFLOWS) - 内容:用户画像 + 硬规则 + 工具链 + 教训库 + 工作流索引 - 用途:换 ChatGPT、Gemini、Cursor 都能复用同一套画像
这 4 层各司其职,比一张全局图谱有用 10 倍——因为 AI 不靠"看图",AI 靠"读结构化文本"。

🔥 铁律 4:写回机制 > 自动总结
这是 Karpathy 方法里唯一被我完整保留的部分,因为它解决一个真实的痛点:
对话黑洞——你和 AI 聊了 2 小时,聊出 3 个金句,关掉窗口就没了。
下次再聊同样的话题,AI 不知道你之前的结论,要从头开始。Claude memory 解决了一部分,但 memory 是 AI 端的;知识库是用户端的——两边都得有。
我的写回机制:
AI 触发词:"沉淀一下" → AI 把刚才对话的核心结论写到具体路径(如 概念 Wiki/<主题>.md)用户触发词:"这条加到 RULES" → AI 把规则追加到 核心画像/RULES.md教训沉淀:"这是个教训" → AI 双写到 memory/lesson_*.md+vault/教训目录/<name>.md(双写原则)项目状态:"项目状态变了" → AI 更新 知识库/核心画像/PROJECTS.md
写回 ≠ 自动总结—— - 自动总结:AI 自己决定写什么,容易跑偏 - 写回:用户触发(用什么词、写到哪)+ AI 执行,质量可控
22 天数据:我光是这个写回机制就让 vault 多出了 41 条 memory + 12 个 vault 教训笔记 + 7 个概念 Wiki 入口——全部是反复用得到的。
05. 我现在真正在用的 4 层架构
把上面 4 条铁律落到具体路径,就是我现在的 4 层架构:
🗄️ Layer 0: 原始资料层
├── 收件箱/ # 未归类暂存
├── 数据/ # 15 平台采集 DB
└── 数据/SKILL/ # 15 个采集 SKILL
🔧 Layer 1: 工作执行层
├── 工作流/ # 编排和分析(76 个 SKILL)
├── 项目/ # 独立项目
├── 内容创作/ # 公众号/小红书/手册
└── 🐟内容工厂开发/ # 鲈鱼内容工厂
📚 Layer 2: 知识沉淀层
├── 知识库/概念Wiki/ # 概念页(只 3 个,但都反复用)
├── 知识库/工作日志/ # 周战绩 + 复盘
└── 知识库/CHANGELOG.md # 体系变更
🤖 Layer 3: AI 索引层
├── ~/.claude/memory/MEMORY.md # 主索引(Claude 必读)
├── ~/.claude/memory/_router.md # 触发词路由表
├── 核心画像/ # WHO_AM_I/RULES/TOOLS
└── CLAUDE.md (vault 根) # vault 内的规则
写一份你自己的简化版——
你的 Layer 0:原始资料丢哪 你的 Layer 1:日常工作文件在哪 你的 Layer 2:有什么是"反复要查"的(就只写这部分,其他不进概念页) 你的 Layer 3:写一份 CLAUDE.md/.cursorrules/AGENTS.md,放在仓库根目录或 vault 根目录,把"AI 必须知道的事"列清楚
这 4 层每个 1 张纸能讲完——比花架子图谱实在 100 倍。
06. 给所有想用 AI 读自己笔记的人 · 5 个具体动作
如果你刚开始搭本地知识库,这 5 个动作按顺序做,不要乱抄:
🎯 动作 1:跑一遍 vault lint 扒真实数据 - 看 wikilink / md link / frontmatter 覆盖率 - 一句话:你不是 Roam 派,就别抄 Roam 派的方法
🎯 动作 2:写一份给 AI 看的"使用说明书" - 命名:CLAUDE.md(Claude Code) / .cursorrules(Cursor) / AGENTS.md(通用) - 放置:仓库 / vault 根目录 - 内容:目录结构 / 硬规则 / 触发词 / 工具链 / 不要做的事 - 长度:< 200 行(太长 AI 会丢)
🎯 动作 3:文件夹用 emoji 前缀做视觉路标 - 🔥 = 必读 / 高频 / 工坊类 - 🐟 = 个人 IP(我的) - 📥 = 入料 / Ingest 类 - 💎 = 心法 / 精华 - 🔮 = 命理人生 - 🌍 = Life OS - 这不只是好看——AI 也能从路径里读出语义优先级
🎯 动作 4:设计 3-5 个"沉淀触发词" - "沉淀一下" - "Ingest 这个" - "这是个教训" - "加到 RULES" - 让 AI 在听到这些词时知道:这条要写回
🎯 动作 5:不要追求自动化 · 90% 触发是手动 - 自动化的边际成本是 token 和质量污染 - 手动的边际成本是几秒钟决策 - 算明白:你一个月节省的 30 秒 vs 一个月浪费的 50 美金 + 1000 条垃圾笔记——手动赢
07. 工具栈推荐 · 我现在装了什么 / 没装什么
为了不让这篇变成纸上谈兵,这是我 22 天后仍在用的具体工具:
✅ 已装并重度使用:
- Obsidian
—— 本地编辑 + markdown - Claude Code
—— 主力 AI 编辑(有完整文件系统访问) - NotebookLM
—— Teacher 层冻结慢变知识(一主题一 notebook) - mp-preview
Obsidian 插件 —— 公众号样式预览 - Templater
—— 模板化新建笔记
❌ 抄完没装 / 抄完拆掉:
- LanceDB / Chroma 等本地向量库
—— Obsidian 全文搜索 + Claude 读文件已经够用 - Wiki 化 enrich-wikilinks 工具
—— 我不是 wikilink 派 - Louvain 聚类 / 图谱可视化插件
—— 花架子,实际用不上 - AI Auto Tagger / 自动 frontmatter 工具
—— frontmatter 我只在需要时手写 - Tauri 桌面剪藏工具
—— qiaomu-anything-to-notebooklm 覆盖了 - Smart Connections / Copilot for Obsidian
—— 我用 Claude Code 直接读 vault 文件,更快更准
一句话:你不需要 10 个 AI 插件——你需要 1 套清晰的索引 + 1 个能读你文件的 AI。
08. 收尾 · 22 天后我真正明白的一件事
最后想说的一句话——
Karpathy 这个方法 22 天后让我明白的最大一件事,不是"我应该抄谁的方法"。
是:
AI 能读懂的笔记库,不是长得像大佬笔记库的样子——是长得像"AI 能读懂你这个具体的人"的样子。
8099 个 md 文件,76 个 SKILL,40 多篇公众号,12 个手册,6 套采集 SKILL——这些不是因为我抄了 Karpathy 才长成这样的。
是因为我用了 6 个月慢慢长出了自己的范式:
我喜欢用 emoji 前缀做视觉路标 → 那 AI 也得知道 🐟 是我的内容工厂 我习惯写 INDEX.md 而不是 wikilink → 那 AI 就读 INDEX 不要去图谱里转 我做事情先开"中台"再做产品 → 那 AI 就知道任何任务先 grep _中台/production-log.jsonl
AI 能读懂我,是因为我先让自己被读懂。
你的笔记库长什么样,AI 就读到什么样的你。
下次你打算抄某个 AI 圈大佬的本地知识库方法——先停 30 分钟,扒一下自己文件的真实使用模式。
那 30 分钟扒出来的东西,比你抄 22 天还有用。
夜雨聆风