前期更新了很多篇关于karpathy LLM wiki如何搭建的方法,很多同学在问有没有详细的规则文档,今天我直接在正文中直接贴出来相应的规则文档,大家可参考使用。Karpathy LLM Wiki 方法论 skill
这个 Skill 解决什么问题?
笔记软件里堆了几百篇文章,需要时让 AI 去找,结果还是从零开始每次 AI 对话结束,有价值的分析就消失在聊天历史里根本原因:99% 的人用知识库的方式本来就是错的——把"临时检索"当成了"知识积累"。LLM Wiki 的解法:把流程反过来——先整理,再使用。让 AI 在资料进入时立刻消化整理,而不是每次查询时从零推导。
核心理念:三句话
Obsidian 是 IDE;LLM 是程序员;Wiki 是代码库。— Karpathy
你策划资料、提问题;AI 整理、链接、更新、维护。知识被编译一次,持续保持最新,而不是每次查询时重新推导。
知识库架构:三层结构
my-wiki/ ← 用 Obsidian 打开这个文件夹作为 Vault│├── raw/ ← 【原始资料层】只读不修改,知识的"水源"│ ├── 文章标题-2026-04.md│ ├── 播客转录-04-12.md│ └── assets/ ← 本地保存的图片│├── wiki/ ← 【知识沉淀层】AI 整理后的知识页面(核心!)│ ├── concepts/ ← 概念页面(如:什么是 RAG、什么是向量数据库)│ ├── people/ ← 人物页面(如:Karpathy、Hinton)│ └── topics/ ← 主题页面(如:AI 知识管理、提示词工程)│└── logs/ ← 【索引与日志层】├── index.md ← wiki 目录(AI 每次摄取都更新它)└── log.md ← 按时间顺序的变更记录
raw/ 是知识的"水源"——永远不修改,确保来源可追溯。wiki/ 是知识的"成品"——AI 每次摄取资料后在这儿创建/更新知识页面。logs/ 是知识的"索引"——让你和 AI 都能快速找到东西。
与传统方式的本质区别
三大工作流
🔵 Ingest(摄取)— 资料进入时整理
(推荐用 Obsidian Web Clipper 插件一键剪藏网页)请读取 raw/[文件名].md,把里面的关键信息整理进 wiki/:提炼核心概念,创建或更新 wiki/ 中的相关页面在 logs/index.md 增加新条目在 logs/log.md 追加本次变更记录
✅ wiki/ 里生成了新的知识页面✅ 页面之间自动建立了内部链接✅ logs/index.md 多了条目✅ logs/log.md 有了时间记录
一份资料可能触及 10-15 个 wiki 页面,这正是 LLM Wiki 的威力所在。
🟢 Query(查询)— 针对知识库提问
当你想深入了解某个主题:我在研究 [某个主题],请先读 logs/index.md,然后综合 wiki/ 中的内容给我一个系统的回答。如果有好的洞察,请帮我写成新的 wiki 页面存起来。关键原则:好的回答要归档回 wiki!你要求的比较、分析、关联——这些是有价值的,不应该消失在聊天历史中。
🟡 Lint(整理)— 定期健康检查
请检查 wiki/ 的健康状态:1. 有没有页面之间的矛盾?2. 有没有过时的主张被新资料更新了?3. 有没有孤立页面(没有任何链接)?4. 有没有被提及但缺独立页面的重要概念?5. 建议下一步可以研究什么方向?
操作流程:从零搭建(10分钟)
安装后,File → Open folder as vault,选择你的 my-wiki/ 文件夹。请帮我在 [路径] 初始化一个 LLM Wiki 知识库,包括创建 raw/、wiki/(含 concepts/、people/、topics/)、logs/ 目录,以及 AGENTS.md、logs/index.md、logs/log.md 初始文件。AGENTS.md 是 AI 的"维护规则书",每次 AI 帮你维护知识库前都会先读这个文件。完整模板见本 Skill 目录下的 references/AGENTS-template.md。参照 Ingest 工作流,跑通第一轮,检查 4 个复盘点:- wiki/ 里是否生成了知识页面?(不是原文复制,是结构化总结)
- 页面内容是否包含:结构化总结 + 概念解释 + 内部链接?
wiki/ 页面格式规范
每个 wiki 页面应包含以下结构:---title: 页面标题type: concept | entity | topic | comparison | synthesiscreated: YYYY-MM-DDupdated: YYYY-MM-DDsources: [来源文件列表]tags: [相关标签]---页面标题核心内容。用 [[页面名]] 语法链接相关页面。## 核心概念 / 关键要点## 延伸阅读 / 相关链接- [[相关页面-1]]- [[相关页面-2]]
常见问题
推荐 Obsidian,纯本地、速度快、AI 友好。Notion 也可以,但 AI 整合稍弱。用 logs/index.md 做目录,用 Obsidian 图谱视图看结构。AI 会在每次摄取时更新目录,不会乱。中等规模(100 份资料、数百个页面)用 index.md 就够了。规模更大后,可以加 qmd(本地搜索工具)做混合检索。不需要。可以批量存储后集中整理。关键原则:不要只存不整理。所有文件都在你自己的电脑上。Obsidian 是纯本地工具,数据不上传。
关键原则总结┌─────────────────────────────────────────────────────────┐│ LLM Wiki 核心原则 │├─────────────────────────────────────────────────────────┤│ 1. 原始资料只读不修改(raw/ 是知识的"水源") ││ 2. AI 负责整理和沉淀,人类负责想法和判断 ││ 3. 每个页面聚焦一个主题,避免臃肿 ││ 4. 内部链接 > 外部引用(知识要联网,不是堆砌) ││ 5. 更新 > 创建(有冲突时标注,不重复) ││ 6. 先跑通第一轮,再逐步扩展(质量 > 数量) ││ 7. 好的回答要归档回 wiki,不能消失在聊天历史 │└─────────────────────────────────────────────────────────┘
巴菲特投资知识库维护规则
一、核心原则 | Core Principles
1. 知识处理原则
传统方式(❌):先存储 → 临时查询 → 每次从零开始LLM Wiki方式(✅):先整理知识 → 再使用 → 持续积累2. 三大铁律
| | |
|---|
| 原始资料只读不修改 | 00-原始资料/ | |
| 知识点原子化 | | |
| 冲突不删除 | | |
二、目录结构 | Directory Structure
巴菲特/├── 00-原始资料/ ← 知识的"水源",只读不修改│ └── 01-致股东信/ ← 83封信件独立文件│├── 10-知识点库/ ← AI 整理后的知识页面(核心!)│ ├── 投资哲学/ ← 6个知识点│ │ ├── 能力圈.md│ │ ├── 护城河.md│ │ ├── 安全边际.md│ │ ├── 长期持有.md│ │ ├── 诚实面对自己.md│ │ └── 最重要的投资原则.md│ ├── 投资方法/ ← 6个知识点│ │ ├── 内在价值.md│ │ ├── 复利效应.md│ │ ├── 逆向投资.md│ │ ├── 资本配置.md│ │ ├── 风险控制.md│ │ └── 烟蒂股投资法.md│ ├── 投资心理/ ← 4个知识点│ ├── 企业管理/ ← 4个知识点│ ├── 经典案例/ ← 14个案例│ │ ├── GEICO投资案例.md│ │ ├── 可口可乐投资案例.md│ │ ├── 美国运通投资案例.md│ │ ├── 苹果投资案例.md│ │ ├── BNSF铁路收购案例.md│ │ ├── 高盛投资案例.md│ │ ├── 日本五大贸易公司投资案例.md│ │ ├── 吉列投资案例.md│ │ ├── 富国银行投资案例.md│ │ ├── IBM投资案例.md│ │ ├── 投资失误.md│ │ ├── 最成功投资.md│ │ ├── 所罗门兄弟案例.md│ │ └── 投资案例汇总.md│ ├── 投资陷阱/ ← 3个知识点│ ├── 核心概念/ ← 21个概念│ ├── 行业分析/ ← 9个行业│ │ └── 人工智能.md│ ├── 人物传记/ ← 8位人物│ │ ├── 巴菲特.md│ │ ├── 芒格.md│ │ ├── 阿吉特·贾恩.md│ │ ├── 格雷厄姆.md│ │ ├── 格雷格·阿贝尔.md│ │ ├── B夫人.md│ │ ├── 托德·库姆斯.md│ │ └── 泰德·韦施勒.md│ └── 公司档案/ ← 50家公司│├── 20-知识索引/ ← 知识库的"导航"│ ├── 知识库总索引.md│ ├── 关键词索引.md│ ├── 人物索引.md│ ├── 公司索引.md│ └── 股东大会演讲索引.md│├── 30-维护记录/ ← 知识库的"账本"│ ├── 知识库更新日志.md│ └── 冲突与错误记录.md│└── AGENTS.md ← 本维护规范
三、写作规范 | Writing Conventions
1. 知识点页面模板
[知识点名称]> 一句话定义(核心概念)> 🟢 完整级 | 约6000字 | 最后更新:YYYY-MM-DD---一、核心定义[简明扼要的定义,200-300字]---二、核心要点要点1:[要点名称][详细解释,包含案例、数据、表格]要点2:[要点名称][详细解释,包含案例、数据、表格]...---三、经典案例案例1:[案例名称][案例详细描述]案例2:[案例名称][案例详细描述]---四、实践方法方法1:[方法名称][具体操作步骤]方法2:[方法名称][具体操作步骤]---五、常见误区误区1:[误区名称][误区解释和纠正]误区2:[误区名称][误区解释和纠正]---六、相关知识点- [[相关知识点1]]- [[相关知识点2]]- [[相关知识点3]]---七、原文出处> **⚠️ 链接规范:原文出处必须使用 Obsidian 双向链接 `[[路径]]` 语法,禁止使用行内代码块。**>> - 链接到原文文件:`[[00-原始资料/01-致股东信/xxxx年致股东信-完整版]]`> - 链接到同知识点库:`[[相关知识点]]`> - 链接到知识点库内的其他文件:`[[10-知识点库/行业分析/纺织业务]]`---八、对投资者的启示[总结和启示,200-300字]---九、更新日志> 记录本知识点的变更历史,便于追溯和维护| 日期 | 操作类型 | 触发来源 | 变更内容 ||------|---------|---------|---------|| YYYY-MM-DD | 创建 | 用户查询"xxx" | 初始化页面... |**记录规范:**- 创建时记录第一条- 每次修改/补充必须追加新行- 触发来源必填(用户查询/Lint检查/原始资料/自发整理)
2. 人物传记页面模板
[人物名称]> 一句话介绍(核心身份)> 🟢 完整级 | 约3000字 | 最后更新:YYYY-MM-DD---一、人物简介- **姓名**:[中文名 / 英文名]- **生卒年**:[年份]- **身份**:[主要身份]- **与巴菲特的关系**:[关系描述]- **被引用次数**:[在股东信中被引用的次数]---二、生平经历早期经历[详细描述]与巴菲特的合作[详细描述]主要成就[详细描述]---三、核心贡献贡献1:[贡献名称][详细解释]贡献2:[贡献名称][详细解释]---四、经典语录> "[语录内容]"> —— [出处]---五、对巴菲特的影响[详细描述]---六、相关知识点- [[相关知识点1]]- [[相关知识点2]]- [[相关知识点3]]---七、相关公司- [[公司名称1]]- [[公司名称2]]---八、原文出处- [原文出处1]:`00-原始资料/01-致股东信/xxxx年致股东信-原文.md`- [原文出处2]:`00-原始资料/02-股东大会演讲/xxxx年股东大会演讲-原文.md`---九、更新日志> 记录本知识点的变更历史,便于追溯和维护| 日期 | 操作类型 | 触发来源 | 变更内容 ||------|---------|---------|---------|| YYYY-MM-DD | 创建 | 用户查询"xxx" | 初始化页面... |**记录规范:**- 创建时记录第一条- 每次修改/补充必须追加新行- 触发来源必填(用户查询/Lint检查/原始资料/自发整理)
3. 公司档案页面模板
[公司名称]> 一句话介绍(核心业务)> 🟢 完整级 | 约3000字 | 最后更新:YYYY-MM-DD---一、公司简介- **公司名称**:[中文名 / 英文名]- **成立年份**:[年份]- **总部位置**:[地点]- **主营业务**:[业务描述]- **行业分类**:[行业]- **伯克希尔持股比例**:[百分比]- **投资年份**:[年份]---二、投资背景投资时机[详细描述]投资逻辑[详细描述]投资金额[具体数据]---三、商业模式核心业务[详细描述]护城河[详细描述]盈利模式[详细描述]---四、投资成果持股时间[时间跨度]投资回报[具体数据]对伯克希尔的贡献[详细描述]---五、关键人物- [[人物名称1]] - [职位]- [[人物名称2]] - [职位]---六、经典案例案例1:[案例名称][案例详细描述]案例2:[案例名称][案例详细描述]---七、相关知识点- [[相关知识点1]]- [[相关知识点2]]- [[相关知识点3]]---八、原文出处- [原文出处1]:`00-原始资料/01-致股东信/xxxx年致股东信-原文.md`- [原文出处2]:`00-原始资料/02-股东大会演讲/xxxx年股东大会演讲-原文.md`---九、最新动态[最新信息,定期更新]---十、更新日志> 记录本知识点的变更历史,便于追溯和维护| 日期 | 操作类型 | 触发来源 | 变更内容 ||------|---------|---------|---------|| YYYY-MM-DD | 创建 | 用户查询"xxx" | 初始化页面... |**记录规范:**- 创建时记录第一条- 每次修改/补充必须追加新行- 触发来源必填(用户查询/Lint检查/原始资料/自发整理)
4. 触发来源记录规范
每次新建/修改知识点时,必须在「内嵌更新日志」中记录触发来源:
四、工作流规范 | Workflow Conventions
1. 摄取工作流(Ingest Workflow)
┌─────────────────────────────────────────────────────────┐│ ⚠️ 开始工作流前,请先回顾维护原则 ││ - 三不原则:不修改原始资料、不删除内容、不重复创建 ││ - 三要原则:要添加内链、要标注出处、要更新索引 ││ - 格式陷阱:数量要同步、标题要规范、入链要≥3 │└─────────────────────────────────────────────────────────┘Step 1: 将原始资料存入对应的 raw/ 目录例:00-原始资料/01-致股东信/1956年合伙人信-原文.mdStep 2: AI Agent 读取原始资料Step 3: AI Agent 提炼知识点,创建或更新 wiki/ 中的相关页面例:10-知识点库/投资哲学/能力圈.md例:10-知识点库/人物传记/芒格.md例:10-知识点库/公司档案/可口可乐.mdStep 4: AI Agent 更新知识索引例:20-知识索引/知识库总索引.md例:20-知识索引/关键词索引.mdStep 5: AI Agent 在变更日志中追加记录例:30-维护记录/知识库更新日志.md
2. 查询工作流(Query Workflow)
┌─────────────────────────────────────────────────────────┐│ ⚠️ 开始工作流前,请先回顾维护原则 ││ - 三不原则:不修改原始资料、不删除内容、不重复创建 ││ - 三要原则:要添加内链、要标注出处、要更新索引 ││ - 格式陷阱:数量要同步、标题要规范、入链要≥3 │└─────────────────────────────────────────────────────────┘Step 1: AI 读取 20-知识索引/知识库总索引.md 了解知识库结构Step 2: 找到相关的知识点页面Step 3: 综合页面内容给出答案Step 4: 如果答案有价值,保存为新页面到 10-知识点库/⚠️ 注意:新建/修改页面后必须执行后续步骤!Step 5: 更新相关索引- 20-知识索引/知识库总索引.md(数量+1)- 20-知识索引/关键词索引.md(如有新关键词)- 20-知识索引/知识点关系图谱.md(如有新节点)Step 6: 在变更日志中追加记录- 该知识点内嵌更新日志(第九/十章)- 30-维护记录/知识库更新日志.md(集中记录)Step 7: 执行 AGENTS.md 自检清单(见第六章)
┌─────────────────────────────────────────────────────────┐│ ⚠️ 开始工作流前,请先回顾维护原则 ││ - 三不原则:不修改原始资料、不删除内容、不重复创建 ││ - 三要原则:要添加内链、要标注出处、要更新索引 ││ - 格式陷阱:数量要同步、标题要规范、入链要≥3 │└─────────────────────────────────────────────────────────┘常规检查:1. 有没有知识点之间的矛盾?2. 有没有过时的主张被新资料更新了?3. 有没有孤立页面(没有任何链接)?4. 有没有被提及但缺独立页面的重要概念?格式检查:5. 总索引数量是否与实际文件数一致?(易遗漏!)6. 表格标题是否使用标准emoji+中文 格式?7. 新建页面是否有 ≥3 个入链?8. 是否有 0 字节空文件残留?内容检查:9. 原文出处是否使用 [[双向链接]] 格式?10. 投资数据(年份/金额/比例)是否准确?11. 人物/公司名称是否与索引一致?
五、质量控制规范 | Quality Control
1. 知识点质量标准
基本标准
准确性检查
格式一致性检查
链接健康度检查
2. 人物传记质量标准
基本标准
准确性检查
格式一致性检查
- 人物简介部分使用标准的 - **字段名**:[值] 格式
链接健康度检查
3. 公司档案质量标准
基本标准
准确性检查
- 投资回报数据需标注计算口径(是否含股息/是否复权)
格式一致性检查
- 公司简介部分使用标准的 - **字段名**:[值] 格式
链接健康度检查
- 必须链接相关知识点(≥3个,如行业分析、护城河等)
4. 成熟度分级应用
- 优先级:🔴框架级优先补充 → 🟡基础级完善 → 🟢完整级维护
六、维护原则 | Maintenance Principles
1. 三不原则
❌ 不修改原始资料(00-原始资料/ 目录只读)❌ 不删除内容(发现矛盾时标注,不删除)❌ 不创建重复页面(有新内容时更新旧页面)
2. 三要原则
✅ 要添加内部链接(用 [[知识点名称]] 语法)✅ 要标注原文出处(用 `00-原始资料/...` 路径)✅ 要更新索引和日志(每次变更都记录)
3. 冲突处理原则
⚠️ 知识点矛盾记录**矛盾内容**:- 旧信息:[旧信息内容]- 新信息:[新信息内容]**矛盾来源**:- 旧信息来源:`00-原始资料/01-致股东信/xxxx年致股东信-原文.md`- 新信息来源:`00-原始资料/01-致股东信/yyyy年致股东信-原文.md`**处理方式**:- [保留两条信息,标注矛盾]- [以新信息为准,标注旧信息过时]- [需要进一步验证]**记录时间**:2026-04-15
4. AGENTS.md 自检清单(每次变更后必查)
□1. 【索引同步】20-知识索引/知识库总索引.md该分类文件数是否+1/-1?知识点总计是否同步更新?□2. 【关键词同步】20-知识索引/关键词索引.md是否有新关键词需要加入?□3. 【关系图谱】20-知识索引/知识点关系图谱.md是否有新节点需要加入?□4. 【入链检查】新页面是否在 ≥3 个已有页面中有入链?汇总页面(投资案例汇总.md等)相关核心概念页面相关案例/公司档案页面□5. 【AGENTS同步】AGENTS.md 第二章目录结构注释文件夹注释数量是否同步?(容易被遗忘!)□6. 【内嵌日志】该知识点第九/十章「更新日志」是否已追加本次变更?□7. 【集中日志】30-维护记录/知识库更新日志.md 是否已追加本次变更?
七、索引规范 | Index Conventions
⚠️ 格式陷阱(Lint 2026-04-27 经验总结)
以下问题在实际维护中反复出现,已写入规范以避免再犯:现象:新建知识点分类时,总索引统计表中用 — 占位,后续新增文件后忘记更新为实际数字。| **投资方法** | — | ✅ 完成 | ← ❌ 永远是占位符
| **投资方法** | 6个 | ✅ 完成 | ← ✅ 实际文件数
- 总索引中每个分类必须填写实际数字,禁止使用 — 或 TBD 等占位符
- 每次新建/删除知识点文件后,必须同步更新对应分类的计数
- 知识点总计行应使用精确数字(如 123个),而非模糊的 100+个
- 文件夹结构注释中的数量也需同步(如 ← 6个知识点)
现象:统计表标题用加粗文本冒充标题,与页面其他部分风格不一致。**原始资料统计:** ← ❌ 加粗文本当标题| 来源 | 数量 | 状态 |
📄 原始资料统计 ← ✅ 标准二级标题 + emoji| 来源 | 数量 | 状态 |
- 所有统计/汇总类表格前,必须使用标准 Markdown 标题(或 ###)
- 标题统一使用 emoji + 中文 格式(如📊 知识库统计)
现象:新建聚合/汇总类知识点(如"最成功投资""投资失误")后,未在其他相关页面中添加入链,导致新页面成为孤岛。- 每新建一个知识点页面后,必须至少在3个已有页面中添加入链
- 入链格式统一使用 [[完整路径]](如 [[经典案例/最成功投资]])
现象:创建失败或重复创建时产生0字节空文件,未被清理。1. 知识库总索引格式
巴菲特投资知识库总索引## 一、知识点分类索引### 1. 投资哲学类(6个)🟢- [[能力圈]] 🟢 - 只投资自己真正理解的业务- [[护城河]] 🟢 - 企业能够长期维持竞争优势的结构性特征...### 2. 投资方法类(6个)🟡...## 二、人物传记索引(8位)- [[芒格]] 🟢 - 巴菲特的合伙人,被引用51次- [[巴菲特]] 🔴 - 伯克希尔哈撒韦创始人,被引用100+次...## 三、公司档案索引(50家)### 保险公司(4家)- [[盖可保险]] 🟢 - 伯克希尔保险业务的核心...## 四、统计信息- 知识点总数:125个- 人物传记:8位- 公司档案:50家- 原始资料:83封股东信 + 30篇股东大会演讲- 关键词:140+个
2. 知识库更新日志格式
知识库更新日志## YYYY-MM-DD | [更新主题]**操作人:** AI 助手**变更类型:** 新建/修改/删除/整理**触发来源:** 用户查询/Lint检查/原始资料/自发整理### 变更内容[详细描述]### 同步更新- 文件1- 文件2---