
一、为什么 ChatGPT 不够?
做临床研发的人,日常要面对三类难题:
Karpathy 提出的 LLM Wiki 思路,核心不是「再做一个 RAG」,而是三层分工:
| AI Agent | ||
WIKI.md |
一句话:AI 是程序员,Obsidian 是 IDE,Wiki 是可持续更新的代码库。
二、最小可复现架构(不必一次上齐 OCR 流水线)
即使暂时没有完整 Zotero 流水线,也可以从下面「最小集」开始:
你的 Obsidian Vault/ Resources/Literature/ ← 正式文献笔记(禁止 Agent 改正文) Wiki/ 01_sources/ ← 每篇文献一条精读 02_disease/ ← 疾病 / 适应症 03_drugs/ ← 药物 04_targets/ ← 靶点、耐药机制 05_studies/ ← 试验名、NCT 06_synthesis/ ← 跨试验对比(核对后沉淀) WIKI.md ← Agent 操作手册AI Agent 工具:打开整个 Vault 文件夹作为工作区,对 Agent 说「对 FIDSRVI9 执行 wiki ingest」。Obsidian:同一文件夹,用图谱和双向链接阅读——不必靠 MCP 逐篇改笔记。
三、案例:SERENA-6(FIDSRVI9)第一次 ingest
我以 NEJM 发表的 SERENA-6 为试点,演示「一篇文献 → 多张 Wiki 页」。
3.1 精读页(01_sources/FIDSRVI9.md)
临床研究 source 页采用固定结构:核心结论 → PICOS 五要素表 → 疗效表 → 安全/QoL → 知识网络 → 证据来源。
PICOS 五要素(必填,且须能回到原文):
主要疗效(Abstract / 正文 Results,中期分析):
随机化:315 例(Camizestrant 157,AI 158);筛查 3256 例接受 ESR1 检测。注册号 NCT04964934。
3.2 自动拆页(ingest 触达 4 类目录)
同一篇 ingest 会更新或新建:
03_drugs/Camizestrant — 药物机制与 SERENA-6 疗效摘要05_studies/SERENA-6 — 试验设计与 NCT04_targets/ESR1-emergent-mutation — ctDNA 新兴 ESR1 概念02_disease/HR-positive-HER2-negative-MBC — 适应症语境每页文末有 证据来源,关键数字带脚注指回 Literature 正式笔记——不允许用模型常识补 HR 或样本量。
四、三条硬规则(临研 Wiki 与「随便问 AI」的分水岭)
Resources/Literature/ 下对应笔记(含 OCR)后再动笔。** 易与 tag 下划线冲突;层级只用 # / ## 标题。公众号稿可另存,排版时再加强调。五、可选:NotebookLM 做「跨文献对比实验室」
NotebookLM 不是 Wiki 主引擎,但适合回答:
「SERENA-6 与 PADA-1 在人群、干预、终点上有何异同?」
推荐流程:
ESR1-adaptive-SERD),只上传 3–8 篇 对比所需 PDF(不必整库上传 Google)。Wiki/06_synthesis/。必须写清的边界:
配置示例见 Vault 内 Wiki/99_meta/notebooklm-mcp.example.json 与 notebooklm-packs/。
六、避坑清单
AI Agent 工作区Wiki/;Obsidian 只读图谱 | |
index.md 导航 | |
06_synthesis/ | |
Breast Cancer) | Breast_Cancer;ingest 后跑 normalize_wiki_tags.py |
七、你可以从哪里开始?
今天就能做:
Wiki/ 目录树 + 根目录 WIKI.md。source-clinical-trial 模板执行 wiki ingest」。Wiki/index.md,看图谱是否连上 drugs / studies / targets。下一步再加: OCR 工具(PDF → Literature Markdown)、NotebookLM 对比包。
夜雨聆风