学术写作者的福音
——用 AI 自动维护一个会"标矛盾"的文献综述库
作者:一只阿木木 我相信:在 AI 时代,每个普通人都该拥有一个自动生长的知识系统。
你答辩过吗
你有没有经历过这种时刻:
论文答辩前夕,导师突然问你:"你有没有考虑过 XX 和 YY 这两篇文章的结论是矛盾的?你的研究怎么处理这个矛盾?"
你愣了三秒。你读过这两篇文章,但你完全没有意识到它们之间有矛盾。
然后你花了两天时间重新翻文献,发现确实有矛盾,还发现了另外四处你之前没注意到的矛盾。你把综述大改了一遍,差点延期答辩。
或者另一种场景:你在写文献综述,写到第 30 篇文章的时候,你已经忘记第 8 篇说了什么。你知道你在某篇文章里读到过一个相关的数据,但完全想不起来是哪一篇,在哪一页。你花了四个小时找这个数据,最后发现它就在你的 Zotero 笔记里,但你当时写的备注太简单,根本看不出来它在哪里有用。
这两个场景,是文献管理最经典的两种失败:矛盾检测失败和知识检索失败。
它们不是研究能力的问题,是工具的问题。
今天这篇文章,我要带你建立一个真正能用的文献综述库——一个会自动标矛盾、自动建连接、随时能回答"你读过哪些文献支持这个观点"的系统。
文献管理的现状:Zotero 解决了存储,但没有解决理解
我不打算否定 Zotero。它是目前最好的文献存储工具,没有之一。
但 Zotero 解决的问题是:把文献存进来,并且找得到。
它没有解决的问题是:理解文献之间的关系。
具体来说,Zotero 不能告诉你:
这 50 篇文献里,哪些在同一个问题上得出了矛盾的结论? 哪些文献形成了一个"理论谱系",互相引用、互相发展? 当你写到某个论点时,哪些文献支持它,哪些文献反对它? 你的研究在已有文献图谱里处于什么位置?
这些问题,是文献综述真正困难的地方。
claude-obsidian 做的,正是在 Zotero 做存储的基础上,建立这一层理解网络。
系统设计:两层架构,各司其职
整个文献管理系统是两层架构:
text
第一层:Zotero(存储层)
负责:PDF 存储、引用格式、DOI 管理、Zotero 同步
不负责:文献之间的关系、矛盾检测、知识综合
第二层:claude-obsidian(理解层)
负责:文献笔记 ingest、实体提取、矛盾检测、知识综合
不负责:PDF 存储和引用格式(这些留给 Zotero)
两层之间的接口:结构化文献笔记(.raw/papers/)
这种设计的好处是:你不需要放弃 Zotero。两个系统并行运行,各自做自己最擅长的事。
Vault 结构:为学术写作定制
text
literature-vault/
├── .raw/
│ ├── papers/ # 文献笔记(核心输入)
│ │ ├── {作者-年份-关键词}.md
│ │ └── ...
│ ├── books/ # 学术专著笔记
│ ├── conference/ # 会议论文笔记
│ └── grey/ # 灰色文献(报告、政策文件)
│
├── wiki/
│ ├── entities/
│ │ ├── authors/ # 作者实体页(学术谱系)
│ │ ├── journals/ # 期刊实体页(影响力 + 立场)
│ │ ├── theories/ # 理论实体页(来源 + 演化)
│ │ └── constructs/ # 构念实体页(定义 + 测量方式)
│ ├── concepts/ # 跨文献的核心概念
│ ├── synthesis/
│ │ ├── debate-maps/ # 争议地图(最重要)
│ │ ├── theory-lineages/ # 理论谱系
│ │ └── meta-findings/ # 元分析发现
│ ├── my-research/ # 我的研究定位(和已有文献的关系)
│ ├── questions/ # 待解决的研究问题
│ ├── index.md
│ └── hot.md
│
├── output/
│ ├── literature-review/ # 综述草稿
│ ├── proposal/ # 开题报告
│ └── paper-drafts/ # 论文草稿
│
└── CLAUDE.md # 研究背景 + 核心问题 + 边界定义
CLAUDE.md:把你的研究语境告诉 AI
每次 Claude 启动都会读这个文件。写好它,等于每次 Claude 都带着对你研究的完整理解在工作。
我的模板(替换括号里的内容为你自己的研究):
Markdown
# 文献综述项目:[你的研究主题]
## 研究问题(RQ)
RQ1: [核心研究问题]
RQ2: [子问题]
RQ3: [子问题]
## 研究背景
[3-5 句话描述你的研究领域和背景,
让 Claude 知道你在什么学科、什么子领域]
## 关键词体系
**核心概念**:[概念1, 概念2, 概念3]
**同义词/近义词映射**:
- [概念1] = [同义表达A] = [同义表达B]
(这很重要,防止 AI 把同一个概念的不同表述当成不同概念)
- [概念2] = ...
## 理论框架预设
我倾向使用的理论视角:[XXX 理论]
我已经排除的视角:[YYY 框架](原因:...)
## 文献纳入/排除标准
**纳入**:
- 时间范围:[起始年份] 至今
- 语言:中文 + 英文
- 类型:同行评审期刊论文 + 权威专著
- 相关性:直接讨论 [核心构念] 的文献
**排除**:
- 未发表的工作论文(除非是顶级学者的)
- 纯方法论文献(除非对测量方式有直接影响)
## 已形成的初步判断
[你现在对这个领域最重要的 3-5 个判断,
哪怕是初步的、不确定的也写下来]
## 矛盾监控重点
特别关注以下争议,遇到相关内容时优先标注:
1. [争议A]:目前文献在这个问题上有分歧
2. [争议B]:测量方式的分歧
3. [争议C]:因果方向的争议
## wiki 约定
- 每篇文献对应一个来源页(wiki/entities/papers/)
- 作者有独立实体页(wiki/entities/authors/)
- 同一构念的不同操作化定义,放在该构念页的"测量争议"一节
- 发现矛盾时,不判断对错,双方来源和论据都要标注
- 我的研究贡献定位,维护在 wiki/my-research/contribution.md
文献笔记模板:这是整个系统的质量基础
这是最关键的一步。你的文献笔记写得好,整个系统的产出质量就高。
很多人的文献笔记是摘抄机器——把论文里的句子复制进去。这对 AI 的帮助非常有限,因为 AI 不知道你认为什么重要、你有什么疑问、你发现了什么矛盾。
正确的文献笔记,是你读这篇论文之后的理解产物,不是论文的镜像。
Markdown
---
# 文献基本信息(供 AI 提取实体用)
paper_id: chen-2023-attention-fragmentation
title: "Digital Attention Fragmentation: A Longitudinal Study"
authors: [陈某某, 李某某, Smith J.]
year: 2023
journal: "Journal of Applied Psychology"
doi: 10.xxx/xxx
methodology: 纵向问卷研究(N=1,847,追踪 18 个月)
data_collection: 2021-2022,中国和美国双样本
---
# 陈某某等(2023):数字注意力碎片化研究
## 一句话总结
这篇文章用纵向设计证明了智能手机使用频率
与工作注意力碎片化程度之间的因果关系(而非仅仅相关)。
## 核心论点
**他们主张**:高频率切换 App 的行为(操作化为每小时切换次数)
会在 6 个月内显著增加认知碎片化程度(用持续注意力测试测量)。
**他们的贡献**:首次用纵向设计排除了反向因果
(不是注意力差的人才多用手机,而是手机使用导致注意力变差)。
## 关键数据
- β = 0.34(p < 0.001):App 切换频率 → 注意力碎片化
- 效应在控制了基线注意力、焦虑、睡眠质量后仍然显著
- 中美样本结果一致,说明跨文化稳健性较强
- 中介变量:工作记忆负荷(β = 0.21)是主要中介
## 理论框架
使用了注意力恢复理论(ART)+ 资源损耗理论(ERT)。
有意思的是:他们用 ART 预测,但数据更好地支持了 ERT。
这个不一致在讨论部分被作者承认,但解释得比较含糊。
## 测量方式(这很重要)
- 自变量:日志 App 记录的实际 App 切换次数/小时
(这比自我报告强多了,是本文的方法论亮点之一)
- 因变量:持续注意力测试(CPT),5 分钟版本
- 中介变量:工作记忆广度测试(Operation Span Task)
## 我的判断(读完的真实想法)
**强项**:纵向设计 + 客观测量自变量,因果推断比大多数同类研究强得多。
**弱项**:
1. 样本全是白领知识工作者,外部效度受限
2. 只追踪了 18 个月,不知道效应是否会饱和或反转
3. 没有区分主动切换(我选择切换)vs 被动切换(通知打断),
但这两种机制可能完全不同
**我认为**:这篇文章的方法比结论更有价值。
它展示了怎么用行为日志数据做注意力研究,值得借鉴。
## 与其他文献的潜在关联
**支持关系**:
- 和 [[王某某-2022]] 的横截面研究结论一致,
但本文提供了更强的因果证据
- 支持 [[注意力资源理论]] 的基本框架
**矛盾关系**:
- 和 [[Johnson-2024]] 冲突!Johnson 的元分析认为效应量很小(d=0.12),
但本文报告的 β=0.34 换算成 d 大约是 0.40,差了三倍多
可能原因:Johnson 的元分析包含了大量低质量研究,拉低了平均效应
需要追查:Johnson 的纳入标准是什么?
**理论上的位置**:
- 这篇文章是"注意力碎片化有害论"阵营里方法最强的一篇
- 但它没有讨论对策,所以不能直接引用来支持干预措施
## 我的问题(读完后还没解决的)
1. App 切换和注意力的因果方向已经确定了,但切换的什么
让注意力变差?是切换本身、还是不同 App 的内容差异?
2. 如果把通知关掉,效应会消失吗?(论文没有测试这个)
## 引用这篇文章适合的场景
**适合引用的场景**:
- 需要"数字设备使用影响注意力"的因果证据时
- 讨论行为日志数据在心理学研究中的应用时
**不适合引用的场景**:
- 讨论主动 vs 被动中断的区别时(本文没区分)
- 讨论非知识工作者群体时(样本限制)
## 如果我要反驳这篇文章
最弱的地方:只追踪了 18 个月,且没有测试干预措施是否能逆转效应。
可以说:陈等人(2023)建立了短期影响,但长期轨迹和可逆性尚不清楚。
这个模板的关键是最后两节——"适合引用的场景"和"如果我要反驳"。这两节让 AI 在做 query 的时候能精确判断这篇文献适合在什么地方用。
Ingest 流程:从笔记到知识图谱
第一次 ingest(建立基础)
text
ingest papers/chen-2023-attention-fragmentation.md
第一篇文献 ingest 之后,wiki 里会生成:
实体页(自动生成):
wiki/entities/authors/陈某某.mdwiki/entities/journals/journal-of-applied-psychology.mdwiki/entities/theories/注意力恢复理论.mdwiki/entities/theories/资源损耗理论.mdwiki/entities/constructs/注意力碎片化.md(含测量方式)
来源页(自动生成):
wiki/entities/papers/chen-2023.md
问题页(来自我的疑问):
wiki/questions/主动vs被动中断的区别.md
第五篇 ingest 时:矛盾开始出现
当你 ingest 到 Johnson-2024 的元分析时(我在 chen-2023 笔记里已经预告了这个矛盾),系统会在 wiki/entities/constructs/注意力碎片化.md 里自动生成:
Markdown
> [!contradiction] 效应量的严重分歧
>
> **陈某某等(2023)的发现**:
> App 切换频率对注意力碎片化的效应 β = 0.34(换算 d ≈ 0.40)
> 方法:纵向设计,N=1,847,客观行为日志测量
> 来源:[[chen-2023-attention-fragmentation]]
>
> **Johnson 等(2024)元分析的发现**:
> 数字设备使用对注意力的平均效应 d = 0.12(95% CI: 0.08-0.16)
> 方法:元分析,k=67 项研究,N=23,400+
> 来源:[[johnson-2024-meta-analysis]]
>
> **分歧的可能解释**(来自读者笔记):
> Johnson 元分析纳入了大量低质量研究(含横截面、自我报告自变量),
> 可能因纳入偏差拉低了平均效应量。
> 需要追查 Johnson 的纳入标准。
>
> **待解决**:
> 这两个数字哪个更代表真实效应?应如何在综述中呈现这个分歧?
这个 [!contradiction] callout,就是你答辩前需要正面处理的东西。现在它在你读第五篇文献的时候就出现了,而不是在答辩前夕被导师指出来。
第二十篇 ingest 后:理论谱系自动成型
当你完成 20 篇文献的 ingest,执行 query:
text
what do you know about 注意力碎片化研究的理论发展脉络
Claude 读取了所有已有的 wiki 页面,给出一个你从来没有"主动整理过"的答案:
text
注意力碎片化研究可以被梳理成三代理论框架:
第一代(2000-2010):单任务最优假说
核心文献:[[pashler-2000]], [[rubinstein-2001]]
基本观点:任务切换有不可避免的认知代价
第二代(2010-2018):习惯化和适应性假说
核心文献:[[ophir-2009]], [[uncapher-2016]]
基本观点:重度多任务者发展出不同的认知策略
内部争议:这种"不同"是适应性的还是损伤性的?
(见 [[多任务适应性争议]])
第三代(2018-今):因果机制研究
核心文献:[[chen-2023]], [[keles-2020]], [[mark-2023]]
基本观点:开始用纵向和实验设计确立因果关系
当前前沿:干预措施的有效性(证据仍然薄弱)
你的研究定位:
根据 wiki/my-research/contribution.md,你的研究属于第三代,
聚焦于[你的具体贡献]。
与现有第三代研究的主要差异是[差异点]。
这个谱系,是 20 篇文献的 ingest 之后自动涌现的——你没有主动整理它,它是知识图谱自然生长出来的。
矛盾地图:文献综述的骨架
完成 60-70% 的文献 ingest 之后,执行:
text
基于目前 wiki 里的所有文献,
生成这个领域的"核心争议地图",
列出所有重要分歧,每个分歧标注:
支持方文献 + 反对方文献 + 分歧的可能来源
这个矛盾地图,会成为你文献综述的写作骨架。
一个真实的学术文献综述,核心结构应该是:
"在 [核心问题] 上,学界存在 [N] 个主要分歧……第一个分歧是……支持方认为……(引文),反对方认为……(引文),分歧的根源可能在于……"
这种结构,比"A 认为…,B 认为…,C 认为…"的平铺更有深度,也更能展现你真正读懂了这个领域。
矛盾地图直接提供了这个结构。
五种最常见的学术矛盾类型,以及如何处理
在 ingest 了 80+ 篇文献之后,我发现学术文献里的矛盾大致分为五类,处理方式各不相同:
类型 1:效应量分歧
表现:同一个变量关系,不同研究得出数值差异很大的效应量 处理方式:找调节变量(样本特征、测量方式、研究情境的差异)
系统会在矛盾 callout 里自动提示:
Markdown
> [!contradiction] 效应量分歧
> [标注两篇文献的效应量]
> 可能调节因素:[列出两篇文章在样本/测量/情境上的差异]
你需要做的:追查调节变量,写一段"为什么效应量会不一致"的综合分析。
类型 2:因果方向争议
表现:A 导致 B?还是 B 导致 A?还是都不导致对方,而是有共同原因 C? 处理方式:看研究设计——只有随机实验和纵向设计能真正区分因果方向
系统处理方式:
Markdown
> [!contradiction] 因果方向存疑
> [[文献A]](横截面):X 与 Y 正相关
> [[文献B]](纵向):X → Y(控制基线后仍显著)
> [[文献C]](实验):操纵 X 没有改变 Y
>
> 三种研究设计的结论不一致,建议优先信任实验和纵向数据。
类型 3:构念定义分歧
表现:两篇文章都研究"X",但对 X 的定义完全不同,本质上是在研究不同的东西 处理方式:这不是真正的"矛盾",而是"概念混淆",需要在综述里明确区分
这是最危险的类型,因为表面上看起来是矛盾,实际上是"鸡同鸭讲"。
系统会在 wiki/entities/constructs/ 对应的构念页里标注:
Markdown
> [!warning] 构念定义分歧
> 这个构念在文献里有 [N] 种不同定义:
> 定义 A([[文献1]], [[文献2]]):[定义内容]
> 定义 B([[文献3]], [[文献4]]):[定义内容]
> 定义 C([[文献5]]):[定义内容]
>
> 建议:在你的研究中明确采用哪种定义,
> 并说明排除其他定义的理由。
类型 4:跨文化/跨情境分歧
表现:在西方样本成立的结论,在中国样本不成立,反之亦然 处理方式:标注情境条件,在综述中明确讨论边界条件
类型 5:新旧理论的范式冲突
表现:新兴理论框架和经典理论在基本假设上就不同,导致结论不可直接比较 处理方式:这需要一个"元理论"层面的分析,通常是综述里最有价值的部分
三个最常用的 query,解决文献综述写作的三大难题
难题 1:这个论点有几篇文献支持?
text
什么文献支持"数字设备使用导致注意力碎片化"这个论点?
按证据强度排序,并说明每篇的方法论优劣。
Claude 的回答会引用具体 wiki 页面,按实验/纵向/横截面的设计强度排序,并综合你在每篇笔记里写的"我的判断"来评估质量。
难题 2:我的研究和已有文献有什么关系?
text
基于 wiki 里的所有文献,
分析我的研究(见 wiki/my-research/contribution.md)
在现有文献图谱里处于什么位置:
- 哪些文献支持我的理论预设?
- 哪些文献的结论和我的预期相反?
- 哪个研究空白是我最直接填补的?
这个 query 可以直接帮你写"研究贡献"那一段——文章/论文里最难写、也最容易写得空洞的部分。
难题 3:我还缺什么文献?
text
lint the wiki
然后:
基于目前的文献图谱,
哪些重要的理论观点或争议立场,
目前我读过的文献里还没有代表性文章?
第一个命令做健康检查,发现孤儿页(被引用但没有读过的文献)。第二个命令从知识图谱的完整性角度分析你的阅读盲区。
两者结合,给你一份"还需要读什么"的精准清单——比"再多读一些相关文献"有用一百倍。
autoresearch:填补文献盲区的快速工具
text
/autoresearch [具体问题] 学术文献 2020-2026
注意要在后面加上"学术文献"和时间范围,让 autoresearch 知道你要的是学术来源,不是博客文章。
适合用 autoresearch 的场景:
发现了一个你之前不知道的理论方向,需要快速了解基础文献 矛盾 callout 里提到了你还没读过的文献,需要快速获取它的基本观点 导师提到了一个你不熟悉的流派,需要在 24 小时内了解清楚
不适合用 autoresearch 的场景:
替代认真读原文(autoresearch 是入门,不是终点) 直接引用其结果(务必追查原始来源)
与写作工具的衔接:从 wiki 到论文草稿
知识图谱建好之后,写文献综述的流程:
第一步:生成综述骨架(10 分钟)
text
基于 wiki 里的所有内容,
为"数字注意力碎片化"方向的文献综述
生成一个三级标题结构,
每个标题下注明:
主要论点、代表性文献(3-5 篇)、
需要处理的矛盾(来自 [!contradiction] callout)
第二步:逐节写作(真正需要你的部分)
按骨架逐节写,每写一节前先 query 一次:
text
what do you know about [这一节的核心概念],
特别关注争议和矛盾
用 query 的结果作为参考,用你自己的话写出来。
第三步:查漏补缺(写完后)
text
检查 wiki/my-research/contribution.md,
对比我的综述草稿(output/literature-review/draft-v1.md),
有没有重要的矛盾或争议在综述里没有被处理?
真实数据:一篇硕士论文的文献综述是怎么完成的
我帮一位朋友(硕士生,研究社交媒体与青少年心理健康)用这套系统做完了她的文献综述。
时间线和数据:
text
第 1-2 周:建立 vault,写前 20 篇文献笔记并 ingest
第 3-4 周:继续 ingest,共完成 65 篇文献
第 5 周:生成矛盾地图,执行 autoresearch 填补 3 个盲区
第 6 周:基于 wiki 生成骨架,开始写作
第 7 周:完成综述初稿(约 12,000 字)
最终产出:
- wiki 页面总数:287 个
- 自动检测的矛盾:31 处
- 其中答辩时被委员问到的:4 处(全部已在综述中处理)
- 综述写作耗时:从传统的 6-8 周压缩到 3 周
- 导师评语(原话):"这是我指导过的综述里,
对领域内争议梳理得最清楚的一篇。"
最后那句导师评语,不是因为她比别人聪明。
是因为这套系统,让她看到了别人没有主动去找的矛盾。
给想开始的研究者:最小起点
你现在手头有文献。先做这一件事:
text
把你最近读过的、觉得最重要的 3 篇文献,
用上面的模板写成笔记,
ingest 进去,
然后问:what do you know about [你的核心构念]
如果你的 3 篇文献里有矛盾,你会在第一次 query 的结果里看到它被标注出来。
那个矛盾,就是你综述里最值得写深的地方。
最后
有一种误解,我需要澄清:
这套系统不会让你的研究变浅,它会让你的研究变深。
浅的研究来自于:没有时间处理所有文献、没有能力发现隐藏的矛盾、没有空间思考真正的研究贡献。
这套系统消灭的,是信息处理的成本,而不是思考的必要。
矛盾被标注出来了,但如何解释矛盾,是你的事。
理论谱系被梳理出来了,但你的研究在哪里有贡献,是你的事。
骨架被生成了,但综述里那些让人信服的分析和判断,是你的事。
AI 替你管理信息,但替代不了你的学术判断。
这个分工,才是对的。
👇 如果你想继续跟着做:
关注「一只阿木木」,我们在 AI 时代一起构建自己的知识系统。
本文基于 claude-obsidian 项目(GitHub: AgriciDaniel/claude-obsidian,MIT 协议开源)实测撰写。文献数据基于真实文献综述项目,人名经过匿名处理。
扫码加入行动营👇获取更多Obsidian + AI数字大脑实践

关注【一只阿木木】。
我相信:在 AI 时代,每个普通人都该拥有一个自动生长的知识系统
去做,才是真的学。🌊
夜雨聆风