用 AI 自动维护一个会＂标矛盾＂的文献综述库

学术写作者的福音

——用 AI 自动维护一个会"标矛盾"的文献综述库

作者：一只阿木木 我相信：在 AI 时代，每个普通人都该拥有一个自动生长的知识系统。

你答辩过吗

你有没有经历过这种时刻：

论文答辩前夕，导师突然问你："你有没有考虑过 XX 和 YY 这两篇文章的结论是矛盾的？你的研究怎么处理这个矛盾？"

你愣了三秒。你读过这两篇文章，但你完全没有意识到它们之间有矛盾。

然后你花了两天时间重新翻文献，发现确实有矛盾，还发现了另外四处你之前没注意到的矛盾。你把综述大改了一遍，差点延期答辩。

或者另一种场景：你在写文献综述，写到第 30 篇文章的时候，你已经忘记第 8 篇说了什么。你知道你在某篇文章里读到过一个相关的数据，但完全想不起来是哪一篇，在哪一页。你花了四个小时找这个数据，最后发现它就在你的 Zotero 笔记里，但你当时写的备注太简单，根本看不出来它在哪里有用。

这两个场景，是文献管理最经典的两种失败：矛盾检测失败和知识检索失败。

它们不是研究能力的问题，是工具的问题。

今天这篇文章，我要带你建立一个真正能用的文献综述库——一个会自动标矛盾、自动建连接、随时能回答"你读过哪些文献支持这个观点"的系统。

文献管理的现状：Zotero 解决了存储，但没有解决理解

我不打算否定 Zotero。它是目前最好的文献存储工具，没有之一。

但 Zotero 解决的问题是：把文献存进来，并且找得到。

它没有解决的问题是：理解文献之间的关系。

具体来说，Zotero 不能告诉你：

这 50 篇文献里，哪些在同一个问题上得出了矛盾的结论？
哪些文献形成了一个"理论谱系"，互相引用、互相发展？
当你写到某个论点时，哪些文献支持它，哪些文献反对它？
你的研究在已有文献图谱里处于什么位置？

这些问题，是文献综述真正困难的地方。

claude-obsidian 做的，正是在 Zotero 做存储的基础上，建立这一层理解网络。

系统设计：两层架构，各司其职

整个文献管理系统是两层架构：

text

第一层：Zotero（存储层）
   负责：PDF 存储、引用格式、DOI 管理、Zotero 同步
   不负责：文献之间的关系、矛盾检测、知识综合

第二层：claude-obsidian（理解层）
   负责：文献笔记 ingest、实体提取、矛盾检测、知识综合
   不负责：PDF 存储和引用格式（这些留给 Zotero）

两层之间的接口：结构化文献笔记（.raw/papers/）

这种设计的好处是：你不需要放弃 Zotero。两个系统并行运行，各自做自己最擅长的事。

Vault 结构：为学术写作定制

text

literature-vault/
├── .raw/
│   ├── papers/              # 文献笔记（核心输入）
│   │   ├── {作者-年份-关键词}.md
│   │   └── ...
│   ├── books/               # 学术专著笔记
│   ├── conference/          # 会议论文笔记
│   └── grey/                # 灰色文献（报告、政策文件）
│
├── wiki/
│   ├── entities/
│   │   ├── authors/         # 作者实体页（学术谱系）
│   │   ├── journals/        # 期刊实体页（影响力 + 立场）
│   │   ├── theories/        # 理论实体页（来源 + 演化）
│   │   └── constructs/      # 构念实体页（定义 + 测量方式）
│   ├── concepts/            # 跨文献的核心概念
│   ├── synthesis/
│   │   ├── debate-maps/     # 争议地图（最重要）
│   │   ├── theory-lineages/ # 理论谱系
│   │   └── meta-findings/   # 元分析发现
│   ├── my-research/         # 我的研究定位（和已有文献的关系）
│   ├── questions/           # 待解决的研究问题
│   ├── index.md
│   └── hot.md
│
├── output/
│   ├── literature-review/   # 综述草稿
│   ├── proposal/            # 开题报告
│   └── paper-drafts/        # 论文草稿
│
└── CLAUDE.md                # 研究背景 + 核心问题 + 边界定义

CLAUDE.md：把你的研究语境告诉 AI

每次 Claude 启动都会读这个文件。写好它，等于每次 Claude 都带着对你研究的完整理解在工作。

我的模板（替换括号里的内容为你自己的研究）：

Markdown

# 文献综述项目：[你的研究主题]

## 研究问题（RQ）

RQ1: [核心研究问题]
RQ2: [子问题]
RQ3: [子问题]

## 研究背景

[3-5 句话描述你的研究领域和背景，
让 Claude 知道你在什么学科、什么子领域]

## 关键词体系

**核心概念**：[概念1, 概念2, 概念3]
**同义词/近义词映射**：
- [概念1] = [同义表达A] = [同义表达B]
  （这很重要，防止 AI 把同一个概念的不同表述当成不同概念）
- [概念2] = ...

## 理论框架预设

我倾向使用的理论视角：[XXX 理论]
我已经排除的视角：[YYY 框架]（原因：...）

## 文献纳入/排除标准

**纳入**：
- 时间范围：[起始年份] 至今
- 语言：中文 + 英文
- 类型：同行评审期刊论文 + 权威专著
- 相关性：直接讨论 [核心构念] 的文献

**排除**：
- 未发表的工作论文（除非是顶级学者的）
- 纯方法论文献（除非对测量方式有直接影响）

## 已形成的初步判断

[你现在对这个领域最重要的 3-5 个判断，
哪怕是初步的、不确定的也写下来]

## 矛盾监控重点

特别关注以下争议，遇到相关内容时优先标注：
1. [争议A]：目前文献在这个问题上有分歧
2. [争议B]：测量方式的分歧
3. [争议C]：因果方向的争议

## wiki 约定

- 每篇文献对应一个来源页（wiki/entities/papers/）
- 作者有独立实体页（wiki/entities/authors/）
- 同一构念的不同操作化定义，放在该构念页的"测量争议"一节
- 发现矛盾时，不判断对错，双方来源和论据都要标注
- 我的研究贡献定位，维护在 wiki/my-research/contribution.md

文献笔记模板：这是整个系统的质量基础

这是最关键的一步。你的文献笔记写得好，整个系统的产出质量就高。

很多人的文献笔记是摘抄机器——把论文里的句子复制进去。这对 AI 的帮助非常有限，因为 AI 不知道你认为什么重要、你有什么疑问、你发现了什么矛盾。

正确的文献笔记，是你读这篇论文之后的理解产物，不是论文的镜像。

Markdown

---
# 文献基本信息（供 AI 提取实体用）
paper_id: chen-2023-attention-fragmentation
title: "Digital Attention Fragmentation: A Longitudinal Study"
authors: [陈某某, 李某某, Smith J.]
year: 2023
journal: "Journal of Applied Psychology"
doi: 10.xxx/xxx
methodology: 纵向问卷研究（N=1,847，追踪 18 个月）
data_collection: 2021-2022，中国和美国双样本
---

# 陈某某等（2023）：数字注意力碎片化研究

## 一句话总结

这篇文章用纵向设计证明了智能手机使用频率
与工作注意力碎片化程度之间的因果关系（而非仅仅相关）。

## 核心论点

**他们主张**：高频率切换 App 的行为（操作化为每小时切换次数）
会在 6 个月内显著增加认知碎片化程度（用持续注意力测试测量）。

**他们的贡献**：首次用纵向设计排除了反向因果
（不是注意力差的人才多用手机，而是手机使用导致注意力变差）。

## 关键数据

- β = 0.34（p < 0.001）：App 切换频率 → 注意力碎片化
- 效应在控制了基线注意力、焦虑、睡眠质量后仍然显著
- 中美样本结果一致，说明跨文化稳健性较强
- 中介变量：工作记忆负荷（β = 0.21）是主要中介

## 理论框架

使用了注意力恢复理论（ART）+ 资源损耗理论（ERT）。
有意思的是：他们用 ART 预测，但数据更好地支持了 ERT。
这个不一致在讨论部分被作者承认，但解释得比较含糊。

## 测量方式（这很重要）

- 自变量：日志 App 记录的实际 App 切换次数/小时
  （这比自我报告强多了，是本文的方法论亮点之一）
- 因变量：持续注意力测试（CPT），5 分钟版本
- 中介变量：工作记忆广度测试（Operation Span Task）

## 我的判断（读完的真实想法）

**强项**：纵向设计 + 客观测量自变量，因果推断比大多数同类研究强得多。

**弱项**：
1. 样本全是白领知识工作者，外部效度受限
2. 只追踪了 18 个月，不知道效应是否会饱和或反转
3. 没有区分主动切换（我选择切换）vs 被动切换（通知打断），
   但这两种机制可能完全不同

**我认为**：这篇文章的方法比结论更有价值。
它展示了怎么用行为日志数据做注意力研究，值得借鉴。

## 与其他文献的潜在关联

**支持关系**：
- 和 [[王某某-2022]] 的横截面研究结论一致，
  但本文提供了更强的因果证据
- 支持 [[注意力资源理论]] 的基本框架

**矛盾关系**：
- 和 [[Johnson-2024]] 冲突！Johnson 的元分析认为效应量很小（d=0.12），
  但本文报告的 β=0.34 换算成 d 大约是 0.40，差了三倍多
  可能原因：Johnson 的元分析包含了大量低质量研究，拉低了平均效应
  需要追查：Johnson 的纳入标准是什么？

**理论上的位置**：
- 这篇文章是"注意力碎片化有害论"阵营里方法最强的一篇
- 但它没有讨论对策，所以不能直接引用来支持干预措施

## 我的问题（读完后还没解决的）

1. App 切换和注意力的因果方向已经确定了，但切换的什么
   让注意力变差？是切换本身、还是不同 App 的内容差异？
2. 如果把通知关掉，效应会消失吗？（论文没有测试这个）

## 引用这篇文章适合的场景

**适合引用的场景**：
- 需要"数字设备使用影响注意力"的因果证据时
- 讨论行为日志数据在心理学研究中的应用时

**不适合引用的场景**：
- 讨论主动 vs 被动中断的区别时（本文没区分）
- 讨论非知识工作者群体时（样本限制）

## 如果我要反驳这篇文章

最弱的地方：只追踪了 18 个月，且没有测试干预措施是否能逆转效应。
可以说：陈等人（2023）建立了短期影响，但长期轨迹和可逆性尚不清楚。

这个模板的关键是最后两节——"适合引用的场景"和"如果我要反驳"。这两节让 AI 在做 query 的时候能精确判断这篇文献适合在什么地方用。

Ingest 流程：从笔记到知识图谱

第一次 ingest（建立基础）

text

ingest papers/chen-2023-attention-fragmentation.md

第一篇文献 ingest 之后，wiki 里会生成：

实体页（自动生成）：

wiki/entities/authors/陈某某.md
wiki/entities/journals/journal-of-applied-psychology.md
wiki/entities/theories/注意力恢复理论.md
wiki/entities/theories/资源损耗理论.md
wiki/entities/constructs/注意力碎片化.md（含测量方式）

来源页（自动生成）：

wiki/entities/papers/chen-2023.md

问题页（来自我的疑问）：

wiki/questions/主动vs被动中断的区别.md

第五篇 ingest 时：矛盾开始出现

当你 ingest 到 Johnson-2024 的元分析时（我在 chen-2023 笔记里已经预告了这个矛盾），系统会在 wiki/entities/constructs/注意力碎片化.md 里自动生成：

Markdown

> [!contradiction] 效应量的严重分歧
>
> **陈某某等（2023）的发现**：
> App 切换频率对注意力碎片化的效应 β = 0.34（换算 d ≈ 0.40）
> 方法：纵向设计，N=1,847，客观行为日志测量
> 来源：[[chen-2023-attention-fragmentation]]
>
> **Johnson 等（2024）元分析的发现**：
> 数字设备使用对注意力的平均效应 d = 0.12（95% CI: 0.08-0.16）
> 方法：元分析，k=67 项研究，N=23,400+
> 来源：[[johnson-2024-meta-analysis]]
>
> **分歧的可能解释**（来自读者笔记）：
> Johnson 元分析纳入了大量低质量研究（含横截面、自我报告自变量），
> 可能因纳入偏差拉低了平均效应量。
> 需要追查 Johnson 的纳入标准。
>
> **待解决**：
> 这两个数字哪个更代表真实效应？应如何在综述中呈现这个分歧？

这个 [!contradiction] callout，就是你答辩前需要正面处理的东西。现在它在你读第五篇文献的时候就出现了，而不是在答辩前夕被导师指出来。

第二十篇 ingest 后：理论谱系自动成型

当你完成 20 篇文献的 ingest，执行 query：

text

what do you know about 注意力碎片化研究的理论发展脉络

Claude 读取了所有已有的 wiki 页面，给出一个你从来没有"主动整理过"的答案：

text

注意力碎片化研究可以被梳理成三代理论框架：

第一代（2000-2010）：单任务最优假说
核心文献：[[pashler-2000]], [[rubinstein-2001]]
基本观点：任务切换有不可避免的认知代价

第二代（2010-2018）：习惯化和适应性假说
核心文献：[[ophir-2009]], [[uncapher-2016]]
基本观点：重度多任务者发展出不同的认知策略
内部争议：这种"不同"是适应性的还是损伤性的？
（见 [[多任务适应性争议]]）

第三代（2018-今）：因果机制研究
核心文献：[[chen-2023]], [[keles-2020]], [[mark-2023]]
基本观点：开始用纵向和实验设计确立因果关系
当前前沿：干预措施的有效性（证据仍然薄弱）

你的研究定位：
根据 wiki/my-research/contribution.md，你的研究属于第三代，
聚焦于[你的具体贡献]。
与现有第三代研究的主要差异是[差异点]。

这个谱系，是 20 篇文献的 ingest 之后自动涌现的——你没有主动整理它，它是知识图谱自然生长出来的。

矛盾地图：文献综述的骨架

完成 60-70% 的文献 ingest 之后，执行：

text

基于目前 wiki 里的所有文献，
生成这个领域的"核心争议地图"，
列出所有重要分歧，每个分歧标注：
支持方文献 + 反对方文献 + 分歧的可能来源

这个矛盾地图，会成为你文献综述的写作骨架。

一个真实的学术文献综述，核心结构应该是：

"在 [核心问题] 上，学界存在 [N] 个主要分歧……第一个分歧是……支持方认为……（引文），反对方认为……（引文），分歧的根源可能在于……"

这种结构，比"A 认为…，B 认为…，C 认为…"的平铺更有深度，也更能展现你真正读懂了这个领域。

矛盾地图直接提供了这个结构。

五种最常见的学术矛盾类型，以及如何处理

在 ingest 了 80+ 篇文献之后，我发现学术文献里的矛盾大致分为五类，处理方式各不相同：

类型 1：效应量分歧

表现：同一个变量关系，不同研究得出数值差异很大的效应量 处理方式：找调节变量（样本特征、测量方式、研究情境的差异）

系统会在矛盾 callout 里自动提示：

Markdown

> [!contradiction] 效应量分歧
> [标注两篇文献的效应量]
> 可能调节因素：[列出两篇文章在样本/测量/情境上的差异]

你需要做的：追查调节变量，写一段"为什么效应量会不一致"的综合分析。

类型 2：因果方向争议

表现：A 导致 B？还是 B 导致 A？还是都不导致对方，而是有共同原因 C？ 处理方式：看研究设计——只有随机实验和纵向设计能真正区分因果方向

系统处理方式：

Markdown

> [!contradiction] 因果方向存疑
> [[文献A]]（横截面）：X 与 Y 正相关
> [[文献B]]（纵向）：X → Y（控制基线后仍显著）
> [[文献C]]（实验）：操纵 X 没有改变 Y
> 
> 三种研究设计的结论不一致，建议优先信任实验和纵向数据。

类型 3：构念定义分歧

表现：两篇文章都研究"X"，但对 X 的定义完全不同，本质上是在研究不同的东西 处理方式：这不是真正的"矛盾"，而是"概念混淆"，需要在综述里明确区分

这是最危险的类型，因为表面上看起来是矛盾，实际上是"鸡同鸭讲"。

系统会在 wiki/entities/constructs/ 对应的构念页里标注：

Markdown

> [!warning] 构念定义分歧
> 这个构念在文献里有 [N] 种不同定义：
> 定义 A（[[文献1]], [[文献2]]）：[定义内容]
> 定义 B（[[文献3]], [[文献4]]）：[定义内容]
> 定义 C（[[文献5]]）：[定义内容]
> 
> 建议：在你的研究中明确采用哪种定义，
> 并说明排除其他定义的理由。

类型 4：跨文化/跨情境分歧

表现：在西方样本成立的结论，在中国样本不成立，反之亦然 处理方式：标注情境条件，在综述中明确讨论边界条件

类型 5：新旧理论的范式冲突

表现：新兴理论框架和经典理论在基本假设上就不同，导致结论不可直接比较 处理方式：这需要一个"元理论"层面的分析，通常是综述里最有价值的部分

三个最常用的 query，解决文献综述写作的三大难题

难题 1：这个论点有几篇文献支持？

text

什么文献支持"数字设备使用导致注意力碎片化"这个论点？
按证据强度排序，并说明每篇的方法论优劣。

Claude 的回答会引用具体 wiki 页面，按实验/纵向/横截面的设计强度排序，并综合你在每篇笔记里写的"我的判断"来评估质量。

难题 2：我的研究和已有文献有什么关系？

text

基于 wiki 里的所有文献，
分析我的研究（见 wiki/my-research/contribution.md）
在现有文献图谱里处于什么位置：
- 哪些文献支持我的理论预设？
- 哪些文献的结论和我的预期相反？
- 哪个研究空白是我最直接填补的？

这个 query 可以直接帮你写"研究贡献"那一段——文章/论文里最难写、也最容易写得空洞的部分。

难题 3：我还缺什么文献？

text

lint the wiki

然后：
基于目前的文献图谱，
哪些重要的理论观点或争议立场，
目前我读过的文献里还没有代表性文章？

第一个命令做健康检查，发现孤儿页（被引用但没有读过的文献）。第二个命令从知识图谱的完整性角度分析你的阅读盲区。

两者结合，给你一份"还需要读什么"的精准清单——比"再多读一些相关文献"有用一百倍。

autoresearch：填补文献盲区的快速工具

text

/autoresearch [具体问题] 学术文献 2020-2026

注意要在后面加上"学术文献"和时间范围，让 autoresearch 知道你要的是学术来源，不是博客文章。

适合用 autoresearch 的场景：

发现了一个你之前不知道的理论方向，需要快速了解基础文献
矛盾 callout 里提到了你还没读过的文献，需要快速获取它的基本观点
导师提到了一个你不熟悉的流派，需要在 24 小时内了解清楚

不适合用 autoresearch 的场景：

替代认真读原文（autoresearch 是入门，不是终点）
直接引用其结果（务必追查原始来源）

与写作工具的衔接：从 wiki 到论文草稿

知识图谱建好之后，写文献综述的流程：

第一步：生成综述骨架（10 分钟）

text

基于 wiki 里的所有内容，
为"数字注意力碎片化"方向的文献综述
生成一个三级标题结构，
每个标题下注明：
主要论点、代表性文献（3-5 篇）、
需要处理的矛盾（来自 [!contradiction] callout）

第二步：逐节写作（真正需要你的部分）

按骨架逐节写，每写一节前先 query 一次：

text

what do you know about [这一节的核心概念]，
特别关注争议和矛盾

用 query 的结果作为参考，用你自己的话写出来。

第三步：查漏补缺（写完后）

text

检查 wiki/my-research/contribution.md，
对比我的综述草稿（output/literature-review/draft-v1.md），
有没有重要的矛盾或争议在综述里没有被处理？

真实数据：一篇硕士论文的文献综述是怎么完成的

我帮一位朋友（硕士生，研究社交媒体与青少年心理健康）用这套系统做完了她的文献综述。

时间线和数据：

text

第 1-2 周：建立 vault，写前 20 篇文献笔记并 ingest
第 3-4 周：继续 ingest，共完成 65 篇文献
第 5 周：生成矛盾地图，执行 autoresearch 填补 3 个盲区
第 6 周：基于 wiki 生成骨架，开始写作
第 7 周：完成综述初稿（约 12,000 字）

最终产出：
- wiki 页面总数：287 个
- 自动检测的矛盾：31 处
- 其中答辩时被委员问到的：4 处（全部已在综述中处理）
- 综述写作耗时：从传统的 6-8 周压缩到 3 周
- 导师评语（原话）："这是我指导过的综述里，
  对领域内争议梳理得最清楚的一篇。"

最后那句导师评语，不是因为她比别人聪明。

是因为这套系统，让她看到了别人没有主动去找的矛盾。

给想开始的研究者：最小起点

你现在手头有文献。先做这一件事：

text

把你最近读过的、觉得最重要的 3 篇文献，
用上面的模板写成笔记，
ingest 进去，
然后问：what do you know about [你的核心构念]

如果你的 3 篇文献里有矛盾，你会在第一次 query 的结果里看到它被标注出来。

那个矛盾，就是你综述里最值得写深的地方。

最后

有一种误解，我需要澄清：

这套系统不会让你的研究变浅，它会让你的研究变深。

浅的研究来自于：没有时间处理所有文献、没有能力发现隐藏的矛盾、没有空间思考真正的研究贡献。

这套系统消灭的，是信息处理的成本，而不是思考的必要。

矛盾被标注出来了，但如何解释矛盾，是你的事。

理论谱系被梳理出来了，但你的研究在哪里有贡献，是你的事。

骨架被生成了，但综述里那些让人信服的分析和判断，是你的事。

AI 替你管理信息，但替代不了你的学术判断。

这个分工，才是对的。

👇 如果你想继续跟着做：

关注「一只阿木木」，我们在 AI 时代一起构建自己的知识系统。

本文基于 claude-obsidian 项目（GitHub: AgriciDaniel/claude-obsidian，MIT 协议开源）实测撰写。文献数据基于真实文献综述项目，人名经过匿名处理。

我是【一只阿木木】，AI 知识系统架构师，坐标杭州。

扫码加入行动营👇获取更多Obsidian + AI数字大脑实践

关注【一只阿木木】。

我相信：在 AI 时代，每个普通人都该拥有一个自动生长的知识系统

去做，才是真的学。🌊