先说我为什么要折腾这个东西。
我记忆力不太好,读过的文献经常会忘。不是完全忘掉,而是只剩下一点模糊印象:好像有篇文章用过某个方法,好像有篇文章的引言写法很好,好像某个变量构造可以借鉴。但具体是哪篇、怎么做的、原文怎么说的,就想不起来了。
另一个麻烦是:我没办法在很多 PDF 里有效搜索信息。
很多文献 PDF 并不一定已经喂给了 AI,所以直接问 AI,未必搜得到我自己文献库里的内容。即使 AI 给出答案,也未必适合我的研究场景。比如我做会计学研究,想找一篇使用某种方法的会计学论文,AI 可能给我推荐一篇教育学论文。它不是没用,但至少不是我的首选。
普通笔记软件当然也能用。比如用印象笔记、Notion、Obsidian,每次读完文献后自己做笔记,然后搜索。但问题是,普通搜索很依赖固定关键词。
比如我在笔记里写的是:
事务所固定效应
但下次我搜索:
audit firm fixed effects
或者手误搜成:
audi firm office fixed effect
就很可能搜不到。更不用说很多时候我根本不知道该搜什么词,只记得“有篇审计文章用了某种控制事务所层面差异的方法”。
所以我想做的是:把文献 PDF 转成 AI 能读、能处理、能帮我整理的材料,逐渐形成一个属于我自己的文献知识库。
这个设想不成熟,只是一个小实践。欢迎批评。
一、我用到的工具
我现在用的是:
CodexObsidianMarkItDownMarkdown 文件AGENTS.md
其中最关键的是 AGENTS.md。
你可以把 AGENTS.md 理解成“给 Codex 的长期工作说明书”。我不用每次都重新解释“我要什么格式的笔记”,而是把规则写进 AGENTS.md。以后我只要把 PDF 放进指定文件夹,然后对 Codex 说:
处理这个 PDF
Codex 就会按照规则读取 PDF,并生成我想要的 Markdown 笔记。
二、先建一个文献工作区
我会先建一个文件夹,比如:
我的文献库学习笔记/
里面放这些子文件夹:
临时PDF/全文转写MD/研究内容/写作/方法/
它们的作用分别是:
临时PDF/ 放这次要处理的 PDF全文转写MD/ 保存 PDF 转出来的全文 Markdown研究内容/ 保存研究内容笔记写作/ 保存 introduction 写作分析方法/ 保存方法设计笔记
最终结构大概是:
我的文献库学习笔记/ AGENTS.md 临时PDF/ xxx.pdf 全文转写MD/ 研究内容/ 写作/ 方法/
三、安装 MarkItDown
MarkItDown 是把 PDF 转成 Markdown 的工具。
如果你不想自己装,可以直接让 Codex 帮你装。我的做法是在工作区里建一个独立 Python 环境:
python -m venv .venv-markitdown
然后安装 PDF 转换相关依赖:
.\.venv-markitdown\Scripts\python.exe -m pip install "markitdown[pdf]"
安装好后,可以测试:
.\.venv-markitdown\Scripts\markitdown.exe --help
如果能看到帮助信息,说明装好了。
以后单篇 PDF 可以这样转:
.\.venv-markitdown\Scripts\markitdown.exe "临时PDF\论文.pdf" -o "全文转写MD\论文 - 全文.md"
不过实际使用时,我一般不自己手动敲这些命令,而是让 Codex 按规则自动做。
四、写 AGENTS.md:让 Codex 知道我要什么
这是整个流程的关键。
在工作区根目录新建一个文件:
AGENTS.md
里面写清楚规则。比如我会告诉 Codex:
这是一个会计学文献学习工作区。当我说“处理这个 PDF”时,请读取 临时PDF/ 中的 PDF,并生成四份 Markdown 文件:- 全文转写MD/文献标题 - 全文.md- 研究内容/文献标题 - 研究内容.md- 写作/文献标题 - 写作.md- 方法/文献标题 - 方法.md文件命名优先使用 PDF 正文中识别出的完整文献标题,不要默认使用作者年份。如果 PDF 损坏、加密、扫描版、乱码严重,或者标题无法可靠识别,请跳过并告诉我原因。内容必须只基于 PDF。不要编造文献、结论、变量、方法、DOI 或英文原句。如果 PDF 中没有明确说明,请写“文中未明确说明”。
然后继续写三类笔记的格式。
比如研究内容笔记:
# 文章标题 - 研究内容## 基本信息- 标题:- 作者:- 年份:- 期刊:- DOI:## 研究问题### 中文概括### 英文原句## 研究动机### 中文概括### 英文原句## 理论机制## 假设## 数据和样本## 变量## 研究设计## 主要发现## 主要贡献
写作笔记:
# 文章标题 - 写作## 1. 引言的核心写作路线## 2. 引言句子级推进方式## 3. Gap 写法## 4. 重要性写法## 5. 机制和张力写法## 6. Setting / Data 优势写法## 7. 可模仿的写作模板
方法笔记:
# 文章标题 - 方法## 1. 核心研究设计## 2. 非常规但值得学习的方法## 3. 固定效应设计## 4. 聚类标准误与推断方式## 5. 模型选择及其理由## 6. DID、事件研究和政策冲击设计## 7. 匹配、熵平衡和样本可比性## 8. 内生性、遗漏变量和替代解释## 9. 机制检验、调节检验和中介检验## 10. 经济显著性写法## 11. 结果不显著、结果变化和审稿质疑的处理## 12. 可以迁移到我研究中的方法清单
这样 Codex 以后就知道:我不是要普通摘要,而是要按我的学习方式生成笔记。
实际更复杂,太长了,我就不放这里了。
五、实际处理一篇 PDF
使用时很简单。
第一步,把 PDF 放进:
临时PDF/
第二步,在 Codex 里打开这个工作区。
第三步,对 Codex 说:
处理这个 PDF
Codex 会做几件事:
1. 读取 AGENTS.md2. 找到 临时PDF/ 里的 PDF3. 用正文识别文章标题4. 用 MarkItDown 转成全文 MD5. 阅读论文内容6. 生成研究内容笔记7. 生成写作笔记8. 生成方法笔记9. 告诉我生成了哪些文件,以及哪些地方需要人工复核
例如处理完一篇文章后,可能得到:
全文转写MD/The Silent Majority Private U.S. Firms and Financial Reporting Choices - 全文.md研究内容/The Silent Majority Private U.S. Firms and Financial Reporting Choices - 研究内容.md写作/The Silent Majority Private U.S. Firms and Financial Reporting Choices - 写作.md方法/The Silent Majority Private U.S. Firms and Financial Reporting Choices - 方法.md
六、三类笔记分别解决什么问题
1. 研究内容笔记:帮我记住这篇文章研究了什么
例如 The Silent Majority: Private U.S. Firms and Financial Reporting Choices 这篇文章,我的研究问题笔记可能是:
## 研究问题本文研究在没有公开财务报告强制要求的美国中大型私人企业中,哪些企业会自愿编制经审计的 GAAP 财务报表,以及企业规模、所有权分散、外部债务、内部债务、商业信用、资产有形性、成长性、研发和企业年龄等特征如何与这一财务报告选择相关。
这解决的是:我以后怎么快速想起这篇文章。
2. 写作笔记:帮我学习 introduction 怎么写
写作笔记不是总结内容,而是拆解作者的写作动作。
例如:
原句短摘:A significant challenge...中文意译:会计研究中的一个重要挑战,是观察企业财务报告选择背后的成本和收益。(写作功能:用领域内普遍存在的方法难题开场,不急着进入私人企业,而是先把研究问题提升到一般会计研究层面。)等等等,这里还有很多,我不列了。
每一段最后,我还会让 Codex 提炼“纯抽象版本”:
1. 先提出一个领域内普遍存在的观察难题。2. 说明常规制度环境为什么让这个问题难以研究。3. 用转折引出一个能观察真实选择的特殊 setting。4. 交代本文数据,并说明数据如何服务研究问题。
这样以后我写自己的 introduction 时,模仿的不是原句,而是写作结构。我的写作能力比较糟糕,只能勤能补拙了。大家可以不用这个部分。
3. 方法笔记:帮我捕捉可以迁移的方法细节
方法笔记关注变量、样本、模型和审稿应对。
例如:
变量名称:GAAP AUDIT构造方法:如果企业在 Schedule M-3 上披露采用 GAAP,且财务报表经过独立会计师审计,则取 1。为什么这样构造:作者认为只有经过审计时,才能较有把握地说企业真正遵循 GAAP;同时公开公司通常被要求提供经审计 GAAP 报表,因此该变量便于与公开公司制度比较。可迁移性:适合研究自愿高质量报告选择,但如果研究问题需要区分“采用某种会计准则”和“是否经过审计”,则应拆开两个维度。
不过这里也要承认:AI 自动生成的方法笔记还不够完美。
因为 AI 很难准确判断什么才是“对我来说非常规、值得学习的做法”。很多一般性的实证处理,比如普通控制变量、常规固定效应、常规稳健性,对我来说意义不大。真正有价值的是那些我以前没想到、可以迁移到自己研究里的方法细节。
所以我还在不断优化 AGENTS.md:让 Codex 少写一般性实证套路,多捕捉变量构造、特殊样本处理、识别限制、审稿应对和可迁移的方法设计。
七、我现在不追求一次处理几千篇
我一开始也想过把几千篇 PDF 一次性批量处理完。
后来我觉得,真正读文献,更适合一篇一篇来。
也就是:
放入一篇 PDF→ 让 Codex 处理→ 检查三份笔记→ 修改 AGENTS.md→ 再处理下一篇
这样慢一点,但更符合真实学习过程。
全文转写可以批量做,但精读笔记最好不要盲目全量生成。因为精读笔记需要判断、核对和理解。PDF 一旦抽取错位,方法、变量、表格和引言分析都可能跟着错。
八、这不是通用模板,只是我的读文献方式
这套笔记结构是我根据自己的需要设计的。
我做会计学研究,所以我会特别关注以上内容。
但这些未必是其他人最需要的。
如果你做的是管理学、社会学、教育学、法学,或者你更关心理论、访谈、案例、历史材料,那么你的 AGENTS.md 完全可以不同。如果你不做研究,但如果你需要累积私有知识库,那这个方法思路也可以借鉴。
关键不是照搬我的模板,而是把自己的需求写清楚,让 Codex 按你的方式工作。
对我来说,这套流程的核心不是“让 AI 帮我总结 PDF”,而是把文献拆成几个对我真正有用的层次:
原文内容研究主题写作结构特殊的方法设计
做完以上工作,我可以按需直接让codex帮我去这些笔记里去做一个模糊搜索。
以后我要找选题,我就会去codex里面说,看研究内容笔记里有没有和我研究内容相关的。要写 introduction,我就会去codex里面说,我要写这个话题,看写作笔记中有没有特别适合我去模仿的。要设计模型和稳健性检验,让codex去方法笔记里面去找;需要回到原文,就看全文 MD 或 PDF。 大家可以发挥想象力。
这就是我现在用 Codex 自动化读文献和做 Obsidian 笔记的小尝试。我现在还不确定当笔记多了以后,codex读起来会不会变笨。有待尝试。
邢秋航
夜雨聆风