PDF处理完之后,能做什么:教育领域的几条路-夜雨聆风

PDF处理完之后,能做什么:教育领域的几条路

前两篇写了怎么把PDF变成干净的Markdown，以及大模型读PDF的三种方式。
把PDF喂给AI之前，要先做这件事

大模型是怎么读PDF的，以及为什么这件事比你想的麻烦
有读者问：然后呢？

这个问题很好。处理PDF本身不是目的，它是一个起点。这篇我想梳理一下，在教育领域，一批PDF解析完之后，目前研究者和开发者在往哪几个方向走。

这不是教程，是一张地图。

一、最直接的路：喂给AI问答

最简单的下游应用，是把解析好的Markdown文件做成一个可以问答的知识库。

你有三十篇文献，解析成Markdown之后，丢进一个支持RAG（检索增强生成）的系统，然后就可以问：“这批文献里有没有研究过自适应学习对低年级学生的效果？”

这条路的好处是门槛低，工具链成熟。缺点是它还是在处理碎片——系统检索的是相关段落，而不是理解文献之间的关系。

如果你的问题是”这篇文献说了什么”，普通RAG够用。如果你的问题是”这批文献整体在说什么、哪里有分歧、哪里有共识”，普通RAG就开始力不从心了。

【图1：普通RAG流程示意图】

PDF文献

向量化
分块存储
向量数据库

用户提问
→检索相关段落
查询匹配

LLM
生成回答
语言模型

局限：只看段落，不看全局关系

图1 · 普通RAG流

二、更进一步：知识图谱

知识图谱解决的是关系问题。

普通文本处理把文献看作一堆段落，知识图谱把文献里的实体和关系提取出来，变成一张网：概念A和概念B之间是什么关系，这篇文献的发现和那篇文献的发现是否矛盾，某个研究方法在哪些文献里出现过。

在教育领域，有研究者已经把这个思路用在了课程材料上。比如2025年发表在Education Sciences上的一项研究，以《数据结构》课程为例，把课程PDF构建成知识图谱，存入图数据库，再接上LLM做问答。实验结果是：和直接用通用LLM相比，这个系统的回答更准确，幻觉更少，对学生自主学习的支持效果也更好。

原因不难理解：通用LLM不知道这门课的知识结构，它只能靠训练数据里的模糊印象作答。知识图谱把课程的概念层级、知识点之间的依赖关系都显式存储下来，LLM调用的是结构化的知识，而不是在做概率猜测。

【图2：PDF→知识图谱→问答系统流程图】

图2 · PDF → 知识图谱 → 问答系统

课程PDF

解析

实体提取
关系识别
LLM抽取

存储

概念A

概念B

概念C

知识图谱
Neo4j存储

结构化检索
LLM生成回答
问答系统

学生

↑ 更准确 · 更少幻觉 · 支持自主学习（Education Sciences, 2025）

对研究者来说，这个方向的意义还不止于此。如果把一批文献构建成知识图谱，你可以看到整个研究领域的概念地图：哪些概念被反复讨论，哪些关系还没有被充分研究，哪里是真正的空白。这对文献综述和研究选题都有实际价值。

门槛说明：这条路需要一些技术配置，涉及图数据库（如Neo4j）和提取流程的搭建。但随着LLM能力提升，从文本自动提取实体和关系的准确率已经大幅提高，不再需要大规模人工标注。

三、更复杂的结构：GraphRAG

微软2024年开源了GraphRAG，它是在知识图谱基础上的进一步发展。

普通RAG的问题是：它找的是和你的问题最相似的段落，但无法回答需要跨越整个文档集的全局性问题。GraphRAG的解法是，先把文献构建成图，然后用社区检测算法把图里的节点分成若干社区，对每个社区生成摘要。查询时，根据问题的性质路由到局部搜索（找具体实体）或全局搜索（找主题和趋势）。

用一个具体场景来理解：如果你在研究”AI对学生认知能力的影响”，普通RAG会给你几篇提到这个话题的文献段落，GraphRAG则能告诉你整批文献在这个话题上形成了哪些不同的观点群，以及这些观点群之间的关系。

【图3：普通RAG vs GraphRAG 对比示意图】

图3 · 普通RAG vs GraphRAG

普通 RAG
GraphRAG

用户问题

段落A

段落B ✓

段落C

局部回答

只找相似段落
无法回答全局问题

用户问题

智能路由
局部/全局

局部搜索

全局摘要

全局+局部回答

理解整批文献的主题与关系

这条路在生产环境里已经有实际案例。有记录显示，某企业用GraphRAG处理内部知识库，把问题解决时间从40小时降到15小时。在学术研究场景里，它对文献综述和系统综述的潜力是显而易见的。

四、最接近教育本质的方向：自适应学习

前面三条路，本质上都是在做”信息检索和问答”。还有一条路走得更深——用知识图谱记录学生的学习状态，然后实现真正的个性化教学。

2026年6月发表在Computers and Education: Artificial Intelligence上的一项研究，设计了一个这样的系统：知识图谱存储课程知识结构，同时记录每个学生在哪些知识点上掌握了、哪些还有漏洞；LLM根据这张学习地图，给每个学生生成有针对性的反馈和练习题推荐。实验比较了三种模式——纯自适应、纯AI、以及两者结合的混合模式——结果显示混合模式下学生的代码正确率最高，提交次数（一个反映学习过程的指标）也最优。

这个方向的意义，我觉得超出了技术本身。

知识图谱让AI知道这个学生现在在哪里、缺什么、下一步应该学什么，而不只是回答学生提出的问题。这是从”被动问答”到”主动教学”的一个关键跃迁。

【图4：知识图谱驱动的自适应学习系统示意图】

图4 · 知识图谱驱动的自适应学习系统

课程PDF

知识点

知识点

知识点

课程知识图谱

学生学习状态
✓ 已掌握：知识点A
△ 薄弱：知识点B
个人知识地图

LLM
个性化生成
语言模型

针对性反馈
———————
推荐练习题
个性化输出

学习记录反馈→更新知识图谱五、我现在在哪里

整理完这四条路，我想说一个真实的位置：我目前只在第一条路的边缘。

用MinerU处理文献，用Claude Code读取Markdown做摘录，这是我现在的工作流。知识图谱和GraphRAG，我有兴趣但还没有动手做过。自适应学习系统，离我现在的工作更远一步。

写这篇文章的目的，不是假装自己走完了所有的路，而是把这张地图画出来——让自己知道前面有什么，也让同样在这条路上的读者知道，我们大概处在哪个位置。

下一步我想尝试的，是用一批文献真正做一次知识图谱，然后录成视频。有没有感兴趣的读者，可以留言告诉我你最想看哪个场景。

参考文献：
1. Liang et al., “Synergizing Knowledge Graphs and LLMs: An Intelligent Tutoring Model for Self-Directed Learning”, Education Sciences, 2025. https://www.mdpi.com/2227-7102/15/9/1102
2. Na Nongkhai et al., “Evaluating adaptive and generative AI-based feedback and recommendations in a knowledge-graph-integrated programming learning system”, Computers and Education: AI, June 2026.
3. Branzan, “From LLMs to Knowledge Graphs: Building Production-Ready Graph Systems in 2025”, Medium, Nov 2025. https://medium.com/@claudiubranzan/from-llms-to-knowledge-graphs-building-production-ready-graph-systems-in-2025-2b4aff1ec99a