乐于分享
好东西不私藏

多文档批量提取汇总 | 教师AI实操手册(3)

多文档批量提取汇总 | 教师AI实操手册(3)

多文档批量提取汇总 | 教师AI实操手册(3)

我是小黑。见字如面~

多份同类文档,提炼全部信息,按不同需求生成排序和筛选表格,这是行政和教学场景里的高频需求。我在教师AI工作坊现场带过这个流程:10份申请表Word文档,每张表涉及几十个填报信息,熟练后3分钟出一张汇总表。下面分享6步流程,核心就一句话——

先让AI搞清楚要提什么,再让AI去提。

本文基于Kimi + PromptPilot,2026年5月。

第1步:收文件

操作流程

将全部Word文档存入同一文件夹,确认文件名无特殊字符,文档格式统一。

指令思路

文件名如果包含特殊符号,AI通常不会主动报错,只会默默漏掉或读错文件。提前检查,比后面排查省事。

结果

一个文件夹,10份格式统一的Word文档,待处理。

第2步:让提示词工具帮你写提示词

大多数人拿到文件后的第一反应是”让AI直接提取信息”。跳过这步,后面大概率要返工。

操作流程

打开PromptPilot(https://promptpilot.volcengine.com/),选择”Prompt生成”,输入任务描述:

我有多份申请表Word文档,每份文档包含多个填写项(包括表头名称、子项名称、合并单元格下的分项)。请帮我生成一个提示词,让AI列出文档中所有需要填写的项目名称,不要遗漏任何子项。

在生成的提示词末尾追加一句:”提取完成后,请自行检查一遍,确认没有遗漏。”

指令思路

为什么不让AI直接提取信息,而是先让它列出字段名称?因为AI对非标准化的字段名会误读——表头写”购置成本”而你要的是”资产原值”,AI可能返回空值或抓错列。先让AI列出文档里到底有哪些字段,确认无误后再提取,比直接提一次返工三次快得多。

结果

一段经过优化的提示词,用于让AI提取文档中的全部字段名称,并附带自检要求。

第3步:单文件试水

有了提示词,不要直接把10份文档全部提交——10份一起提,AI漏了哪个字段你根本看不出来。先用1份验证。

操作流程

选取1份文档,分别提交给2个AI(如Kimi和豆包),使用第2步生成的提示词,让两个AI各自提取字段列表。

指令思路

为什么要2个AI分别提?因为单个AI提取时,你可能看不出它漏了什么。两个AI的结果放在一起对比,遗漏和差异立刻显现。清华团队2025年的研究也印证了这一点:给AI一个候选答案让它先验证,比直接让它生成答案准确率更高——核心不是答案本身,而是让AI进入”验证”这个动作。

结果

两份字段列表,可能存在差异,待下一步对齐。

第4步:2个AI互相对答案

这一步是全文的关键——不是你人工对比两个列表,而是让AI互相检查。

操作流程

将AI-A提取的字段列表和AI-B提取的字段列表互发给对方,指令:

这是另一个AI从同一份文档中提取的字段列表,请对比你自己的结果,指出差异并判断哪个更准确。

两个AI各自给出对比结果后,你确认最终的字段列表。

指令思路

为什么不自己对比?两个原因。第一,字段多的时候人工对比费眼又容易漏,AI对比更快更准。第二,让AI互相检查,激活的是”批判性思维模式”——让它验证别人的输出,比让它从零生成更准确。这比简单的多数投票更可靠。

结果

一份经过双方确认、无遗漏的字段列表,作为第5步的输入。

第5步:生成正式提示词

字段列表确认了,接下来才是真正让AI提取信息。

操作流程

将确认后的字段列表提交给PromptPilot,输入任务描述:

我有多份申请表Word文档,需要从中提取以下字段信息[具体字段名],按指定字段提取所有文档的填写内容,输出为表格。按不同筛选条件分sheet展示,用颜色标注区分不同类别。

在提示词中追加:”提取完成后,请与原始文档逐条对比确认,如有不一致请标注。”PromptPilot会生成一段结构化的批量提取提示词。

指令思路

第2步的提示词是让AI”列字段”,这一步是让AI”按字段提信息”——目的不同,提示词完全不同。末尾同样追加自检要求,但这次多了一层:”与原始文档逐条对比”——不只检查格式,还检查内容是否与原文一致。AI最危险的行为不是提错,而是自信地编造数据。自检是防幻觉的最后一道防线。

结果

一段完整的批量提取提示词,包含字段定义、输出格式和双重自检要求。

第6步:批量提取

操作流程

将全部10份Word文档和第5步生成的提示词,同时提交给2个AI。两个AI各自输出表格后,对比结果,确认一致则采用。如果AI输出Excel格式失败或乱码,将提示词中的输出格式要求从”Excel”降级为”CSV”,再不行降为”HTML表格”——格式降级方案能解决绝大多数格式兼容问题。

指令思路

为什么格式降级比直接生成更可靠?Excel格式结构复杂,AI直接生成完整文件容易出错;CSV是纯文本,兼容性更好;HTML表格是最兜底的选择,任何浏览器都能打开。

结果

一张汇总表,包含全部文档的提取信息,按不同筛选条件分sheet展示,AI还会用颜色标注区分不同类别。建议抽检3-5条数据与原文比对,确认无误后再使用。

结语

遇到多份文档要汇总的场景,记住这套流程:先让AI搞清楚要提什么,再验证字段,然后才批量提取。验证比信任更重要。

以上操作在Kimi网页版和PromptPilot网页版即可实现,电脑端体验效果更佳。

The first principle is that you must not fool yourself — and you are the easiest person to fool.

第一条原则是你不能欺骗自己——而你恰恰是最容易被自己欺骗的人。

——理查德·费曼,1974年加州理工毕业典礼演讲

同样的材料、同样的流程,工作坊里有人做出多sheet分类汇总加颜色标注,有人连基本信息都没提全。差别不在工具,在提问者的思维结构。

AI喜欢用户能面面俱到、结构分明地把事情讲给它听。你能做到么?

我是小黑。这是我日更第9天。~