AI 处理 PDF,总算不用求人了

场景一：审合同、找条款

一份几十页的合作协议，你只想知道几件事：我的核心义务是什么？风险点在哪？违约条款严不严重？

以前的办法是逐页翻，看到关键词折角。效率低，还容易漏。

现在把 PDF 丢给 AI 就行了。

用 Kimi。打开网页端或 App，直接上传 PDF。它会把全文读一遍，然后你可以问「这份合同里对甲方的约束有哪些」「违约金怎么算的」「有没有不合理的条款」。它能从几十页里把相关内容捞出来，整理成你能看懂的回答。Kimi 读长文档的能力在同类工具里算第一档，几万字的合同丢进去也不卡。

用 ChatGPT 或 Claude。上传 PDF，说一句「帮我总结这份合同的关键条款，标出需要注意的地方」，它会逐条列出来。对某一条有疑问，继续追问就行。

技巧： 问具体问题比笼统地「总结一下」效果好。比如直接问「第三条第 2 款提到的赔偿条件是什么」，它定位得比你自己翻快得多。问完之后，让它把关键条款原文引出来，你再自己核实一遍。AI 会漏，所以合同这类重要文件，用它做辅助筛选、人工做最终判断。

学生和研究者应该深有体会。一篇论文下载下来，看了三页发现不是自己需要的方向，白花半小时。

用 Kimi。它的长上下文能力在读论文场景很有优势。上传 PDF 后，让它先给一段摘要和一页的核心观点列表。看完觉得靠谱，再追问具体的技术方法、实验结论、数据来源。不靠谱直接换下一篇，省下的时间很可观。

如果论文里有一堆看不懂的专业术语，你甚至可以跟它说「用大白话解释一下这个方法」，它能把论文翻译成人话。

用 ChatGPT。同样支持 PDF 上传，尤其适合多轮对话深入理解的文章。先问整体框架，再钻某个章节的细节，它会结合上下文回答，不用反复重传。

AI 最大的价值不是替代你读，而是帮你决定「这篇值不值得读」。先让 AI 筛一遍，再决定投入多少精力。

有一种 PDF 很烦人。扫描件或者纯图片版，字只能看，不能选，不能复制。想引用一段话，得对着图片一个字一个字打。

用通义千问或 Kimi。上传图片版 PDF 后，它能识别出图片中的文字，然后你可以让它把识别结果整理成表格或者结构化文本。比如一张密密麻麻的数据报表，让它转成表格，复制出来就能用。

用 ChatGPT。同样支持从图片中提取文字，而且整理能力很强。你可以让它「把这份报表里的关键数据提取出来，按列整理」，输出的是结构化的内容，省去手动排版。

提醒： 识别率不是 100%。越清晰的扫描件效果越好，手写体、模糊复印件容易出错。重要的数据提取出来后，还是对照原文过一遍。

不是所有 PDF 都是合同或论文。还有很多杂七杂八的场景：产品手册、使用指南、培训材料、会议纪要……

这种场景不需要深度分析，就是想知道一个答案。

「这个参数是什么意思？」
「第三页那个配置步骤具体怎么操作？」
「这份材料跟上周那版有什么不同？」

随手丢给 Kimi 或豆包，问一句就能得到答案。

豆包的优点是 App 体验好，打开即用，语音输入也方便。Kimi 的强项是长文档处理和上下文理解。两者各有侧重，看你的使用习惯。

技巧： 如果需要交叉对比多个 PDF，可以用 Kimi 的文件夹功能放一起，或者用 ChatGPT 的多文件上传。不过目前多文件处理还不是 AI 的强项，对比类的任务建议分批问，或者一次问一个文件，再问对比。

最后说个跟 AI 处理文档无关但值得知道的事。

如果你用 Chrome，它最近会在后台自动下载一个跟 AI 相关的模型文件，大概会占掉好几个 G 的硬盘空间。这个事在技术社区引起了不小争议，因为下载之前没有明确告知用户。在 Chrome 设置里搜「AI」或者「Gemini」，能找到相关选项，不需要的话关掉就行。

硬盘空间是小事。但把合同、报表、保密协议丢进 AI 工具的时候，这些数据去了哪里，会被怎么处理？大部分主流 AI 工具都提供了数据不用于训练的选项，用之前花一分钟设置一下。

AI 处理 PDF 的能力已经过了图一乐的阶段。不能说百分百完美，但合同、论文、报表这些场景，确实能省下大把时间。

下次再收到头大的 PDF，不用自己硬扛了。

存一下。下次找工具的时候翻出来，比临时搜快多了。