场景一:审合同、找条款
一份几十页的合作协议,你只想知道几件事:我的核心义务是什么?风险点在哪?违约条款严不严重?
以前的办法是逐页翻,看到关键词折角。效率低,还容易漏。
现在把 PDF 丢给 AI 就行了。
用 Kimi。打开网页端或 App,直接上传 PDF。它会把全文读一遍,然后你可以问「这份合同里对甲方的约束有哪些」「违约金怎么算的」「有没有不合理的条款」。它能从几十页里把相关内容捞出来,整理成你能看懂的回答。Kimi 读长文档的能力在同类工具里算第一档,几万字的合同丢进去也不卡。
用 ChatGPT 或 Claude。上传 PDF,说一句「帮我总结这份合同的关键条款,标出需要注意的地方」,它会逐条列出来。对某一条有疑问,继续追问就行。
技巧: 问具体问题比笼统地「总结一下」效果好。比如直接问「第三条第 2 款提到的赔偿条件是什么」,它定位得比你自己翻快得多。问完之后,让它把关键条款原文引出来,你再自己核实一遍。AI 会漏,所以合同这类重要文件,用它做辅助筛选、人工做最终判断。
场景二:读论文、看文献
学生和研究者应该深有体会。一篇论文下载下来,看了三页发现不是自己需要的方向,白花半小时。
用 Kimi。它的长上下文能力在读论文场景很有优势。上传 PDF 后,让它先给一段摘要和一页的核心观点列表。看完觉得靠谱,再追问具体的技术方法、实验结论、数据来源。不靠谱直接换下一篇,省下的时间很可观。
如果论文里有一堆看不懂的专业术语,你甚至可以跟它说「用大白话解释一下这个方法」,它能把论文翻译成人话。
用 ChatGPT。同样支持 PDF 上传,尤其适合多轮对话深入理解的文章。先问整体框架,再钻某个章节的细节,它会结合上下文回答,不用反复重传。
AI 最大的价值不是替代你读,而是帮你决定「这篇值不值得读」。先让 AI 筛一遍,再决定投入多少精力。
场景三:提取信息、填报表
有一种 PDF 很烦人。扫描件或者纯图片版,字只能看,不能选,不能复制。想引用一段话,得对着图片一个字一个字打。
用通义千问或 Kimi。上传图片版 PDF 后,它能识别出图片中的文字,然后你可以让它把识别结果整理成表格或者结构化文本。比如一张密密麻麻的数据报表,让它转成表格,复制出来就能用。
用 ChatGPT。同样支持从图片中提取文字,而且整理能力很强。你可以让它「把这份报表里的关键数据提取出来,按列整理」,输出的是结构化的内容,省去手动排版。
提醒: 识别率不是 100%。越清晰的扫描件效果越好,手写体、模糊复印件容易出错。重要的数据提取出来后,还是对照原文过一遍。
场景四:日常随手用
不是所有 PDF 都是合同或论文。还有很多杂七杂八的场景:产品手册、使用指南、培训材料、会议纪要……
这种场景不需要深度分析,就是想知道一个答案。
「这个参数是什么意思?」
「第三页那个配置步骤具体怎么操作?」
「这份材料跟上周那版有什么不同?」
随手丢给 Kimi 或豆包,问一句就能得到答案。
豆包的优点是 App 体验好,打开即用,语音输入也方便。Kimi 的强项是长文档处理和上下文理解。两者各有侧重,看你的使用习惯。
技巧: 如果需要交叉对比多个 PDF,可以用 Kimi 的文件夹功能放一起,或者用 ChatGPT 的多文件上传。不过目前多文件处理还不是 AI 的强项,对比类的任务建议分批问,或者一次问一个文件,再问对比。
避坑提醒
最后说个跟 AI 处理文档无关但值得知道的事。
如果你用 Chrome,它最近会在后台自动下载一个跟 AI 相关的模型文件,大概会占掉好几个 G 的硬盘空间。这个事在技术社区引起了不小争议,因为下载之前没有明确告知用户。在 Chrome 设置里搜「AI」或者「Gemini」,能找到相关选项,不需要的话关掉就行。
硬盘空间是小事。但把合同、报表、保密协议丢进 AI 工具的时候,这些数据去了哪里,会被怎么处理?大部分主流 AI 工具都提供了数据不用于训练的选项,用之前花一分钟设置一下。
AI 处理 PDF 的能力已经过了图一乐的阶段。不能说百分百完美,但合同、论文、报表这些场景,确实能省下大把时间。
下次再收到头大的 PDF,不用自己硬扛了。
存一下。下次找工具的时候翻出来,比临时搜快多了。
夜雨聆风