为什么 AI 不喜欢 PPT?

▲ 封面

"AI 不喜欢系列"第四篇。前三篇写了 .docx（装修好的办公室）、PDF（办公室的高清照片）、.xlsx（塞满便签和公式的工作台）。这一篇讲 PPT——和前三个都不一样。

.docx 至少还有段落。PDF 至少还有页面。.xlsx 至少还有网格。

PPT 连这些都没有。它是一堆独立画布，每张画布上随意散落着文本框、图片、图表和形状。没有阅读顺序，没有数据模型，没有语义层级。

一、.ppt 和 .pptx：老二进制 vs ZIP 包

和 Excel 一样，先分清两种格式。

.ppt 是老式二进制格式。 PowerPoint 97-2003 时代的产物，基于 OLE 复合文档结构。纯二进制，改 .zip 解不了，依赖专门解析器。

.pptx 是 ZIP + XML 格式。 PowerPoint 2007 之后的默认格式。把 演示.pptx 改成 演示.zip，解压后：

[Content_Types].xml
\_rels/
docProps/
ppt/

核心在 ppt/ 目录：

ppt/presentation.xml — 演示文稿结构
ppt/slides/slide1.xml — 第一页幻灯片
ppt/slides/slide2.xml — 第二页幻灯片
ppt/notesSlides/notesSlide1.xml — 第一页的演讲者备注
ppt/slideLayouts/ — 版式定义
ppt/slideMasters/ — 母版定义
ppt/theme/theme1.xml — 主题
ppt/media/ — 图片、音频、视频
ppt/charts/ — 图表数据

和 .docx、.xlsx 一样的配方：ZIP 壳 + XML 肉 + 关系文件做胶水。

但 PPT 有个其他格式没有的问题：它的内容分布在几十个独立文件里，每个文件之间靠关系文件（.rels）串联。而且一张幻灯片内部的文本框、图片、形状，彼此之间没有明确的先后顺序——它们只是被"放在"页面上的独立对象。

二、人类为什么喜欢 PPT？

PPT 不是为了精确记录而设计的。它是为了说服。

它的核心能力是：把复杂信息压缩成可视化的、有说服力的叙述。文字 + 图表 + 图片 + 动画，逐页推进，引导听众注意力。

法律和商业场景里，PPT 承担着 Word 和 Excel 都做不了的事：案件汇报、客户方案展示、项目路演、庭审可视化、内部培训、专家报告摘要、法律产品介绍、年会总结。

人类喜欢 PPT，是因为它能把一个复杂的故事讲得简单好看。一页一个观点，一页一个逻辑推进，视觉冲击辅助记忆。

但"讲得简单好看"这件事，恰好是 AI 最难理解的。

三、AI 为什么头疼？七个核心问题

1. 内容是碎片，不是连续文本

Word 里有一段话："甲方应于合同签订后 15 日内支付第一期款项，金额为人民币 100 万元。"

PPT 里这句话可能被拆成四个独立的文本框：

文本框 1（顶部标题）：付款节点
文本框 2（左侧）：甲方应在合同签订后
文本框 3（中间大字）：15 日
文本框 4（底部）：支付第一期款项 ¥1,000,000

人类看这一页，视觉上自动把它们拼成完整信息。AI 看到的却是四个毫无关联的对象——它们之间没有"谁先谁后""谁属于谁"的标记。

更麻烦的是，AI 连应该按什么顺序读都不知道。左上到右下？标题先读？大字先读？没有标准答案。

▲ 示意图

2. 阅读顺序：PPT 的元问题

Word 有自然的阅读顺序：从上到下，从左到右。Excel 有明确的网格坐标。PDF 至少按页面排列。

PPT 没有。一张幻灯片上的每个元素——文本框、图片、形状、图表——都独立地放在一个绝对坐标上。哪个在前、哪个在后、哪个属于哪个，全凭人类视觉判断。

AI 面对一张幻灯片时，要做的事情比"读文字"复杂得多：先识别所有独立元素，再推断它们之间的逻辑关系，再决定以什么顺序拼接成可理解的文本。每一步都可能出错。

3. SmartArt 和图表：视觉修辞，不是数据

PPT 里的图表和 Excel 里的图表是两回事。

Excel 图表背后有数据源——改一个数字，图就跟着变。

PPT 里的图表经常是"拍扁"的。粘贴进来的 Excel 图表变成了一组独立形状。SmartArt 流程图、组织结构图、时间线——在 PPT 内部是若干个矩形、箭头和文本框的组合，不是结构化数据。

AI 看到 SmartArt 时，看到的不是"三个步骤的流程"，而是几十个独立形状散落在页面上。推断它们组成一个流程图——这是视觉理解，不是文本解析。

4. 动画和逐条显示

PPT 的动画能力意味着：一张幻灯片上的内容，可能不是"同时可见"的。

第一条（点击后出现）
第二条（点击后出现）
第三条（点击后出现）

演讲者逐条展开，控制信息节奏。但 AI 读取 .pptx 时，看到的是"这个 slide 上有三条文字"——它不知道这三条是依次出现的，也不知道它们之间的递进关系。

更隐蔽的是：有些内容在动画里"出现后又消失了"。人类看现场演示时知道那段话是过渡性的，AI 看文件时无法区分。

5. 演讲者备注：藏在暗处的最重要信息

做 PPT 的人都知道一个秘密：真正的干货不在幻灯片上，在备注里。

幻灯片上写的是"Q3 收入增长 15%"。备注里写的是"这个数字含一次性项目，实际同口径只增长 3%，讲的时候不要展开，客户问到再补充。"

AI 处理 PPT 时，要不要读备注？读了，怎么和幻灯片内容对应？不读，丢了最关键的上下文。

而且备注是逐页独立的——备注页 1 对应 slide 1，备注页 2 对应 slide 2——没有跨页的连贯叙事。AI 需要自己把备注和幻灯片内容缝合起来，同时判断：哪些备注是演讲提示（可以忽略），哪些备注是实质性补充（必须纳入理解）。

6. 母版和版式：全局样式在别处

PPT 的字体、颜色、背景、占位符通常不在每一页里定义，而在母版和版式中。

一页幻灯片上你看到的是"标题：项目背景"，它的字体是 28pt 微软雅黑，颜色是深蓝。这些信息可能来自三层继承：演示文稿主题 → 母版 → 具体版式。

AI 只读 slide.xml，可能拿不到完整样式信息。而样式在 PPT 里有时候是语义信号——比如"红色标题 = 风险提示""灰色文字 = 参考信息"。

7. 图片里的文字：PPT 最爱用截图

PPT 是人类把"别的格式"塞进来的万能容器。

合同关键条款截图、判决书片段截图、财务数据截图、微信聊天记录截图、网页截图、地图截图——这些在 PPT 里司空见惯。它们是图片，里面的文字不在任何 XML 里。

AI 读 PPT 时，图片就是图片。要理解里面的文字，得对每张图单独做 OCR。而 PPT 里的截图质量往往不高——压缩过的、调整过尺寸的、加了滤镜和边框的——OCR 准确率更低。

四、PPT 和前面三个格式：一张对比表

格式	内容单元	阅读顺序	AI 的核心困难
.docx	段落	从上到下	文本被样式切碎
PDF	页面	从左上到右下	坐标文字，缺少语义
.xlsx	单元格	行列网格	合并单元格、公式、颜色
.pptx	文本框/形状/图片	无固定顺序	碎片对象 + 视觉排版 + 备注分离

PPT 是唯一一个连"从哪开始读"都需要 AI 自己猜的格式。

五、法律场景里的 PPT

PPT 在法律工作中比外人想象的常见得多：

案件汇报。 案情摘要、争议焦点、证据索引、法律依据——做成十几页 PPT 给合伙人或客户汇报，比递一份 50 页的法律意见书高效得多。但这种 PPT 往往信息密度极高，每一页都有多个文本框、时间线图表、证据关系图。

庭审可视化。 用图表、时间线、关系图向法庭展示案情脉络。这些幻灯片上的内容不是文章逻辑，是视觉论证逻辑——AI 提取后如果只是按文本框顺序堆砌，论证结构就塌了。

客户方案。 律师的服务方案、项目建议书、报价说明，经常以 PPT 交付。里面的组织架构图、项目时间线、服务清单，都是视觉化信息。

培训课件。 法律培训、内部知识分享、新人入职培训——PPT 是主力格式。但如果想把培训内容结构化入库让 AI 做知识管理，PPT 直接丢进去的效果很差。

这些场景里有一个共同矛盾：PPT 被当成"交付物"，但它的原生形态不适合 AI 直接理解和检索。

六、AI 的格式偏好（加入 PPT）

从最好到最差：

最友好：Markdown / TXT / JSON / CSV

较友好：规范 docx、规范 xlsx、规范 HTML

一般：普通 docx、普通 xlsx、普通 PDF 文本版

较差：复杂排版 PDF、扫描 PDF、复杂 xlsx、.pptx

最差：.ppt（老式二进制）、扫描 PDF 里的表格、低清拍照 PDF

.pptx 的问题不在于"读不到内容"——技术上提取文本框文字不难。问题在于提取到的内容失去了结构和语境。文本框散落，顺序丢失，备注分离，图片文字遗漏，动画逻辑消失——文字都在，但已经不是原来的意思了。

七、正确的使用方式

不要不用 PPT。PPT 是人类沟通的顶级工具。但要清楚它适合什么、不适合什么。

PPT 适合的：演示和汇报、视觉化论证、辅助演讲叙事、方案展示——一句话，适合"对着一群人讲"的场景。

PPT 不适合的：作为 AI 的知识来源、作为文档数据库的原生格式、作为需要精确检索和对比的文本载体。

如果 PPT 里包含需要被 AI 理解和检索的信息，正确的做法是：

PPT 原件（保留，给人讲）
↓ 提取每页的文本框 + 备注
↓ 按演讲逻辑重组成连续文档
↓ 图片中的文字单独 OCR 并入正文
↓ 输出 Markdown / JSON
↓ 交给 AI 分析或入库检索

也就是：PPT 做"展示层"，Markdown 做"理解层"。各司其职。

八、四篇系列收束

写了四个格式，规律很清楚了：

	.docx	PDF	.xlsx	.pptx
本质	ZIP + XML 文档包	固定版面电子纸	ZIP + XML 表格包	ZIP + XML 幻灯片包
人用它做什么	编辑、批注、协作	归档、签章、交付	计算、台账、分析	演示、说服、汇报
AI 为什么头疼	文本被样式切碎	坐标代替语义	合并单元格+公式+颜色	内容碎片化+无阅读顺序
一句话	装修好的办公室	办公室的高清照片	塞满便签和公式的工作台	散落着便利贴的故事板

四种格式，一个底层逻辑：格式越是为"人眼观看"和"人工操作"优化的，对 AI 就越不友好。

不是格式的错。是它们诞生的时候，没人在意机器怎么读。

所以今天最务实的做法不是抛弃这些格式——在法律行业做这件事不现实。而是建立一条清晰的转换层：人用 Office 格式办公和交付，机器用结构化文本理解和分析。不要让 PPT 直接当 AI 的知识库，不要让 PDF 直接当 AI 的工作底稿，不要让 Excel 的合并单元格裸奔进 RAG 系统。

各取所需，互不耽误。

作者简介： 陈石律师，浙江海泰律师事务所副主任、高级合伙人、房地产与建设工程部主任，宁波市律师协会副秘书长、第七届宁波仲裁委员会仲裁员，聚焦建筑房地产、投融资、并购重组及商事争议解决。曾获多家法律媒体与专业机构认可，荣登 LegalOne 2025 中国区建工及房地产实务先锋 45 强、律新社 2025 年度管理合伙人 20 佳（华东），入选《商法》The A-List 法律精英，获评 ALB China 区域市场十五佳长三角地区律师新星，并获律新社 2024 年度并购领域品牌之星。长期为万科、华润置地、信达地产、保利置业、招商蛇口、中海地产等企业提供法律服务，承办"首宗百亿地王""长春第一高楼""台州第一高楼"等代表性项目，累计服务项目投资额超千亿。近年来持续推动 AI 与法律实务融合，强调以结构化方法打通技术逻辑、法律判断与商业场景；著有《赋能法律人：AI 底层思维与应用范式》，并在多地开展相关主题讲座与分享。四明山法师 AI 夜校（legalAGI.cn）发起人。