每次做 PPT 都头大?我把这个 AI PPT 工具开源了!

大家好。

最近这段时间，我一直在折腾一件事：

能不能把一篇论文 PDF，直接变成一套可以拿去组会汇报的 PPT？

不是那种把 PDF 截图塞进幻灯片，也不是套一个很丑的模板，更不是只能看、不能改的图片版 PPT。

我想要的是：

• 能读论文、读 Figure、读截图和资料
• 能自动规划每一页 PPT 的内容
• 能生成比较像样的医学学术汇报风格
• 能保留原文里的 Figure、图表、影像和截图
• 最后还能导出文字可编辑的 PPTX

所以这次，我把这个工作流整理成了一个github开源项目：

yixueAIganhuo-PPT

一句话介绍就是：

一个把论文、PDF、Figure、截图、报告和自备资料自动制作成高质量 PPT，并进一步重建为可编辑 PPTX 的 AI PPT skill。

先看一个真实例子

下面这个案例，是把一篇 PMID 38133501 的原文 PDF 输入给 yixueAIganhuo-PPT 后，最终得到的可编辑 PPTX 效果。

大家可以左右滑动看完整页面效果。

PPT例子1最终可编辑PPT效果（左右滑动）

可以看到，整体样式已经比较接近正式的医学学术汇报 PPT，不是简单把论文截图塞进去。

更重要的是，这些页面里的文字也都尽量重建成了 PowerPoint 文本框，后面还可以继续编辑。

流程示例和原理

为了说明它是怎么从论文 PDF 走到最终可编辑 PPTX 的，这里放一张完整流程示例图。

每一行从左到右分别是：

• GPT Image 2 生成的 PPT 原图
• PaddleOCR v5 识别文字
• GPT Image 2 清除原图中的文字背景
• 叠加可编辑文字层后的最终 PPT

也就是说，这个项目不是单纯“生成一张 PPT 图片”，而是多走了一步：

把图片型 PPT，尽量重建成可以继续编辑的 PPTX。

整个流程可以简单理解为：

资料理解 -> PPT 页面规划 -> GPT Image 2 生成图片型 PPT       -> PaddleOCR v5 识别文字 -> GPT Image 2 清除文字背景       -> 添加可编辑文字层 -> 生成 editable PPTX

项目里的原理图如下：

从功能上看，这个项目主要做了这几件事：

• 自动读取论文 PDF、Figure、截图和自备资料，规划 PPT 页面结构
• 用 GPT Image 2 生成 16:9 的图片型 PPT 页面
• 用 PaddleOCR v5 识别页面文字和位置
• 用 GPT Image 2 清除原图里的文字背景
• 把 OCR 识别出的文字重新放回 PowerPoint，生成可编辑文字层
• 原始 Figure、图表、影像和截图尽量按原始比例嵌入，不主动拉伸变形
• 可生成带演讲稿备注的 PPTX，方便后续准备汇报
• 支持本地 CLIProxyAPI、OpenRouter / OpenAI 兼容接口等 GPT Image 2 后端
• 支持本地 PaddleOCR v5，也支持 PaddleOCR API 方式

它适合哪些场景？

我自己最看重的是下面几个场景：

1. 论文精读汇报

比如 journal club、文献精读、课题组组会。输入论文 PDF，让它先帮你整理出一版可以讲的 PPT 初稿。

2. 课程资料整理

课程 PDF、讲义、截图、实验材料，也可以整理成教学或培训用 PPT。

3. 病例、报告和截图汇总

有些临床或科研汇报，不是完整论文，而是多份截图、检查结果、图表、文字说明混在一起。这类材料也可以先交给它整理成汇报框架。

4. 图片型 PPT 转可编辑 PPTX

如果你已经有了一套图片型 PPT，或者每页都是截图，也可以只走后半段流程，把“只能看”的 PPT 尽量转成“还能改文字”的 PPTX。

怎么使用？

这个项目本质上是一个给 Codex、Claude Code 或其他支持 skills 的 agent 使用的 skill。

安装时，可以直接把下面这段话复制给 agent：

请帮我安装 yixueAIganhuo-PPT skill。仓库地址：https://github.com/snowmanzhuang/yixueAIganhuo-PPT.git请保存到你当前可用的 skills 目录中，并且只拉取 skill 运行所需文件：SKILL.mdscripts/references/examples/requirements.txt不要下载 docs、README 展示图、示例 PDF 和示例 PPTX。

安装好之后，使用时可以这样说：

请调用 yixueAIganhuo-PPT skill，把我提供的论文 PDF 做成文字可编辑的中文汇报 PPTX。

也可以这样：

请调用 yixueAIganhuo-PPT skill，把这些课程资料和截图整理成一个适合课堂讲解的 PPTX。

如果只想把已有图片型 PPT 转成可编辑版本，可以这样：

请调用 yixueAIganhuo-PPT skill，我已经有图片型 PPTX / 每页截图，只需要帮我转成可编辑 PPTX。

如果你暂时不想跑 OCR，也可以只生成图片版：

请调用 yixueAIganhuo-PPT skill，只生成图片型 PPTX，不需要转成可编辑 PPTX。

使用前一定要注意

这个项目不是点一下就百分百完美出片的“一键神器”。

第一次使用时，我建议务必先小规模测试：

• 先做 3-5 页，不要一上来跑 20 页以上
• 先确认 GPT Image 2 后端能正常生成 16:9 图片
• 先确认 PaddleOCR v5 或 OCR API 能正常返回文字坐标
• 网络不稳定或 API 限流时，先把并发调低
• 最终可编辑 PPTX 里的文字位置、字号、换行，仍然可能需要手动微调

尤其是可编辑 PPTX 这一步，本质上是把 OCR 坐标重建成 PowerPoint 文本框，不可能做到每个字都和原图完全重合。

我的目标不是替代你最后的人工检查，而是把最耗时间的 70%-80% 先自动跑出来。

API 和环境怎么选？

图像生成这块，推荐优先使用支持 GPT Image 2 的后端。

如果你是OpenAI订阅会员，并且能稳定使用 GPT Image 2，建议通过本地搭建 CLIProxyAPI来反代api调用GPT Image 2，这样可以不额外增加任何费用（详情请看 https://github.com/router-for-me/CLIProxyAPI）。

如果没有CLIProxyAPI，也可以使用 OpenRouter 或 OpenAI API 这类方式，但费用和稳定性要自己评估。

OCR 这块，如果电脑配置不错，推荐本地部署 PaddleOCR v5。电脑配置一般或者不想折腾本地部署的话，也可以走 PaddleOCR API。 (详情请看 https://github.com/snowmanzhuang/yixueAIganhuo-PPT/blob/main/docs/setup/paddleocr.zh.md)

第一次配置会稍微麻烦一点，尤其是 PaddleOCR 的本地环境、模型下载和 Python 路径。但只要第一次跑通，后面就会顺很多。