把资料丢给这个AI开源工具,出来的PPTX每个元素都能点开编辑,动画效果比花钱请人做的还好

做PPT几乎是每个职场人的必修课，但每次打开空白页就开始拖延症发作。套模板排版对不齐、AI生成的PPT全是一页页大图片没法改文字、想要换个图表得全部重新来、领导让改两处细节结果整个PPT都要推翻重做。GitHub上有个开源项目PPT Master，它生成的PPT不是图片拼凑的，而是真正的原生PowerPoint文件，每个文本框、每个图表、每张图片都能像自己手动做的一样点开直接编辑，做出来的PPT甚至自带转场动画和语音旁白。

做PPT这件事，说起来谁都不陌生。不管是汇报方案、项目路演、产品发布，还是年终总结、培训课件、论文答辩，PPT几乎是绕不开的一道坎。大家常用的办法无非就那几种：要么找个模板往里塞内容，改着改着排版就乱了；要么用各种AI PPT工具一键生成，结果出来全是图片，领导让你改个数字你都无从下手；再不济就花钱请人做，几百上千一页的报价不说，来回沟通改稿的时间成本也够你受的。

今天聊的这个项目PPT Master，可以说把上面这些烦恼都解决得差不多了。它让你白嫖AI的能力，但产出的PPT跟亲手在PowerPoint里一页一页做出来的一样，每个细节都能二次编辑，而且整个流程你说了算。

项目背景

PPT Master 是一个基于 Python 的开源工具，当前版本 v2.7.0，采用 MIT 协议开源。在 GitHub 上已经收获了将近一万九千颗星，一千八百多个 Fork。

作者何雨果（Hugo He）是投融资领域的从业者，持有注册会计师（CPA）、资产评估师（CPV）、咨询工程师（投资）等职业资质。正因为日常工作里需要频繁审阅和修改 PPT，他深知"AI 生成的 PPT 改不了"这个痛点有多折磨人，于是干脆自己动手造了这个轮子。

它的设计哲学是"harness + model = agent"——工具负责提供工作流，AI 模型决定产出的质量上限。作者推荐搭配 Claude 或 GPT 等大上下文窗口的模型，加上 gpt-image-2 来生图，以达到最佳效果。

项目有四大原则：

第一，输出的是真正的 PPT，每个元素都能在 PowerPoint 里点开直接改；

第二，成本透明可控，工具本身完全免费开源，唯一的成本是你自己使用 AI 模型的费用；

第三，数据不出本地，除了跟 AI 模型对话之外，整个处理流程全在本地完成；

第四，不锁定平台，支持 Claude Code、Cursor、VS Code Copilot 等主流 AI 编程工具来驱动，也支持 Claude、GPT、Gemini、Kimi 等多种模型。

跟市面上其他 AI PPT 工具有什么本质区别

很多同学可能用过 Gamma、Copilot 或者其他 AI PPT 产品，PPT Master 跟这些工具最大的不同在于它产出的文件格式。市面上常见的 AI PPT 工具大致可以分为三类：

模板填空型：给你提供一堆现成模板，AI 帮你把内容填进去。好处是产出确实是 PPTX 格式，坏处是排版受模板限制非常大，内容多了塞不下、少了显得空，而且改模板本身就是个体力活。

图片拼接型：AI 把每一页 PPT 渲染成一张大图，然后把所有图片塞进一个 PPTX 文件里。乍一看挺像那么回事，但你想改任何一个字都没门——只能回到原来的平台重新生成。

网页演示型：直接生成一个炫酷的网页版演示文稿，分享出去是一个链接。但领导或者客户要的往往是那个能下载、能转发、能拷进 U 盘的 .pptx 文件，这压根就不是 PowerPoint 文件。

PPT Master 走的是第四种路线——原生可编辑。它让 AI 生成每一页的 SVG 矢量图作为中间产物，再通过自研的工具链把 SVG 转成 PowerPoint 原生的 DrawingML 形状。最终你拿到的是一个由真正的文本框、形状、图表组成的 PPTX 文件，每一个元素都能在 PowerPoint 里独立编辑，但同时又保留了 AI 自动排版的精美效果。用作者的话说就是："如果一个文件不能在 PowerPoint 中打开并编辑，它就不该被称为 PPT。"

类型	产物形态	能在 PowerPoint 里逐元素改吗
模板填空	套模板的 PPTX	部分可以，但受模板限制
图片式	一页一张大图拼成 PPTX	不行，整页就是一张图片
HTML 演示	网页版演示文稿	不行，根本不是 PPTX 文件
原生可编辑（PPT Master）	真正的 DrawingML 形状、文本框、图表	可以，每个元素都能点开改

先看一个真实案例：从一句话到 13 页 PPT

理论说再多，不如直接看一次实际操作。前几天我想做一份关于"今年国内 AI 大模型发展"的行业简报 PPT，手上没有任何资料，只输入了一句话："根据今年国内 AI 大模型发展做一个 PPT"。

PPT Master 首先自动启动了话题调研——它通过联网搜索收集了近期的行业报道、厂商发布信息和技术分析文章，从 DeepSeek V4 的发布、阿里千问 3.6 的更新、Kimi K2.6 的 Agent 能力，到百度文心 5.1 的弹性训练技术、字节豆包的用户增长数据，全部梳理成了一份结构化的研究文档。

调研完成后，AI 向我确认了八个关键设计决策：画布格式选 PPT 16:9、预估 13 页、走科技现代风格、蓝色主调搭配橙色强调、用 phosphor-duotone 图标库、标题衬线字体正文无衬线、图片从网络搜索。确认之后它输出了完整的设计方案——配色表、字体层级、页面结构、每一页的内容大纲，一应俱全。

接下来进入生成阶段。AI 自动启动了浏览器实时预览，然后一页一页地手写 SVG 代码。整个过程在 localhost:5050 上实时可见。为了配图，AI 自动从 Openverse 和 Wikimedia Commons 搜索了科技主题背景图，选中的都是 CC0 公共领域协议，无需署名即可商用。

最终生成的 13 页 PPT，内容涵盖：

• 封面：全幅科技背景 + "群雄逐鹿"主标题
• 行业全景：2×2 KPI 卡片——100 亿+ 下载量、41% HF 占比、6200+ AI 企业、1.2 万亿产业规模
• 竞争格局：七家主流厂商对比矩阵——DeepSeek V4、千问 3.6、Kimi K2.6、豆包 2.0、文心 5.1、混元 Hy3、GLM-5.1，从开源协议、参数规模、上下文窗口、MoE 架构、Agent 能力到国际 API 全覆盖
• DeepSeek V4 深度页：技术突破 + 融资估值超 200 亿美元 + Day0 适配生态
• 千问 vs Kimi 对比页：左右分栏对比两种开源路线
• 豆包·文心·混元三列卡片：三巨头的差异化 AI 策略
• 智谱 GLM 及其他玩家：SWE-Bench Pro 得分对比 + MiniMax、小米、蚂蚁百灵、百川
• 技术趋势竖栏页：MoE 架构、Agent 智能体、开源生态三大趋势
• 芯片适配表格：华为昇腾、海光 DCU、寒武纪 MLU、摩尔线程四强对比
• 价格战时间线：Q1 重大发布事件 + API 降价 93% + 亿级用户争夺
• 国际影响力：开源占比从 1.2% 到 30%、DeepSeek 非洲渗透
• 总结页：四大核心要点回顾

已关注

关注

重播分享赞

视频详情

整个过程从一句话出发，到拿到可编辑的 .pptx 文件，中间没有写一行代码。生成的 PPT 里所有文字都能改、所有图表都能调、所有元素都能在 PowerPoint 里自由编辑，而且自带入场动画和演讲备注。

官方示例：17 个项目、229 页的灵感库

除了上面这个实战案例，官方也提供了丰富的示例项目，全部是端到端用 AI 生成的原生可编辑 PPT，可以在线翻页预览也可以直接下载 .pptx。重点展示六个代表作：

杂志风 — 普利兹克奖 2026：建筑摄影 + 精致的文字排版网格，克制的编辑风格，像一本有质感的建筑杂志

财经数据风 — 2026 全球 AI 资本格局：深色仪表盘风格，图表驱动的内容排布，Bloomberg 式的数据新闻美学

瑞士风 — 网格系统入门：严格遵循网格系统的排版，克制的字体使用，少量红色强调点缀，干净利落

毛玻璃 SaaS — AI Agent 工程化演示：半透明层堆叠，渐变景深效果，产品 UI 即视感，适合科技产品类 PPT

孟菲斯波普 — Sugar Rush 音乐节：高饱和度原色搭配，几何图形拼贴，充满顽皮活力，适合年轻化品牌和创意活动

Risograph 孔版印刷风 — 独立书店指南：双色印刷纹理质感，手工感的独立书店文化气息，文艺复古但不粗糙

以上所有示例均使用 Claude Opus 4.7 加上 gpt-image-2 生图生成。在线体验地址：hugohe3.github.io/ppt-master/

上面案例里不管是自动联网调研、八项设计确认，还是实时预览、网络图片搜索，背后都对应着 PPT Master 的具体功能。下面逐一展开聊聊。

核心功能详解

实时预览与可视化修改

这是 PPT Master 最亮眼的功能之一。在生成过程中，工具会自动在本地浏览器打开预览页面。每生成一页，你都能实时看到效果。哪里不满意，直接用鼠标点选页面上的任意元素，在弹出的标注框里写上修改意见，然后跟 AI 说一句"应用我的标注"，AI 就会按照反馈重新改写那一页再重新导出。就像有个设计师坐在旁边，你说改哪里他就改哪里。

模板复刻

你在工作里可能已经有一份公司规定的或者自己特别喜欢的 PPT 模板，想按照这个风格来生成新内容。只要把这份 .pptx 文件交给 AI，使用 /create-template 命令，工具会从 PPTX 底层文件里提取出完整的设计元素——主题色方案、字体设置、母版和版式结构、可复用的图片素材，甚至包括精灵图的裁剪坐标关系。提取完之后就生成了可复用的模板，以后每次做 PPT 都按这个风格排版。封面、章节分隔页、装饰元素密集的页面，都能还原得八九不离十。

原生动画与转场

生成的 PPT 自带页间转场效果和页内元素入场动画。关键是这些动画不是嵌入的视频，而是真正的 OOXML 动画格式——在 PowerPoint 和 Keynote 里都能原生播放。默认情况下，页面元素会在切到这一页时自动依次出现，不需要你手忙脚乱点鼠标。当然想手动控制节奏也可以调整。

语音旁白与视频导出

支持给每一页 PPT 生成语音旁白。默认用微软 Edge 的免费 TTS 引擎，支持九十多种语言。想要更好的音质，可以接入 ElevenLabs、MiniMax、通义千问或者 CosyVoice 这些云端语音服务。生成的音频会被直接嵌入 PPTX 文件，然后用 PowerPoint 自带的"导出为视频"功能，一键生成带画面、带转场、带配音讲解的 MP4 视频——不需要任何额外的视频编辑软件。

声音复刻

如果你在 ElevenLabs、MiniMax、Qwen 或者 CosyVoice 已经克隆过自己的声音，直接把 voice_id 填进配置文件，PPT Master 就会用那个复刻的音色给每一页 PPT 读旁白。相当于自己给自己配音，但不用真的开口对着麦克风念一遍。

图片获取

做 PPT 少不了配图，PPT Master 提供了两条路径，可以在同一份 PPT 里混合使用：

AI 生图：接入 AI 生图接口，在配置文件里设置生图后端和对应的 API Key 就行，目前综合画质最好的是 gpt-image-2。

网络图片搜索：零配置就能用，默认从 Openverse 和 Wikimedia Commons 免费图库搜索。想获得更高质量的图片，可以配上 Pexels 和 Pixabay 的免费 API Key，这两个平台的商业摄影和办公场景素材质量明显更高。默认搜索策略是质量优先，覆盖了 CC0 公共领域、免署名和 CC BY 等多种授权。如果某张图片需要署名，工具会自动在页面上添加一行小字来源。如果确实不能出现署名，也可以强制只选用免署名图片。

怎么安装和使用

第一步：安装 Python

唯一的硬性前置要求就是 Python 3.10 及以上版本，其他所有依赖都通过 pip install -r requirements.txt 一次性装好。

Windows 用户：到 python.org 下载安装包，安装时一定要勾选"Add Python to PATH"这个选项。装完之后打开命令提示符，切换到项目目录执行 pip install -r requirements.txt。如果遇到 PowerShell 执行策略的问题，项目有专门的 Windows 安装指南文档，十分钟左右能搞定。

macOS 用户：



1
2

brew install python
pip install -r requirements.txt

Linux 用户（Ubuntu / Debian）：



1
2

sudo apt install python3 python3-pip
pip install -r requirements.txt

另外有个小提示：Pandoc 只有当你需要处理 .doc、.odt、.rtf、.tex 这些老旧或小众格式时才需要额外安装。像 .docx、.html、.epub、.ipynb 这些现代主流格式，Python 原生就能处理，不需要 Pandoc。

第二步：选一个 AI 编程工具

PPT Master 不是一个独立运行的桌面应用，它是一个"技能"（skill），需要在有 agent 能力的 AI 编程工具里使用。好消息是它几乎支持市面上所有主流选择，大致分为三类：

IDE 内置 agent：VS Code、Cursor、Trae、Codebuddy IDE、Windsurf、Void、Zed 等

IDE 插件/扩展：GitHub Copilot、Claude Code（VS Code 和 JetBrains 扩展版本）、Cline、Continue、Roo Code、通义灵码、CodeGeeX 等

CLI 命令行 agent：Claude Code CLI、Codex CLI、Aider、Gemini CLI 等，更适合在终端、远程服务器或者脚本环境里使用

模型方面，作者推荐优先选用 Claude Opus 或 Sonnet 搭配大上下文窗口（约 100 万 Token），再加上 gpt-image-2 来生图。当然 GPT、Gemini、Kimi 等模型也都能用。

第三步：获取项目文件

有三种方式拿到 PPT Master：

方式一：下载 ZIP 压缩包（不需要装 Git）。直接到 GitHub 项目页面点击 Code → Download ZIP 下载解压就行。国内用户可以去 AtomGit（atomgit.com/hugohe3/ppt-master）下载，访问速度更快。

方式二：Git Clone 拉取代码：



1
2
3
4

git clone https://github.com/hugohe3/ppt-master.git
# 或者用 AtomGit 镜像（国内更快）：
git clone https://atomgit.com/hugohe3/ppt-master.git
cd ppt-master

方式三：通过 Claude Code 插件市场安装。在 Claude Code 里依次执行：



1
2

/plugin marketplace add hugohe3/ppt-master
/plugin install ppt-master@ppt-master

或者跨 agent 通用方式：npx skills add hugohe3/ppt-master。需要注意的是，marketplace 安装只拉取了 skill 定义文件，不是完整的项目仓库，你仍然需要单独执行 pip install -r requirements.txt。

无论哪种方式获取文件之后，都别忘了执行 pip install -r requirements.txt 安装依赖。日常更新项目的话，运行 python3 skills/ppt-master/scripts/update_repo.py 即可。

第四步：配置 API（可选但建议）

如果要使用 AI 生图或者云端 TTS 等功能，需要在 .env 配置文件里填上对应的 API Key。如果你是通过 Git Clone 下载的完整项目，直接在项目根目录执行 cp .env.example .env，然后编辑 .env 填写就行。图片搜索功能零配置就能用，但强烈建议配上 Pexels 和 Pixabay 的免费 API Key，图片质量会有质的飞跃。

第五步：开始创作

两种方式把内容喂给 AI：

文件方式：把你的 PDF、Word 文档、图片等素材放到 projects/ 目录下，然后告诉 AI 要用哪些文件，推荐用右键"复制路径"的方式提供。

粘贴方式：直接把文字内容粘贴到聊天窗口里。

AI 收到素材之后，会先跟你确认一份设计方案——包括用什么风格、选什么尺寸（支持 PPT 标准 16:9、PPT 4:3、小红书图文、微信朋友圈、竖版 Story 等十多种画布格式）、预估多少页。你拍板之后它才开始干活。

然后就是全自动流程：分析内容结构 → 设计每一页的视觉布局 → 生成 SVG 矢量草稿 → 转换成 PPTX。整个过程你可以在浏览器预览页面（地址是 http://localhost:5050）里实时盯着，随时喊停改方案。如果生成过程中 AI 丢失了上下文，直接让它读 skills/ppt-master/SKILL.md 就能继续。

最终输出文件：原生可编辑的 .pptx 保存在 exports/ 文件夹里，文件名格式为 <项目名>_<时间戳>.pptx，同时 SVG 源文件会自动备份。需要 Office 2016 或以上版本打开，WPS 也能用，但复杂的动画效果建议在 PowerPoint 里查看。

总结

PPT Master 解决了一个非常实际的痛点：我们既想用 AI 帮我们省掉排版设计的时间，又不希望牺牲 PPT 最核心的可编辑性。它通过 SVG 作为中间桥梁，在 AI 的创造力和 PowerPoint 的原生能力之间找到了一个巧妙的平衡点。整个处理流程都在本地完成，你的文件不会被上传到任何第三方服务器，只有跟 AI 模型的对话会走到云端。

未来随着 AI 模型能力继续提升，这类"原生可编辑"路线的工具可能会成为 AI PPT 的主流方向。毕竟没人想把 AI 当成一次性生成器，大家要的是能迭代、能修改、能持续打磨的趁手工具。

关注我，获取最新 AI 技术前沿资讯与实用工具 👇 点赞 + ❤️ + 分享，下期更精彩！