做PPT几乎是每个职场人的必修课,但每次打开空白页就开始拖延症发作。套模板排版对不齐、AI生成的PPT全是一页页大图片没法改文字、想要换个图表得全部重新来、领导让改两处细节结果整个PPT都要推翻重做。GitHub上有个开源项目PPT Master,它生成的PPT不是图片拼凑的,而是真正的原生PowerPoint文件,每个文本框、每个图表、每张图片都能像自己手动做的一样点开直接编辑,做出来的PPT甚至自带转场动画和语音旁白。
做PPT这件事,说起来谁都不陌生。不管是汇报方案、项目路演、产品发布,还是年终总结、培训课件、论文答辩,PPT几乎是绕不开的一道坎。大家常用的办法无非就那几种:要么找个模板往里塞内容,改着改着排版就乱了;要么用各种AI PPT工具一键生成,结果出来全是图片,领导让你改个数字你都无从下手;再不济就花钱请人做,几百上千一页的报价不说,来回沟通改稿的时间成本也够你受的。

今天聊的这个项目PPT Master,可以说把上面这些烦恼都解决得差不多了。它让你白嫖AI的能力,但产出的PPT跟亲手在PowerPoint里一页一页做出来的一样,每个细节都能二次编辑,而且整个流程你说了算。
项目背景
PPT Master 是一个基于 Python 的开源工具,当前版本 v2.7.0,采用 MIT 协议开源。在 GitHub 上已经收获了将近一万九千颗星,一千八百多个 Fork。

作者何雨果(Hugo He)是投融资领域的从业者,持有注册会计师(CPA)、资产评估师(CPV)、咨询工程师(投资)等职业资质。正因为日常工作里需要频繁审阅和修改 PPT,他深知"AI 生成的 PPT 改不了"这个痛点有多折磨人,于是干脆自己动手造了这个轮子。
它的设计哲学是"harness + model = agent"——工具负责提供工作流,AI 模型决定产出的质量上限。作者推荐搭配 Claude 或 GPT 等大上下文窗口的模型,加上 gpt-image-2 来生图,以达到最佳效果。
项目有四大原则:
第一,输出的是真正的 PPT,每个元素都能在 PowerPoint 里点开直接改;
第二,成本透明可控,工具本身完全免费开源,唯一的成本是你自己使用 AI 模型的费用;
第三,数据不出本地,除了跟 AI 模型对话之外,整个处理流程全在本地完成;
第四,不锁定平台,支持 Claude Code、Cursor、VS Code Copilot 等主流 AI 编程工具来驱动,也支持 Claude、GPT、Gemini、Kimi 等多种模型。
跟市面上其他 AI PPT 工具有什么本质区别
很多同学可能用过 Gamma、Copilot 或者其他 AI PPT 产品,PPT Master 跟这些工具最大的不同在于它产出的文件格式。市面上常见的 AI PPT 工具大致可以分为三类:
模板填空型:给你提供一堆现成模板,AI 帮你把内容填进去。好处是产出确实是 PPTX 格式,坏处是排版受模板限制非常大,内容多了塞不下、少了显得空,而且改模板本身就是个体力活。
图片拼接型:AI 把每一页 PPT 渲染成一张大图,然后把所有图片塞进一个 PPTX 文件里。乍一看挺像那么回事,但你想改任何一个字都没门——只能回到原来的平台重新生成。
网页演示型:直接生成一个炫酷的网页版演示文稿,分享出去是一个链接。但领导或者客户要的往往是那个能下载、能转发、能拷进 U 盘的 .pptx 文件,这压根就不是 PowerPoint 文件。
PPT Master 走的是第四种路线——原生可编辑。它让 AI 生成每一页的 SVG 矢量图作为中间产物,再通过自研的工具链把 SVG 转成 PowerPoint 原生的 DrawingML 形状。最终你拿到的是一个由真正的文本框、形状、图表组成的 PPTX 文件,每一个元素都能在 PowerPoint 里独立编辑,但同时又保留了 AI 自动排版的精美效果。用作者的话说就是:"如果一个文件不能在 PowerPoint 中打开并编辑,它就不该被称为 PPT。"
| 原生可编辑(PPT Master) | 真正的 DrawingML 形状、文本框、图表 | 可以,每个元素都能点开改 |
先看一个真实案例:从一句话到 13 页 PPT
理论说再多,不如直接看一次实际操作。前几天我想做一份关于"今年国内 AI 大模型发展"的行业简报 PPT,手上没有任何资料,只输入了一句话:"根据今年国内 AI 大模型发展做一个 PPT"。

PPT Master 首先自动启动了话题调研——它通过联网搜索收集了近期的行业报道、厂商发布信息和技术分析文章,从 DeepSeek V4 的发布、阿里千问 3.6 的更新、Kimi K2.6 的 Agent 能力,到百度文心 5.1 的弹性训练技术、字节豆包的用户增长数据,全部梳理成了一份结构化的研究文档。
调研完成后,AI 向我确认了八个关键设计决策:画布格式选 PPT 16:9、预估 13 页、走科技现代风格、蓝色主调搭配橙色强调、用 phosphor-duotone 图标库、标题衬线字体正文无衬线、图片从网络搜索。确认之后它输出了完整的设计方案——配色表、字体层级、页面结构、每一页的内容大纲,一应俱全。

接下来进入生成阶段。AI 自动启动了浏览器实时预览,然后一页一页地手写 SVG 代码。整个过程在 localhost:5050 上实时可见。为了配图,AI 自动从 Openverse 和 Wikimedia Commons 搜索了科技主题背景图,选中的都是 CC0 公共领域协议,无需署名即可商用。

最终生成的 13 页 PPT,内容涵盖:
• 封面:全幅科技背景 + "群雄逐鹿"主标题 • 行业全景:2×2 KPI 卡片——100 亿+ 下载量、41% HF 占比、6200+ AI 企业、1.2 万亿产业规模 • 竞争格局:七家主流厂商对比矩阵——DeepSeek V4、千问 3.6、Kimi K2.6、豆包 2.0、文心 5.1、混元 Hy3、GLM-5.1,从开源协议、参数规模、上下文窗口、MoE 架构、Agent 能力到国际 API 全覆盖 • DeepSeek V4 深度页:技术突破 + 融资估值超 200 亿美元 + Day0 适配生态 • 千问 vs Kimi 对比页:左右分栏对比两种开源路线 • 豆包·文心·混元三列卡片:三巨头的差异化 AI 策略 • 智谱 GLM 及其他玩家:SWE-Bench Pro 得分对比 + MiniMax、小米、蚂蚁百灵、百川 • 技术趋势竖栏页:MoE 架构、Agent 智能体、开源生态三大趋势 • 芯片适配表格:华为昇腾、海光 DCU、寒武纪 MLU、摩尔线程四强对比 • 价格战时间线:Q1 重大发布事件 + API 降价 93% + 亿级用户争夺 • 国际影响力:开源占比从 1.2% 到 30%、DeepSeek 非洲渗透 • 总结页:四大核心要点回顾
整个过程从一句话出发,到拿到可编辑的 .pptx 文件,中间没有写一行代码。生成的 PPT 里所有文字都能改、所有图表都能调、所有元素都能在 PowerPoint 里自由编辑,而且自带入场动画和演讲备注。
官方示例:17 个项目、229 页的灵感库
除了上面这个实战案例,官方也提供了丰富的示例项目,全部是端到端用 AI 生成的原生可编辑 PPT,可以在线翻页预览也可以直接下载 .pptx。重点展示六个代表作:

杂志风 — 普利兹克奖 2026:建筑摄影 + 精致的文字排版网格,克制的编辑风格,像一本有质感的建筑杂志

财经数据风 — 2026 全球 AI 资本格局:深色仪表盘风格,图表驱动的内容排布,Bloomberg 式的数据新闻美学

瑞士风 — 网格系统入门:严格遵循网格系统的排版,克制的字体使用,少量红色强调点缀,干净利落

毛玻璃 SaaS — AI Agent 工程化演示:半透明层堆叠,渐变景深效果,产品 UI 即视感,适合科技产品类 PPT

孟菲斯波普 — Sugar Rush 音乐节:高饱和度原色搭配,几何图形拼贴,充满顽皮活力,适合年轻化品牌和创意活动

Risograph 孔版印刷风 — 独立书店指南:双色印刷纹理质感,手工感的独立书店文化气息,文艺复古但不粗糙
以上所有示例均使用 Claude Opus 4.7 加上 gpt-image-2 生图生成。在线体验地址:hugohe3.github.io/ppt-master/
上面案例里不管是自动联网调研、八项设计确认,还是实时预览、网络图片搜索,背后都对应着 PPT Master 的具体功能。下面逐一展开聊聊。
核心功能详解
实时预览与可视化修改
这是 PPT Master 最亮眼的功能之一。在生成过程中,工具会自动在本地浏览器打开预览页面。每生成一页,你都能实时看到效果。哪里不满意,直接用鼠标点选页面上的任意元素,在弹出的标注框里写上修改意见,然后跟 AI 说一句"应用我的标注",AI 就会按照反馈重新改写那一页再重新导出。就像有个设计师坐在旁边,你说改哪里他就改哪里。
模板复刻
你在工作里可能已经有一份公司规定的或者自己特别喜欢的 PPT 模板,想按照这个风格来生成新内容。只要把这份 .pptx 文件交给 AI,使用 /create-template 命令,工具会从 PPTX 底层文件里提取出完整的设计元素——主题色方案、字体设置、母版和版式结构、可复用的图片素材,甚至包括精灵图的裁剪坐标关系。提取完之后就生成了可复用的模板,以后每次做 PPT 都按这个风格排版。封面、章节分隔页、装饰元素密集的页面,都能还原得八九不离十。
原生动画与转场
生成的 PPT 自带页间转场效果和页内元素入场动画。关键是这些动画不是嵌入的视频,而是真正的 OOXML 动画格式——在 PowerPoint 和 Keynote 里都能原生播放。默认情况下,页面元素会在切到这一页时自动依次出现,不需要你手忙脚乱点鼠标。当然想手动控制节奏也可以调整。
语音旁白与视频导出
支持给每一页 PPT 生成语音旁白。默认用微软 Edge 的免费 TTS 引擎,支持九十多种语言。想要更好的音质,可以接入 ElevenLabs、MiniMax、通义千问或者 CosyVoice 这些云端语音服务。生成的音频会被直接嵌入 PPTX 文件,然后用 PowerPoint 自带的"导出为视频"功能,一键生成带画面、带转场、带配音讲解的 MP4 视频——不需要任何额外的视频编辑软件。
声音复刻
如果你在 ElevenLabs、MiniMax、Qwen 或者 CosyVoice 已经克隆过自己的声音,直接把 voice_id 填进配置文件,PPT Master 就会用那个复刻的音色给每一页 PPT 读旁白。相当于自己给自己配音,但不用真的开口对着麦克风念一遍。
图片获取
做 PPT 少不了配图,PPT Master 提供了两条路径,可以在同一份 PPT 里混合使用:
AI 生图:接入 AI 生图接口,在配置文件里设置生图后端和对应的 API Key 就行,目前综合画质最好的是 gpt-image-2。
网络图片搜索:零配置就能用,默认从 Openverse 和 Wikimedia Commons 免费图库搜索。想获得更高质量的图片,可以配上 Pexels 和 Pixabay 的免费 API Key,这两个平台的商业摄影和办公场景素材质量明显更高。默认搜索策略是质量优先,覆盖了 CC0 公共领域、免署名和 CC BY 等多种授权。如果某张图片需要署名,工具会自动在页面上添加一行小字来源。如果确实不能出现署名,也可以强制只选用免署名图片。
怎么安装和使用
第一步:安装 Python
唯一的硬性前置要求就是 Python 3.10 及以上版本,其他所有依赖都通过 pip install -r requirements.txt 一次性装好。
Windows 用户:到 python.org 下载安装包,安装时一定要勾选"Add Python to PATH"这个选项。装完之后打开命令提示符,切换到项目目录执行 pip install -r requirements.txt。如果遇到 PowerShell 执行策略的问题,项目有专门的 Windows 安装指南文档,十分钟左右能搞定。
macOS 用户:
1 2
brew install python
pip install -r requirements.txt
Linux 用户(Ubuntu / Debian):
1 2
sudo apt install python3 python3-pip
pip install -r requirements.txt
另外有个小提示:Pandoc 只有当你需要处理 .doc、.odt、.rtf、.tex 这些老旧或小众格式时才需要额外安装。像 .docx、.html、.epub、.ipynb 这些现代主流格式,Python 原生就能处理,不需要 Pandoc。
第二步:选一个 AI 编程工具
PPT Master 不是一个独立运行的桌面应用,它是一个"技能"(skill),需要在有 agent 能力的 AI 编程工具里使用。好消息是它几乎支持市面上所有主流选择,大致分为三类:
IDE 内置 agent:VS Code、Cursor、Trae、Codebuddy IDE、Windsurf、Void、Zed 等
IDE 插件/扩展:GitHub Copilot、Claude Code(VS Code 和 JetBrains 扩展版本)、Cline、Continue、Roo Code、通义灵码、CodeGeeX 等
CLI 命令行 agent:Claude Code CLI、Codex CLI、Aider、Gemini CLI 等,更适合在终端、远程服务器或者脚本环境里使用
模型方面,作者推荐优先选用 Claude Opus 或 Sonnet 搭配大上下文窗口(约 100 万 Token),再加上 gpt-image-2 来生图。当然 GPT、Gemini、Kimi 等模型也都能用。
第三步:获取项目文件
有三种方式拿到 PPT Master:
方式一:下载 ZIP 压缩包(不需要装 Git)。直接到 GitHub 项目页面点击 Code → Download ZIP 下载解压就行。国内用户可以去 AtomGit(atomgit.com/hugohe3/ppt-master)下载,访问速度更快。
方式二:Git Clone 拉取代码:
1 2 3 4
git clone https://github.com/hugohe3/ppt-master.git
# 或者用 AtomGit 镜像(国内更快):
git clone https://atomgit.com/hugohe3/ppt-master.git
cd ppt-master
方式三:通过 Claude Code 插件市场安装。在 Claude Code 里依次执行:
1 2
/plugin marketplace add hugohe3/ppt-master
/plugin install ppt-master@ppt-master
或者跨 agent 通用方式:npx skills add hugohe3/ppt-master。需要注意的是,marketplace 安装只拉取了 skill 定义文件,不是完整的项目仓库,你仍然需要单独执行 pip install -r requirements.txt。
无论哪种方式获取文件之后,都别忘了执行 pip install -r requirements.txt 安装依赖。日常更新项目的话,运行 python3 skills/ppt-master/scripts/update_repo.py 即可。
第四步:配置 API(可选但建议)
如果要使用 AI 生图或者云端 TTS 等功能,需要在 .env 配置文件里填上对应的 API Key。如果你是通过 Git Clone 下载的完整项目,直接在项目根目录执行 cp .env.example .env,然后编辑 .env 填写就行。图片搜索功能零配置就能用,但强烈建议配上 Pexels 和 Pixabay 的免费 API Key,图片质量会有质的飞跃。
第五步:开始创作
两种方式把内容喂给 AI:
文件方式:把你的 PDF、Word 文档、图片等素材放到 projects/ 目录下,然后告诉 AI 要用哪些文件,推荐用右键"复制路径"的方式提供。
粘贴方式:直接把文字内容粘贴到聊天窗口里。
AI 收到素材之后,会先跟你确认一份设计方案——包括用什么风格、选什么尺寸(支持 PPT 标准 16:9、PPT 4:3、小红书图文、微信朋友圈、竖版 Story 等十多种画布格式)、预估多少页。你拍板之后它才开始干活。
然后就是全自动流程:分析内容结构 → 设计每一页的视觉布局 → 生成 SVG 矢量草稿 → 转换成 PPTX。整个过程你可以在浏览器预览页面(地址是 http://localhost:5050)里实时盯着,随时喊停改方案。如果生成过程中 AI 丢失了上下文,直接让它读 skills/ppt-master/SKILL.md 就能继续。
最终输出文件:原生可编辑的 .pptx 保存在 exports/ 文件夹里,文件名格式为 <项目名>_<时间戳>.pptx,同时 SVG 源文件会自动备份。需要 Office 2016 或以上版本打开,WPS 也能用,但复杂的动画效果建议在 PowerPoint 里查看。
总结
PPT Master 解决了一个非常实际的痛点:我们既想用 AI 帮我们省掉排版设计的时间,又不希望牺牲 PPT 最核心的可编辑性。它通过 SVG 作为中间桥梁,在 AI 的创造力和 PowerPoint 的原生能力之间找到了一个巧妙的平衡点。整个处理流程都在本地完成,你的文件不会被上传到任何第三方服务器,只有跟 AI 模型的对话会走到云端。
未来随着 AI 模型能力继续提升,这类"原生可编辑"路线的工具可能会成为 AI PPT 的主流方向。毕竟没人想把 AI 当成一次性生成器,大家要的是能迭代、能修改、能持续打磨的趁手工具。
夜雨聆风