乐于分享
好东西不私藏

AI Agent做浪姐名场面PPT,做着做着它自己「浪」起来了

AI Agent做浪姐名场面PPT,做着做着它自己「浪」起来了

最近不是浪姐2026播得正火吗,全开麦直播,「心愿便利贴」各种名场面满天飞。有个甲方爸爸想蹭热点,让我出个方案。

我就想,要不把这个活交给AI,先做一份「浪姐2026十大名场面」的PPT。

于是,我去看了一眼,市面上那些AI做PPT的工具,直接给我整不会了。

AiPPT年费99起步,讯飞智文Pro套餐169两年,Kimi PPT免费版基本等于不能用,付费版49一个月。Gamma更离谱,年费折合人民币1300多。

我就做个PPT盘点,又不是要开设计公司,这钱花得我心疼。

所以我就动了念头,能不能找个免费的方案?国内用户拿来就能用的那种。

我第一个想到的是Trae。字节出的编程Agent,国内直接用,界面还有中文。而且我听说Kimi 2.6的前端设计能力特别强,月之暗面专门搞了个Design Bench来卷这个方向。

我的思路很简单。

让Kimi在Trea里写python-pptx的代码,生成.pptx文件,我在WPS里打开就完事。

为了提高PPT审美,我还专门找了一个叫guizang-ppt-skill的项目,歸藏做的,杂志风,特别好看。

我想着,把这skill的设计理念抽象成提示词,喂给Kimi,让它照着做。

结果你们猜怎么着。

代码是能跑,PPT也能生成。但打开一看,我直接沉默了。

我就你们看三张图了,多了怕你们辣眼睛。

就,你能想象吗,2026年,AI能把PPT做成这样。整个PPT看起来,土的能掉渣。

我盯着屏幕看了十秒钟,关掉了WPS。。。

这玩意儿我要是发出去,读者不骂死我。我知道python-pptx的上限不高,但没想到能低到这种程度。guizang-ppt-skill那种杂志排版的大留白、字体层次、图片处理,python-pptx根本实现不了。

第一轮,惨败。


我不甘心。

我跟Claude聊了这个事,他给了我一个思路。

他说,你别让Kimi写python-pptx了,那玩意儿天花板太低。guizang-ppt-skill原生输出的是HTML,直接在浏览器里打开就能演示,视觉效果完全不是一个量级。

你让Kimi直接改HTML模板不就行了?

我一听,有道理啊。

于是我换了个思路。在Trae里直接让Kimi安装guizang-ppt-skill,按照skill规范来做。

这次效果确实好了太多。我直接上大图。

HTML版的PPT有衬线/非衬线/等宽三级字体分工,有翻页动效,有明暗交替的节奏感。我打开浏览器预览的时候,真的有点惊艳到。

但是。

我翻着翻着就发现不对劲。15页里面,有10页名场面,全是同一个布局。左文右图,左文右图,左文右图???

Kimi就像个偷懒的学生,选了一个最安全的答案,然后复制粘贴了十遍。

数据大字呢?图片网格呢?悬念问题页呢?大引用页呢?guizang-ppt-skill明明有10种布局骨架,Kimi只用了2种。

我回看skill的工作流,发现问题是这样的。

guizang-ppt-skill的SKILL.md里面写得很清楚,第一步要做需求澄清,要问6个问题。但Kimi根本不会自动执行这个流程,它把skill当参考文档,跳过所有规范,直接开始生成

我又试了几次,把提示词写得更严格,要求必须用5种以上不同布局。Kimi嘴上答应,实际执行的时候还是偷懒。

第二轮,有进步,但不够。


我就开始琢磨,是不是Trae的Agent机制有问题?

guizang-ppt-skill本来是为Claude Code设计的。Claude Code的skill是程序化工作流,系统会强制按步骤执行。但Trae里面,skill只是作为上下文发给模型,模型爱听不听。

我就想,要不换个环境试试?

于是我换了一个支持skill完整工作流的Claude Code环境,把guizang-ppt-skill完整加载进去,让Kimi 2.6在这个环境里跑。

结果你们猜怎么着。布局多样性上来了。

但还是有问题。细节不到位。有些页面的间距不对,有些图片占位符的尺寸有问题,有个别页面的文字溢出了容器。

我意识到,这不是环境的问题,是模型的问题。

Kimi 2.6在理解和执行复杂设计规范的时候,精度还是不够。它能大概听懂你要什么,但做不到像素级的精确控制。

第三轮,接近了,但还没触及天花板。


那天晚上我有点不甘心。

我想,如果环境是对的,skill也是对的,那问题是不是出在模型上?Kimi 2.6的代码能力确实强,但设计执行这种需要精细控制的任务,可能需要更强的模型。

于是我做了一个实验。

同样的guizang-ppt-skill,同样的Claude Code环境,只是把模型从Kimi 2.6换成了Opus 4.6。

结果直接拉到夯。

Opus 4.6不仅完整执行了skill的7步工作流,还在每一步都做了自检。需求澄清阶段真的问了6个问题,主题色选择的时候给出了明确的推荐理由,布局规划阶段主动提出了节奏交替方案。

最夸张的是,它生成的HTML,我打开浏览器预览,第一页就把我震住了。

衬线大标题的字体渲染极其精致。每一页的布局都不一样,数据大字报的超大数字、图片网格的整齐矩阵、悬念问题页的戏剧性留白、大引用页的金句排版,全部到位。

我翻完15页,坐在椅子上愣了几秒钟。

这就是我想要的效果。Monocle杂志那种克制、精致、有呼吸感的排版。

不是商业PPT模板的油腻,也不是消费互联网UI的喧闹,就是纯粹的、安静的信息设计。

第四轮,我看到了天花板。


但问题来了。这个天花板方案,对大多数人来说并不友好。Claude Code最少要20美金一个月。和我免费用AI做PPT的初衷背道而驰。

真正适合大多数人的方案,其实是第二轮那个路径的优化版。

Trae免费,国内直接用。Kimi API按量扣费,你充50块能用很久。guizang-ppt-skill开源免费。这三个加在一起,你只需要花几块钱,就能做出视觉效果80分的PPT。

限制也很诚实。Kimi会偷懒,布局可能单调,细节可能不精致。但解决起来很简单,生成之后你多跟他交互几轮,改到满意为止。比从零开始做一整套PPT省事一百倍。

所以,如果你想自己试试,这是具体步骤。

第一步,去 trae.cn 下载 Trae,安装完就能用,免费。

第二步,去搜 guizang-ppt-skill,歸藏的项目。复制项目网址,贴给Trae,告诉它把这个项目安装进去。(找不到链接的私信我,发PPT三个字母给我

第三步,去 platform.moonshot.cn 注册 Kimi API,充个50块。按量计费,做一次PPT大概几块钱,不用就不扣钱,比包月49划算。

第四步,在 Trae 里配置 Kimi 2.6,把你刚注册的Kimi API Key 贴进去。

第五步,告诉Trae,调用guizang-ppt-skill,制作你想要的PPT


这件事折腾了我一天,试错了四轮。回头看,有几个认知挺有意思的。

1、技术路线的选择比努力更重要

python-pptx的上限就在那里,你再怎么优化提示词,它也做不出杂志风的排版。HTML路线从一开始就是更正确的选择,但我花了第一轮才意识到这一点。说到底,选错了赛道,跑得再快也是白跑。

2、skill机制的理解很关键

guizang-ppt-skill在Claude Code里是「程序」,在Trae里是「参考文档」。同一个skill,不同的执行环境,结果天差地别。这不是skill本身的问题,是机制的问题。就像同一把刀,在厨师手里是工具,在路人手里可能只是块铁片。

3、模型选择对设计类任务的精度影响极大

Kimi 2.6的代码能力确实强,但在需要像素级精确控制的设计执行上,Opus 4.6明显更胜一筹。它能理解设计规范中的隐含意图,比如「克制优于炫技」这种抽象原则,它能转化为具体的设计决策。这不是参数大小的差距,是「听懂」和「听懂并做到」的差距。


说起来,我一开始只是想蹭个浪姐的热点,做一份名场面盘点PPT。结果蹭着蹭着,蹭出了一整套关于AI工具链的认知。这可能才是这件事最有价值的部分。

如果你居然看到了这里,那咱俩也算有点缘分。顺手点个赞、在看、转发,都行,不点也行。想以后第一时间看到,给个星标⭐就够了。 

谢谢你的时间。下次再聊。