第二次做 AI 视频,我才发现流程比工具更重要

第二次做 AI 视频，我才发现流程比工具更重要

先说结论

这次做视频，我最大的收获不是学会了某一个工具。

而是发现：普通人用 AI 做视频，最重要的不是一步到位，而是把流程拆开。

一段视频看起来只是一个成品，但真正做起来，会拆成很多小环节：找对标、提取文案、改写、生成音频、做画面、生成字幕、做封面、切分短视频、检查开头结尾。

每一步都可以让 AI 帮一点，但每一步也都需要人来判断：这一步做到什么程度，才适合继续往下走。

我最近想做一种视频号内容：不用真人出镜，用类似播客的方式，把一段有价值的内容做成音频，再配上画面、字幕和封面，做成适合视频号发布的视频。

这次我选的是《只有儿科医生知道》这本书相关内容。

第一步是找对标视频，不是为了照搬，而是先看别人怎么讲、怎么排版、怎么做标题。

然后把对标视频里的文案提取出来。我没有让 AI 总结，而是让它一字不漏地提取完整文案，因为总结会丢结构。

提取完原始文案后，我没有直接拿来用，而是把它交给 GPT 去改写。

如果只是照搬对标内容，这件事没有意义，也不适合长期做。

我真正想要的是：保留它的表达结构，参考它的节奏，但把内容改成我自己的理解和表达。

这一步做完之后，才算有了一个可以继续加工的“视频文案底稿”。

文案准备好后，我把内容放进 NotebookLM 生成音频。

它可以把文字变成一种对话式音频，听起来比普通机械朗读更自然。

但我也踩了一个坑：默认生成出来的音频太长了，大概 18 分钟。

做视频不能只追求内容完整，还要考虑用户是不是真的愿意看下去。

所以后面我会更明确地告诉 NotebookLM：这段音频要适合短视频发布，控制节奏，不要展开太多，每一段只讲一个重点。

音频出来之后，我打开剪映开始做视频。

我设置的是 9:16 竖屏画布，中间放素材图，上方放标题，下方放说明文字。

然后把音频拖进去，用剪映自动生成字幕。字幕生成之后，还要调字号、调背景、调透明度。

我这次给字幕加了半透明背景，不然画面和文字叠在一起，会影响阅读。

AI 可以帮你生成素材，但视频最后好不好看，还是取决于很多细节。

封面图我也让 GPT 参与生成。

我给它看了对标图，大概是两个人访谈的感觉。

它能根据文案和对标方向，帮我生成一个封面图思路。

但 9:16 的比例、人物位置、文字摆放，AI 不一定一次就能处理好。

所以封面图可以让 AI 帮忙出方向，但最后最好一张一张调。

这次做完之后，我把整个流程大概梳理成这样：先找对标，再提取文案，再用 AI 改写，再放进 NotebookLM 生成音频，再放进剪映做画面和字幕，再生成封面图，再切成短视频，最后检查开头结尾。

这个流程看起来有点长，但真正跑过一遍之后，我反而没那么怕了。

因为每一步都不是特别难。难的是以前我把它们混在一起，以为“做视频”就是一个很大的任务。

做视频不是一件大事，而是一串可以被 AI 辅助的小事。

这次做 AI 视频，我最大的感受是：AI 确实能让普通人更容易开始，但它不会自动替你完成所有判断。

它能帮你提取文案、改写、生成音频、想封面、切视频，但最后还是要你判断：内容是不是太长，字幕是不是清楚，封面是不是能看，开头结尾是不是顺。

所以，普通人用 AI 做内容，不是把自己完全交给工具，而是学会把流程拆开，让 AI 在每一步帮你省一点力。

先跑通，再优化。先做出一个版本，再慢慢把它变得更像样。

这可能就是我这次最真实的一点心得。