第二次做 AI 视频,我才发现流程比工具更重要
先说结论
这次做视频,我最大的收获不是学会了某一个工具。
而是发现:普通人用 AI 做视频,最重要的不是一步到位,而是把流程拆开。
一段视频看起来只是一个成品,但真正做起来,会拆成很多小环节:找对标、提取文案、改写、生成音频、做画面、生成字幕、做封面、切分短视频、检查开头结尾。
每一步都可以让 AI 帮一点,但每一步也都需要人来判断:这一步做到什么程度,才适合继续往下走。
1. 我一开始只是想试试“播客式视频”
我最近想做一种视频号内容:不用真人出镜,用类似播客的方式,把一段有价值的内容做成音频,再配上画面、字幕和封面,做成适合视频号发布的视频。
这次我选的是《只有儿科医生知道》这本书相关内容。
第一步是找对标视频,不是为了照搬,而是先看别人怎么讲、怎么排版、怎么做标题。
然后把对标视频里的文案提取出来。我没有让 AI 总结,而是让它一字不漏地提取完整文案,因为总结会丢结构。
2. 文案要改成自己的表达
提取完原始文案后,我没有直接拿来用,而是把它交给 GPT 去改写。
如果只是照搬对标内容,这件事没有意义,也不适合长期做。
我真正想要的是:保留它的表达结构,参考它的节奏,但把内容改成我自己的理解和表达。
这一步做完之后,才算有了一个可以继续加工的“视频文案底稿”。
3. NotebookLM 生成音频,但长度要控制
文案准备好后,我把内容放进 NotebookLM 生成音频。
它可以把文字变成一种对话式音频,听起来比普通机械朗读更自然。
但我也踩了一个坑:默认生成出来的音频太长了,大概 18 分钟。
做视频不能只追求内容完整,还要考虑用户是不是真的愿意看下去。
所以后面我会更明确地告诉 NotebookLM:这段音频要适合短视频发布,控制节奏,不要展开太多,每一段只讲一个重点。
4. 进入剪映后,才发现视频不是只有音频
音频出来之后,我打开剪映开始做视频。
我设置的是 9:16 竖屏画布,中间放素材图,上方放标题,下方放说明文字。
然后把音频拖进去,用剪映自动生成字幕。字幕生成之后,还要调字号、调背景、调透明度。
我这次给字幕加了半透明背景,不然画面和文字叠在一起,会影响阅读。
AI 可以帮你生成素材,但视频最后好不好看,还是取决于很多细节。
5. 封面图可以让 AI 参与,但不能完全放手
封面图我也让 GPT 参与生成。
我给它看了对标图,大概是两个人访谈的感觉。
它能根据文案和对标方向,帮我生成一个封面图思路。
但 9:16 的比例、人物位置、文字摆放,AI 不一定一次就能处理好。
所以封面图可以让 AI 帮忙出方向,但最后最好一张一张调。
6. 我现在理解的 AI 视频流程
这次做完之后,我把整个流程大概梳理成这样:先找对标,再提取文案,再用 AI 改写,再放进 NotebookLM 生成音频,再放进剪映做画面和字幕,再生成封面图,再切成短视频,最后检查开头结尾。
这个流程看起来有点长,但真正跑过一遍之后,我反而没那么怕了。
因为每一步都不是特别难。难的是以前我把它们混在一起,以为“做视频”就是一个很大的任务。
做视频不是一件大事,而是一串可以被 AI 辅助的小事。
最后
这次做 AI 视频,我最大的感受是:AI 确实能让普通人更容易开始,但它不会自动替你完成所有判断。
它能帮你提取文案、改写、生成音频、想封面、切视频,但最后还是要你判断:内容是不是太长,字幕是不是清楚,封面是不是能看,开头结尾是不是顺。
所以,普通人用 AI 做内容,不是把自己完全交给工具,而是学会把流程拆开,让 AI 在每一步帮你省一点力。
先跑通,再优化。先做出一个版本,再慢慢把它变得更像样。
这可能就是我这次最真实的一点心得。
夜雨聆风