AI视频角色总崩?「斜修四步法」让你的主角从头稳到尾
上周发了那篇《AI视频不是靠提示词,是靠资产库》之后,有不少朋友来问,思路懂了,但具体怎么建资产库呢。
说实话我也在想这个问题。我自己的方法不够系统,所以花了一些时间去研究,把目前最完整的方案梳理了出来。
然后发现了一套让我觉得「这也太系统了」的四步法。
上一篇文章我一直在讲一个道理,AI视频做不好,不是工具不行,是你还在用「单次生成」的思维做AI视频。真正稳定的AI视频,靠的是建立可复用的素材资产库。
但那篇文章只讲了为什么,没讲怎么做。
所以今天就顺着上篇,把四步法完整拆给你看。
每一步都有工具名、有参数、有踩坑点。不是那种「多试试几个种子」「提示词写得再细一点」的玄学建议,是真的可以照着做的操作手册。
四步分别是,锁定人物、固定声音、限定场景、动作迁移。
一个一个来。
以前我做过一个很蠢的尝试。
我花了一下午坐在电脑前面,用某个AI视频工具,想生成一个女孩在咖啡馆里说话的连续镜头。第一条视频,还挺好的。女孩坐在靠窗的位置,头发扎起来,穿一件米白色毛衣,端着咖啡杯。
我还挺满意,心想AI视频进化得真快。
然后我生成第二条。
脸变了。
不是发型变了、角度变了那种变,是整个人的五官结构都不一样了。像换了一个演员,但穿了一模一样的衣服。
我当时就愣住了。
硬着头皮又试了第三条,这下发型也变了,咖啡馆也变了,从明亮简约风突然变成了暗色调工业风。
不是哥们。。。
我只是想让同一个人继续说下一句话,不是让她转世。
后来我才知道,这个问题几乎是所有AI视频工具的硬伤。因为每次生成都是独立的,模型不记得上一条视频里的是谁。它只是根据你的提示词重新「想象」一个角色出来。
这才是AI视频不稳定的根源。
不是你的提示词不够细。不是工具太垃圾。是你在让AI每次都重新发明轮子。
而「斜修四步法」解决的正是这个问题。它的核心逻辑很简单,先把轮子造好,以后每一次只需要组装的轮子,不需要重新造。
然后说第一步,锁定人物。
这一步是整个四步法的基础。你得先给角色建立一套标准的「证件照」,让AI知道这个人长什么样。
具体怎么做呢。
先打开豆包,切到专家模式。把你要做的那个故事脚本扔进去,让它帮你生成主角的形象描述,以及对应的AI绘画提示词。
为什么要用豆包而不是直接写提示词。因为豆包能理解故事语境,它知道「一个30岁离职创业的女性」应该长什么样、穿什么风格的衣服、留什么发型。你自己写的话很容易遗漏细节,漏一个细节AI就自己脑补一个,脑补多了角色就不像了。
拿到形象描述和提示词之后,打开Lip TV,新建一个图像节点。
模型选Nano Banana。比例选16:9。
在提示词里,把刚才豆包帮你生成的描述加上这句话,「左侧生成人物近景照,右侧生成全身设定图」。
这一步很关键。一图两用,近景照用来做人脸参考,全身图用来做服装和体态参考。以后你每生成一条新的视频,都@这两张图,人脸就不会跑了。
但这还不够。
同一个角色只有一张正面照,AI还是容易崩。因为你可能会让他转头、侧脸、低头看手机。这些角度AI都没见过,它怎么办?只能猜。一猜就崩。
所以你还得补充多角度视图。再新建几个图像节点,分别生成正脸、侧45度、侧90度、背面,还有一个面部特写。
这就是你的角色资产库。
听起来步骤很多,但其实你只需要做一次。一个角色从零到建完资产库,大概20分钟。建完之后,你每次做新视频,把设定图连上去就行。
这一步最常踩的坑是什么。参考图不够「干净」。
什么叫不干净。就是你生成的参考图里,角色站在一片杂乱背景前面,身上一堆配饰,光线还很复杂。这种图AI根本提取不出准确的面部特征。
记住一句话,参考图越素,生成越稳。纯色背景,正面光源,去掉首饰墨镜帽子这种遮挡物。
如果这一步做好了,AI视频最大的痛苦「变脸」,就解决了。
说真的,光这一步,就能省掉你以前80%的「抽卡」时间。
第二步,固定声音。
人是视觉动物,看到脸变了会立刻发现。但声音变了,很多人反而注意不到。
但你的观众能感觉到。
他们可能说不出来哪里不对,但就是觉得「这条视频跟上次看的不太一样」「怎么怪怪的」。这种说不清的违和感,比脸崩了更可怕,因为它不会立刻被察觉,但它会慢慢消耗观众的信任。
固定声音有两条路。
第一条路,从零创建一个声音。在Lip TV里新建一个音频节点,模型选MiniMax Beat。把你准备好的台词输进去,别只输文字,把停顿和语气词也标上。
比如「大家好我是大风扇(停顿)今天我们来聊一个让很多做AI视频的朋友非常头疼的问题」。
MiniMax Beat这个模型厉害在它能理解语气。你选一个「优雅甜美」或者「沉稳冷静」的音色,它会自动匹配语调。不像有些TTS,一句话从头平到尾,听得人想睡觉。
做完这些之后,新建一个视频节点,把刚才建好的人物设定图和这个音频节点都连上去。模型选 seedance 2.0全能参考模式,@刚才建的所有素材,点生成。
第二条路,复用你已有的声音。
如果你之前生成过一条很满意的视频,里面人物的声音特别好听,但你没保存当时的音频参数,怎么办。
先把那条视频下载到本地。打开剪映,把视频拖进去,分离音频。截取那个角色的声音片段,导出MP3。
然后回到Lip TV,新建音频节点,把这段MP3导入。后面的操作跟第一条路一样。
不管走哪条路,声音资产库建好以后就不要再动了。同一个人物,所有视频都用同一个声音。观众在任何一个视频里听到的是同一把嗓子,你就在不知不觉间建立了「这个账号的声音辨识度」。
我有时候觉得,声音的一致性比脸的一致性还重要。因为脸崩了观众能看出来,但声音变了,观众只会觉得浑身不舒服,又说不清为什么。这种莫名其妙的「掉粉感」,才是最致命的。
第三步,限定场景。
很多AI视频博主做到前三步就停了。人物建好了,声音固住了,心想这下稳了吧。
然后场景崩了。
你让角色坐在咖啡馆里,第一次是北欧风简约咖啡厅,第二次变成了美式复古咖啡厅,第三次变成了不知道哪里的暗黑工业风。
咖啡还是那个咖啡,但咖啡馆换了三个城市。
场景控制的核心是「先建空场景,再放人进去」。
新建一个图片节点,写场景描述提示词,模型还是Nano Banana。但这次提示词里不要出现人物,只描述空场景。比如「明亮的咖啡馆窗边,上午十点的阳光打进窗户,白色大理石桌面,桌上有一杯拿铁和一本翻开的笔记本」。
先生成空场景画面。
然后关键的一步来了。把场景图接上之后,再新建一个图像节点,生成这个场景的「立体空间四宫格」。就是把场景从四个角度展示出来,像一个房间的四面墙被打开展平。
接着打开任何一个修图软件,在四宫格上标注人物应该站的位置、面向哪个方向。
最后新建视频节点,把人物设定图、标注了位置的场景图、未标注的场景图一起连上去。提示词里@引用这些素材。
听起来很繁琐是不是。
但你再想想你之前每次重抽花了多少时间。建一个场景资产库需要15分钟。每次「抽卡」到崩溃需要两个小时。
哪个更高效,你比我清楚。
第四步,动作迁移。
这一步是四步法里最让我觉得「卧槽」的一步。
你做AI视频的时候肯定遇到过这种场景,想让角色自然地抬起右手,指向画面外的某个东西。提示词里写了「右手抬起指向右侧」,结果生出来的是角色在挥手、在挠头、在旋转跳跃闭着眼。
就是不做你让它做的。
AI不懂「抬手」是什么。它只会从训练数据里找一个最像「抬手」的片段拼给你。但训练数据里「抬手指向远方」「开心地挥手」「挠头发」看起来动作都差不多,AI分不清。
所以别再跟提示词较劲了。
动作迁移的思路完全相反。不是用文字描述动作给AI听,而是直接拍一段动作视频给它看。
你找个朋友,或者自己架个手机,对着镜头做一遍你想要的动作。不用专业设备,手机就行。光线清楚、动作干脆、背景简单,三个要点。
然后把这段视频导入可灵3.0,新建一个视频节点,把示范视频和人物设定图都连上去。
模型选可灵3.0动作迁移。
提示词简单写就行,甚至不写都可以。因为你要的不是AI「理解」你的文字描述然后「想象」一个动作,你要的是AI直接把示范视频里的动作,原样复刻到你的角色身上。
我当时第一次试这招的时候,真的给我一下子整不会了。
之前花了无数时间调提示词、换种子、换模型,结果搞定这事儿的方法就是,直接拍给它看。
太简单了。
简单到我一开始不相信这能行。
但它就是能行。
这四条讲完了。我知道你可能在想,这也太麻烦了吧,建完四套资产库得花多少时间。
我跟你说个我自己的账。
我以前做AI视频的流程是,写提示词2分钟,生成1分钟,发现脸变了,改提示词2分钟,再生成1分钟,发现脸还是不对但问题变成了发型变了,再改,再生成。
一条10秒的视频,运气好20分钟出来,运气不好,一个下午就没了。最后挑出一条勉强能用的,收工。
现在呢。
一个角色资产库建好,20分钟。以后这条角色每生成一条新视频,稳定出片的概率不再是「六分之一」或者「十分之一」,而是接近「每次都能用」。
我以前一个下午可能出一条能用的片子。现在一个下午能出四五条,每一条的主角都是同一个人。
这就是系统化方法跟碰运气之间的差距。
跟上一篇文章一样,我想再次强调,AI视频工具本身没有问题。可灵3.0、Lip TV、Nano Banana、MiniMax Beat,这些都是很好的工具。但工具再强,你拿来做「一次性许愿」,它就给你一次性结果。你拿来做「工厂里的流水线」,它就给你稳定产出。
四步法说穿了就是一个流水线。流水线的上游是资产库,中游是生成,下游是你的判断和审美。
很多人以为AI时代核心竞争力是会用工具。但我觉得不是。会用工具的人太多了,每天都有新的AI教程出来,谁都能学。
真正的竞争力是,你愿不愿意花那20分钟,把别人觉得「太麻烦」的系统搭起来。
大部分人不会搭。不是因为笨,是因为懒。也不是因为懒,是因为他们总觉得「下一版工具会解决这个问题」「下个月的模型就不需要这么麻烦了」。
但说实话,我也不知道下一版会不会更好。
我只知道,今天把资产库建好的人,今天就开始稳定出片了。
明天再建的人,明天才开始。
一直等着的人,一直在等。
聊到这儿我突然想起一个词,叫「磨刀不误砍柴工」。小时候觉得很土的一句话。但现在做AI视频做久了发现,这句话是真理。
四步法就是你磨刀的过程。花20分钟磨刀,换来的是以后每次砍柴都不费劲。
但大多数人做的事是什么。拿着一把钝刀,拼命砍。砍不动了就换个方向继续砍。再砍不动了就换一把新刀继续砍。就是不磨。
AI时代磨刀这件事被严重低估了。
因为所有工具都在告诉你「一键生成」「一句话出片」「你不需要任何技能」。这些口号很诱人,但它们制造了一个巨大的幻觉,让你觉得未来不需要任何准备工作。
而真正做内容的人知道,准备才是胜负手。
准备决定了你每一条视频是「靠运气」还是「靠系统」。
好了,四步法我完整拆完了。总结一下,锁定人物,解决变脸问题。固定声音,解决「说不清的违和感」。限定场景,解决背景漂移。动作迁移,解决AI听不懂人话。
这四个资产库建好之后,每次做新的AI视频,你不是在「祈祷这一次能抽到好的」,而是在「调用你已经建好的生产系统」。
这两种感觉完全不同。
我不知道这套方法对大家有没有用,但我自己试下来,确实是我目前为止见过最系统的AI视频稳定方案。如果你也在做AI视频,或者想做但被「抽卡」折磨到怀疑人生,试试这四步。不需要一次全搭完,先从步骤一开始,把人物资产库建起来。
有些朋友上次看了《AI视频不是靠提示词,是靠资产库》,给我留言说思路打开了但不知道具体怎么弄。
希望这篇能补上那个窟窿。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标。
谢谢你看我的文章,我们,下次再见。
—— 大风扇 AI内容创作顾问
夜雨聆风