这个问题困扰了我很久。
带了3期训练营,前前后后500多个学员,我发现一个很有意思的现象。
大部分人学完工具操作之后,Seedance 2.0会用了,可灵3.0 Omni也会跑了,Vidu主体参考库也搞明白了,但做出来的片子,就是差点意思。
说不上来哪里不对,画面也挺好看的,角色也没崩,但放在一起看,总觉得像是一堆好看的素材拼在了一起,不像一部剧。
我一开始以为是工具的问题,后来发现不是。工具越来越强了,但片子的质量并没有同比提升。
带了几期训练营下来我终于想明白了,大部分人死的地方,根本不在技术上。
今天把这些坑全摊开讲一次。

很多学员特别积极,拿到工具就开始出图出视频,剧本随便写两段就上了。
结果做到后面发现,故事讲不下去了,或者讲下去了但没人想看完。
训练营第二期有个学员做修仙题材,技术操作没任何问题,Seedance 2.0玩得很溜,出图质量也很高。
他的开头是一段旁白,"在一个修仙的世界里,有一位天赋异禀的年轻人,他自幼失去双亲..."。我当时直接跟他说,这个开头在2026年,观众一秒都不会给你。
后来我们一起进行修改。
第一个镜头直接是主角满身是血被扔出宗门大门,摔在石阶上,仰角拍他抬头看向高处的师兄。
没有旁白,只有身体撞击石阶的音效和呼啸的风声。观众的第一反应是"怎么回事?",然后才愿意往下看。
这就是钩子的力量。
训练营里我们反复讲一个东西,叫六步节拍。
开场钩子、快速建立、矛盾加压、关键转折、当场兑现、结尾留钩。一集2分钟的AI真人剧,这六步可以压缩,但不能少。
我们做《凤主归来》的时候用的就是这个结构。三幕式,建置占25%,对抗占50%,结局占25%。
开头就是沈翎被赶出家门,直接扔进冲突。没有世界观介绍,没有人物关系铺垫,上来就是最激烈的矛盾场景。
观众看完这3秒,自然会想知道"她为什么被赶出来",然后你再用后面的剧情慢慢交代。
还有一个细节很多人忽略了,剧本的格式。
训练营里我们要求所有学员用专业剧本格式来写,场景题头、画面动作用△标注、对白、音效标注、V.O.内心独白,每个元素分开写清楚。
为什么?因为AI的理解能力跟你的输入格式直接相关。
你把剧本写成一段散文扔给AI,它不知道哪些是画面哪些是对白。但你用专业格式写,AI能精准地把每个元素拆开来理解,生成的分镜质量完全不一样。
这个认知差很大。很多人觉得剧本就是写个故事,其实剧本是一份"制作说明书",越规范,后面每一步越顺。
没有编导思维,镜头语言像PPT

我经常在训练营里看到一种片子,画面很精美,每一帧截出来都能当壁纸,但连在一起看,就像在看一个精美的PPT幻灯片。
问题出在哪?没有镜头语言。
什么叫镜头语言?简单说就是,你用什么景别、什么角度、什么运镜来讲这个故事。
远景交代环境氛围,全景展示人物全身和空间关系,中景推进互动叙事,近景表达角色情感,特写放大关键细节。
但很多学员的片子,从头到尾都是中景正面平拍。
两个人对话,机位不动,没有过肩镜头,没有正反打,没有轴线意识。观众看了30秒就走了,因为视觉上没有任何变化,大脑觉得无聊。
训练营里我们有个练习,把一个简单的动作拆成分镜来做。
比如"一个人拿起水瓶喝水",拆成3个镜头,手伸向水瓶的特写,仰头喝水的近景,放下水瓶的侧面中景。就这么一拆,画面立刻就有了节奏感。
然后进阶一点,加入角度变化。
仰角拍一个角色,他看起来就很强势、有压迫感。俯角拍另一个角色,他看起来就渺小、被压制。
两个角度一切换,角色之间的力量对比不用说一句话观众就感受到了。这就是角度在讲故事。
做《凤主归来》打斗场景的时候,我们用Vidu多参来控制过肩镜头。
前景是模糊的肩膀轮廓,后景聚焦角色的表情,正反打来回切。对话场景的紧张感一下就上来了。打的时候用仰角拍觉醒后的沈翎,俯角拍被压制的对手,再配一个环绕运镜展示全场态势。
运镜上也有讲究。推镜头是在接近和强调某个细节,拉镜头是在揭示一个更大的环境,摇镜头是在展示空间,跟镜头是在制造动态连接感,升降镜头能营造史诗感。
这里有个Seedance 2.0的技巧很多学员不知道。写提示词的时候,不要死板地限定"推镜头"或者"摇镜头",用概括性的指令描述你想要的画面情绪,让模型自己判断用什么运镜,效果反而比你指定的好。
比如你写"镜头缓缓接近角色的面部,展现她眼中的决心",比你写"push in, close-up"出来的东西更有感觉。
编导思维不是天赋,是可以训练的。最简单的方式就是拉片。
找一部你喜欢的短剧或者电影片段,暂停,逐镜头去看它用了什么景别、什么角度、什么运镜。你会发现,好的片子几乎没有连续两个镜头是同样景别的。
我们训练营里还有一个方法,对标拆解。
找一个你想达到的目标作品,把它的每个镜头记录下来,构图、色彩、氛围、分镜排列,然后用AI工具去复刻。
复刻的过程就是学习的过程,做三五个对标拆解之后,你出分镜的时候自然就知道该怎么排了。
镜头衔接突兀,观众一秒出戏

做出来的每一条视频单独看都还行,但拼在一起就不对了。
上一个镜头角色在左边,下一个镜头突然跳到右边。上一个镜头是白天的暖色调,下一个镜头突然变成冷色调。角色上一秒在抬手,下一秒手突然放下了。
这种突兀感,观众说不上来哪里不对,但就是觉得"假"。
根本原因是不懂镜头组接规则。
训练营里我们讲了四种相似性原则。
形状相似,上一个镜头是一轮圆月,下一个镜头切到一只圆瞳的眼睛,两个画面通过圆形这个元素连接起来,过渡很自然。
运动相似,上一个镜头角色挥剑从右向左划过,下一个镜头切到树叶被风从右向左吹落,运动方向一致,观众的视线不需要跳。
位置相似,上一个镜头角色站在画面右侧看向左边,下一个镜头切到另一个人站在画面左侧看向右边,两个人的视线在剪辑点"对上了"。
概念相似,上一个镜头是燃烧的火焰,下一个镜头切到角色愤怒的眼神,火焰和愤怒在概念上相通。
还有两个基本规则。动接动,静接静。运动的镜头接运动的镜头,静止的画面接静止的画面。
如果上一个镜头角色在跑,下一个镜头突然是一个完全静止的空镜,观众的大脑会"顿"一下。
30度规则也很重要。连续两个镜头的机位角度变化至少要超过30度,否则画面会有一种莫名的"跳动感",观众说不出来但就是不舒服。
但我带了这么多学员后发现,最有效也最容易被忽略的技巧,其实是声音转场。
J-Cut,下一个场景的声音先进来,画面再切过去。
比如两个人在室内密谋,下一个场景是战场。你可以在室内画面还没切走的时候,先让战场上的刀剑碰撞声和喊杀声小声进来,音量逐渐变大,然后画面再切到战场。观众的耳朵比眼睛先到了新场景,过渡就特别丝滑。
L-Cut反过来,画面先切到了新场景,但上一个场景的声音还在延续。
比如角色说了一句关键台词,画面已经切到了对方的反应,但那句话的尾音还在回荡。
我们知识库里有一个很经典的Sound Match案例。
海浪拍打礁石的画面配海浪声,下一个镜头切到角色在床上睡着的画面,声音从海浪声渐变成鼾声。
两个声音的音色和节奏很接近,观众感觉不到剪辑点在哪,场景转换就这么自然地完成了。
还有一个实操层面的建议。每次用Seedance 2.0或者可灵生成视频的时候,不要只想着这一条怎么好看,要想着它跟上一条怎么接、跟下一条怎么过渡。
首尾帧就是干这个用的,上一条视频的最后一帧导出来,当下一条视频的起始参考图。
可灵3.0 Omni的自定义分镜功能可以提前把多个分镜的衔接关系规划好,比一条一条单独生成再硬拼效果好太多。
其实分镜脚本阶段就应该想好衔接了。我们的分镜模板里专门有一列叫"入镜角色"和"场景标识",就是为了在脚本阶段就把上下镜头的关系理清楚,而不是等到剪辑台上再发愁。

这是我观察到的最被忽略的一个点。
500个学员里,可能有400个把80%的精力花在画面上,声音就是最后随便找首BGM一铺,配音用DubbingX跑一遍,音效基本没有。
但你去看任何一部让你觉得"质感好"的AI真人剧,声音一定是精心设计过的。
我们团队内部有一个共识,"AI漫剧真正的分水岭在视听语言"。视是画面,听是声音。两个缺一不可。
声音设计有三个层次,大部分人只做了第一层。
第一层是BGM。这个大家都知道,但做法不对。不是一首歌从头铺到尾。好的做法是按剧情的情绪弧线分段。
做《凤主归来》的时候,我们用Suno v5的Custom模式生成了三段不同情绪的BGM。
第一段对应沈翎被赶出门的段落,情绪是陨落和悲凉,我们在提示词里写的是类似"orchestral, melancholic, slow strings, minor key"这种风格描述,然后用元标签[Intro][Verse]控制结构,大概40秒。
第二段对应觉醒过程,情绪是危机和紧迫,节奏加快,加入了打击乐元素。
第三段对应反杀高潮,直接上史诗感的管弦乐和合唱。
三段BGM分别生成,后期按剧情节点拼接,在剪映里用淡入淡出做衔接。
一首歌铺到底和三段情绪BGM拼接的效果差距有多大?你试一次就知道了。
第二层是音效。这个被忽略得最严重,但提升也最明显。
音效分三种。环境音,风声、雨声、人群嘈杂声、森林里的鸟叫虫鸣,这些让观众觉得"这个场景是真实的"。
动作音,脚步声、开门声、拔剑声、衣袍摩擦声,这些让观众觉得"这个角色是活的"。
特殊音效,剑气划过空气的嗡鸣、能量爆发的冲击波、觉醒时的神秘低频共振,这些让观众觉得"这个场景很牛"。
做打斗场景的时候,海螺的特效表现很强,剑气、能量波、龙形态这些视觉特效配上对应的音效,冲击力翻倍。
我们用可灵的变速功能在关键打击瞬间做慢放,配上一个低沉的重击音效,然后恢复正常速度,这种"一击必杀"的节奏感是纯画面做不出来的。
音效哪里找?可灵和即梦现在都有AI音效生成功能,剪映的音效库覆盖了大部分常见场景,爱给网上有大量免费素材可以下载。
你做个实验就知道音效有多重要了。
把你做好的一段打斗片段,音效全关只留BGM,看一遍。然后把环境音、打击音、特效音全加上,再看一遍。同样的画面,感觉完全不一样。
第三层是节奏匹配。画面切换要卡在音乐的节拍上,重要的动作要配上重音效。
剪映里有波形图可以看音乐的节拍点。把画面的切点对到波形的峰值上,每一次镜头切换都踩在节拍上,片子的节奏感立刻出来了。
做《凤主归来》的时候,高潮段的打斗我们是先把BGM放好,然后按音乐的节拍点反过来决定画面在哪一帧切。
不是画面配音乐,是音乐带画面。
这三层全做好了,同样的画面素材,片子的质感能差出两个级别。
训练营里我们专门有一节课讲声音设计,每次讲完之后学员的作品质量都会有一个明显的跳升。

最后一个坑,不是技术问题,是心态问题。但可能是杀伤力最大的一个。
训练营里经常看到一种学员,一个3秒的镜头,反复抽卡几十次,想要一条"完美"的。
角色的手指有一帧不太对,重新生成。背景里有个不该出现的东西,重新生成。表情不够到位,重新生成。
一条3秒的视频,能调一整天。
我特别理解这种心态,因为我一开始也是这样的。
但带了500个学员之后我想明白了一件事,AI视频在现阶段就是有随机性的,你不可能做到每一帧都完美。
正确的做法是,快速生成、批量筛选、剪辑弥补。
一个镜头生成3-5条,挑最好的那条用。有小瑕疵怎么办?用剪辑解决。
训练营里我们教了一个叫"视频抽帧修复"的技巧。
如果一条视频前半段效果很好但后面崩了,在崩坏前的那一帧截出来,用图片模型(Nano Banana或者即梦)修一下,再把修好的图片作为起始帧重新图生视频,最后在剪映里把好的前半段和新生成的后半段拼接起来。这比从头重新生成整条视频效率高太多了。
远全景的大场景如果有细节缺陷,我们有一个叫"线稿分离法"的补救方案。
把有问题的画面提取线稿,再把角色图和背景图分别提取出来,三张图分别作为参考重新生成,成功率比直接重跑一条高很多。
还有一种情况是,某个镜头的主体动作很好但背景有穿帮。
这时候可以用即梦/豆包的智能参考修图功能,用嘴描述你想改的地方,"把背景里多出来的那个人去掉""把左边的墙壁颜色改成和右边一致",不需要重新生成整条视频。
九宫格批量出图也是个好方法。Nano Banana可以一次生成九张同风格的分镜图,一致性天然就有保障,然后从九张里挑最好的去生成视频,比一张一张出再挑要快。
其实说到底,这不只是效率问题,更是一个创作理念的问题。
我们团队内部做项目的时候有一个原则,一部片子的整体完成度,远比某一条视频片段的完美度重要。
观众看的是整体叙事和情绪体验,不会暂停到某一帧去检查角色的手指对不对。
把时间花在剧本打磨、节奏控制、声音设计这些决定整体质量的地方,比死磕某一条3秒的视频有价值得多。
完成比完美重要。先做完,再做好。
这句话听起来是老生常谈,但在AI视频这个领域,它可能是最重要的一条心法。

说了这么多,其实回过头来看,这几个坑归根到底就是一件事。
AI真人剧不只是一个技术活,它是一个创作活。
工具只是手里的笔,真正决定作品质量的,是你的剧本功底、编导思维、审美判断和声音感知。
这些东西,恰恰是AI替代不了的。也是我们团队做了这么多期训练营之后,越来越坚信的一点。
我们西羊石团队新一期的AI真人剧训练营正在筹备中,从剧本分镜到资产设计,从新的视频模型/工具实战到配音音效音乐设计,再到视听语言核心和剪辑实战,完整流程带着跑一遍。
如果你也想系统学习AI真人剧,可以加我的微信,关注一下后续训练营。

不管有没有参加训练营,希望今天这篇文章能帮你少走一些弯路。
以上就是今天的分享,如果觉得有用,随手点个赞、在看、转发三连吧,你的支持是我持续分享的最大动力。
关注「小鹿AI视频」,一起在AI视频这条路上向上生长 。
夜雨聆风