为什么你的AI真人剧总差点意思?带了500个学员后我想明白了

这个问题困扰了我很久。

带了3期训练营，前前后后500多个学员，我发现一个很有意思的现象。

大部分人学完工具操作之后，Seedance 2.0会用了，可灵3.0 Omni也会跑了，Vidu主体参考库也搞明白了，但做出来的片子，就是差点意思。

说不上来哪里不对，画面也挺好看的，角色也没崩，但放在一起看，总觉得像是一堆好看的素材拼在了一起，不像一部剧。

我一开始以为是工具的问题，后来发现不是。工具越来越强了，但片子的质量并没有同比提升。

带了几期训练营下来我终于想明白了，大部分人死的地方，根本不在技术上。

今天把这些坑全摊开讲一次。

剧本太弱，前3秒就丢了观众

这是最底层的问题，也是最容易被忽略的。

很多学员特别积极，拿到工具就开始出图出视频，剧本随便写两段就上了。

结果做到后面发现，故事讲不下去了，或者讲下去了但没人想看完。

训练营第二期有个学员做修仙题材，技术操作没任何问题，Seedance 2.0玩得很溜，出图质量也很高。

他的开头是一段旁白，"在一个修仙的世界里，有一位天赋异禀的年轻人，他自幼失去双亲..."。我当时直接跟他说，这个开头在2026年，观众一秒都不会给你。

后来我们一起进行修改。

第一个镜头直接是主角满身是血被扔出宗门大门，摔在石阶上，仰角拍他抬头看向高处的师兄。

没有旁白，只有身体撞击石阶的音效和呼啸的风声。观众的第一反应是"怎么回事？"，然后才愿意往下看。

这就是钩子的力量。

训练营里我们反复讲一个东西，叫六步节拍。

开场钩子、快速建立、矛盾加压、关键转折、当场兑现、结尾留钩。一集2分钟的AI真人剧，这六步可以压缩，但不能少。

我们做《凤主归来》的时候用的就是这个结构。三幕式，建置占25%，对抗占50%，结局占25%。

开头就是沈翎被赶出家门，直接扔进冲突。没有世界观介绍，没有人物关系铺垫，上来就是最激烈的矛盾场景。

观众看完这3秒，自然会想知道"她为什么被赶出来"，然后你再用后面的剧情慢慢交代。

还有一个细节很多人忽略了，剧本的格式。

训练营里我们要求所有学员用专业剧本格式来写，场景题头、画面动作用△标注、对白、音效标注、V.O.内心独白，每个元素分开写清楚。

为什么？因为AI的理解能力跟你的输入格式直接相关。

你把剧本写成一段散文扔给AI，它不知道哪些是画面哪些是对白。但你用专业格式写，AI能精准地把每个元素拆开来理解，生成的分镜质量完全不一样。

这个认知差很大。很多人觉得剧本就是写个故事，其实剧本是一份"制作说明书"，越规范，后面每一步越顺。

没有编导思维，镜头语言像PPT

我经常在训练营里看到一种片子，画面很精美，每一帧截出来都能当壁纸，但连在一起看，就像在看一个精美的PPT幻灯片。

问题出在哪？没有镜头语言。

什么叫镜头语言？简单说就是，你用什么景别、什么角度、什么运镜来讲这个故事。

远景交代环境氛围，全景展示人物全身和空间关系，中景推进互动叙事，近景表达角色情感，特写放大关键细节。

但很多学员的片子，从头到尾都是中景正面平拍。

两个人对话，机位不动，没有过肩镜头，没有正反打，没有轴线意识。观众看了30秒就走了，因为视觉上没有任何变化，大脑觉得无聊。

训练营里我们有个练习，把一个简单的动作拆成分镜来做。

比如"一个人拿起水瓶喝水"，拆成3个镜头，手伸向水瓶的特写，仰头喝水的近景，放下水瓶的侧面中景。就这么一拆，画面立刻就有了节奏感。

然后进阶一点，加入角度变化。

仰角拍一个角色，他看起来就很强势、有压迫感。俯角拍另一个角色，他看起来就渺小、被压制。

两个角度一切换，角色之间的力量对比不用说一句话观众就感受到了。这就是角度在讲故事。

做《凤主归来》打斗场景的时候，我们用Vidu多参来控制过肩镜头。

前景是模糊的肩膀轮廓，后景聚焦角色的表情，正反打来回切。对话场景的紧张感一下就上来了。打的时候用仰角拍觉醒后的沈翎，俯角拍被压制的对手，再配一个环绕运镜展示全场态势。

运镜上也有讲究。推镜头是在接近和强调某个细节，拉镜头是在揭示一个更大的环境，摇镜头是在展示空间，跟镜头是在制造动态连接感，升降镜头能营造史诗感。

这里有个Seedance 2.0的技巧很多学员不知道。写提示词的时候，不要死板地限定"推镜头"或者"摇镜头"，用概括性的指令描述你想要的画面情绪，让模型自己判断用什么运镜，效果反而比你指定的好。

比如你写"镜头缓缓接近角色的面部，展现她眼中的决心"，比你写"push in, close-up"出来的东西更有感觉。

编导思维不是天赋，是可以训练的。最简单的方式就是拉片。

找一部你喜欢的短剧或者电影片段，暂停，逐镜头去看它用了什么景别、什么角度、什么运镜。你会发现，好的片子几乎没有连续两个镜头是同样景别的。

我们训练营里还有一个方法，对标拆解。

找一个你想达到的目标作品，把它的每个镜头记录下来，构图、色彩、氛围、分镜排列，然后用AI工具去复刻。

复刻的过程就是学习的过程，做三五个对标拆解之后，你出分镜的时候自然就知道该怎么排了。

镜头衔接突兀，观众一秒出戏

做出来的每一条视频单独看都还行，但拼在一起就不对了。

上一个镜头角色在左边，下一个镜头突然跳到右边。上一个镜头是白天的暖色调，下一个镜头突然变成冷色调。角色上一秒在抬手，下一秒手突然放下了。

这种突兀感，观众说不上来哪里不对，但就是觉得"假"。

根本原因是不懂镜头组接规则。

训练营里我们讲了四种相似性原则。

形状相似，上一个镜头是一轮圆月，下一个镜头切到一只圆瞳的眼睛，两个画面通过圆形这个元素连接起来，过渡很自然。

运动相似，上一个镜头角色挥剑从右向左划过，下一个镜头切到树叶被风从右向左吹落，运动方向一致，观众的视线不需要跳。

位置相似，上一个镜头角色站在画面右侧看向左边，下一个镜头切到另一个人站在画面左侧看向右边，两个人的视线在剪辑点"对上了"。

概念相似，上一个镜头是燃烧的火焰，下一个镜头切到角色愤怒的眼神，火焰和愤怒在概念上相通。

还有两个基本规则。动接动，静接静。运动的镜头接运动的镜头，静止的画面接静止的画面。

如果上一个镜头角色在跑，下一个镜头突然是一个完全静止的空镜，观众的大脑会"顿"一下。

30度规则也很重要。连续两个镜头的机位角度变化至少要超过30度，否则画面会有一种莫名的"跳动感"，观众说不出来但就是不舒服。

但我带了这么多学员后发现，最有效也最容易被忽略的技巧，其实是声音转场。

J-Cut，下一个场景的声音先进来，画面再切过去。

比如两个人在室内密谋，下一个场景是战场。你可以在室内画面还没切走的时候，先让战场上的刀剑碰撞声和喊杀声小声进来，音量逐渐变大，然后画面再切到战场。观众的耳朵比眼睛先到了新场景，过渡就特别丝滑。

L-Cut反过来，画面先切到了新场景，但上一个场景的声音还在延续。

比如角色说了一句关键台词，画面已经切到了对方的反应，但那句话的尾音还在回荡。

我们知识库里有一个很经典的Sound Match案例。

海浪拍打礁石的画面配海浪声，下一个镜头切到角色在床上睡着的画面，声音从海浪声渐变成鼾声。

两个声音的音色和节奏很接近，观众感觉不到剪辑点在哪，场景转换就这么自然地完成了。

还有一个实操层面的建议。每次用Seedance 2.0或者可灵生成视频的时候，不要只想着这一条怎么好看，要想着它跟上一条怎么接、跟下一条怎么过渡。

首尾帧就是干这个用的，上一条视频的最后一帧导出来，当下一条视频的起始参考图。

可灵3.0 Omni的自定义分镜功能可以提前把多个分镜的衔接关系规划好，比一条一条单独生成再硬拼效果好太多。

其实分镜脚本阶段就应该想好衔接了。我们的分镜模板里专门有一列叫"入镜角色"和"场景标识"，就是为了在脚本阶段就把上下镜头的关系理清楚，而不是等到剪辑台上再发愁。

声音设计被严重低估

这是我观察到的最被忽略的一个点。

500个学员里，可能有400个把80%的精力花在画面上，声音就是最后随便找首BGM一铺，配音用DubbingX跑一遍，音效基本没有。

但你去看任何一部让你觉得"质感好"的AI真人剧，声音一定是精心设计过的。

我们团队内部有一个共识，"AI漫剧真正的分水岭在视听语言"。视是画面，听是声音。两个缺一不可。

声音设计有三个层次，大部分人只做了第一层。

第一层是BGM。这个大家都知道，但做法不对。不是一首歌从头铺到尾。好的做法是按剧情的情绪弧线分段。

做《凤主归来》的时候，我们用Suno v5的Custom模式生成了三段不同情绪的BGM。

第一段对应沈翎被赶出门的段落，情绪是陨落和悲凉，我们在提示词里写的是类似"orchestral, melancholic, slow strings, minor key"这种风格描述，然后用元标签[Intro][Verse]控制结构，大概40秒。

第二段对应觉醒过程，情绪是危机和紧迫，节奏加快，加入了打击乐元素。

第三段对应反杀高潮，直接上史诗感的管弦乐和合唱。

三段BGM分别生成，后期按剧情节点拼接，在剪映里用淡入淡出做衔接。

一首歌铺到底和三段情绪BGM拼接的效果差距有多大？你试一次就知道了。

第二层是音效。这个被忽略得最严重，但提升也最明显。

音效分三种。环境音，风声、雨声、人群嘈杂声、森林里的鸟叫虫鸣，这些让观众觉得"这个场景是真实的"。

动作音，脚步声、开门声、拔剑声、衣袍摩擦声，这些让观众觉得"这个角色是活的"。

特殊音效，剑气划过空气的嗡鸣、能量爆发的冲击波、觉醒时的神秘低频共振，这些让观众觉得"这个场景很牛"。

做打斗场景的时候，海螺的特效表现很强，剑气、能量波、龙形态这些视觉特效配上对应的音效，冲击力翻倍。

我们用可灵的变速功能在关键打击瞬间做慢放，配上一个低沉的重击音效，然后恢复正常速度，这种"一击必杀"的节奏感是纯画面做不出来的。

音效哪里找？可灵和即梦现在都有AI音效生成功能，剪映的音效库覆盖了大部分常见场景，爱给网上有大量免费素材可以下载。

你做个实验就知道音效有多重要了。

把你做好的一段打斗片段，音效全关只留BGM，看一遍。然后把环境音、打击音、特效音全加上，再看一遍。同样的画面，感觉完全不一样。

第三层是节奏匹配。画面切换要卡在音乐的节拍上，重要的动作要配上重音效。

剪映里有波形图可以看音乐的节拍点。把画面的切点对到波形的峰值上，每一次镜头切换都踩在节拍上，片子的节奏感立刻出来了。

做《凤主归来》的时候，高潮段的打斗我们是先把BGM放好，然后按音乐的节拍点反过来决定画面在哪一帧切。

不是画面配音乐，是音乐带画面。

这三层全做好了，同样的画面素材，片子的质感能差出两个级别。

训练营里我们专门有一节课讲声音设计，每次讲完之后学员的作品质量都会有一个明显的跳升。

死磕单条不放手

最后一个坑，不是技术问题，是心态问题。但可能是杀伤力最大的一个。

训练营里经常看到一种学员，一个3秒的镜头，反复抽卡几十次，想要一条"完美"的。

角色的手指有一帧不太对，重新生成。背景里有个不该出现的东西，重新生成。表情不够到位，重新生成。

一条3秒的视频，能调一整天。

我特别理解这种心态，因为我一开始也是这样的。

但带了500个学员之后我想明白了一件事，AI视频在现阶段就是有随机性的，你不可能做到每一帧都完美。

正确的做法是，快速生成、批量筛选、剪辑弥补。

一个镜头生成3-5条，挑最好的那条用。有小瑕疵怎么办？用剪辑解决。

训练营里我们教了一个叫"视频抽帧修复"的技巧。

如果一条视频前半段效果很好但后面崩了，在崩坏前的那一帧截出来，用图片模型（Nano Banana或者即梦）修一下，再把修好的图片作为起始帧重新图生视频，最后在剪映里把好的前半段和新生成的后半段拼接起来。这比从头重新生成整条视频效率高太多了。

远全景的大场景如果有细节缺陷，我们有一个叫"线稿分离法"的补救方案。

把有问题的画面提取线稿，再把角色图和背景图分别提取出来，三张图分别作为参考重新生成，成功率比直接重跑一条高很多。

还有一种情况是，某个镜头的主体动作很好但背景有穿帮。

这时候可以用即梦/豆包的智能参考修图功能，用嘴描述你想改的地方，"把背景里多出来的那个人去掉""把左边的墙壁颜色改成和右边一致"，不需要重新生成整条视频。

九宫格批量出图也是个好方法。Nano Banana可以一次生成九张同风格的分镜图，一致性天然就有保障，然后从九张里挑最好的去生成视频，比一张一张出再挑要快。

其实说到底，这不只是效率问题，更是一个创作理念的问题。

我们团队内部做项目的时候有一个原则，一部片子的整体完成度，远比某一条视频片段的完美度重要。

观众看的是整体叙事和情绪体验，不会暂停到某一帧去检查角色的手指对不对。

把时间花在剧本打磨、节奏控制、声音设计这些决定整体质量的地方，比死磕某一条3秒的视频有价值得多。

完成比完美重要。先做完，再做好。

这句话听起来是老生常谈，但在AI视频这个领域，它可能是最重要的一条心法。

写在最后

说了这么多，其实回过头来看，这几个坑归根到底就是一件事。

AI真人剧不只是一个技术活，它是一个创作活。

工具只是手里的笔，真正决定作品质量的，是你的剧本功底、编导思维、审美判断和声音感知。

这些东西，恰恰是AI替代不了的。也是我们团队做了这么多期训练营之后，越来越坚信的一点。

我们西羊石团队新一期的AI真人剧训练营正在筹备中，从剧本分镜到资产设计，从新的视频模型/工具实战到配音音效音乐设计，再到视听语言核心和剪辑实战，完整流程带着跑一遍。

如果你也想系统学习AI真人剧，可以加我的微信，关注一下后续训练营。

不管有没有参加训练营，希望今天这篇文章能帮你少走一些弯路。

以上就是今天的分享，如果觉得有用，随手点个赞、在看、转发三连吧，你的支持是我持续分享的最大动力。

关注「小鹿AI视频」，一起在AI视频这条路上向上生长。