过去一个月,我们团队做了一期AI真人剧训练营,带了几百个学员从零开始做AI真人剧。
有一个很明显的感受:大部分人不是不努力,而是方向错了。
他们花大量时间在已经过时的方法上,用2024年的工作流做2026年的内容。
结果就是出片慢、质量差、废片率高,做着做着就放弃了。
今天这篇文章,我把最常见的5个弯路整理出来,每一个都是我们团队踩过的坑,或者在训练营里反复看到学员犯的错。
如果你正在做AI真人剧,或者准备入行,建议花15分钟看完全文。
弯路一:还在用"文-图-视-音-剪"五步流程

这是2024年AI视频的经典工作流:写剧本→出分镜图→图生视频→配音配乐→剪辑成片。
这个流程在当时是合理的,因为那时候的视频模型能力有限,必须先出一张张精确的分镜图,再用图生视频去"还原"这张图。
但到了2026年,视频模型已经发生了质的变化。
Seedance 2.0、可灵3.0 Omni、Vidu Q3,这三个模型都支持"参考生视频"。
你上传角色参考图、场景参考图,写一段描述,它直接帮你生成视频,不需要你先出一张完美的分镜图。
我们团队在做《凤主归来》这个案例的时候,就已经全面切换到了新工作流。
角色沈翎有三套造型(凡人态、觉醒态、凤凰态),我们没有为每个镜头单独出分镜图,而是先用MJ niji 7把三套造型的三视图做好,存入资产库,后续所有镜头直接调用参考生视频。
整个项目的出图量比以前减少了60%以上,但成片质量反而更高了。
所以我们现在用的工作流是四步:文→资→视→剪。
"资"是资产池,角色资产(三视图+面部特写)、场景资产(多角度)、道具资产(纯白底)。
你把资产准备好,后面所有镜头都从这个资产池里调用。这比一张一张出分镜图效率高太多了。
正确做法:
剧本拆完之后,先提炼角色/场景/道具资产清单
集中精力把资产做好(角色三视图用21:9比例,面部特写占1/3,正侧背视图占2/3)
场景资产要出多角度(正反打+侧面全景),而且不要出现人物
道具资产用纯白底、1:1比例
用参考生视频直接出镜头,只在必要时才出分镜图
分镜图的作用变了,不再是流水线上的必经环节,而是精准外科手术:降低关键镜头的抽卡率、修复残次镜头、做空镜情绪定格。
这一个改变,能让你的出片效率提升至少2-3倍。

角色一致性是AI真人剧要重点关注的问题之一。
主角在第一个镜头是这张脸,第二个镜头就变了另一个人,这是每个做AI视频的人都经历过的崩溃。
2024年的解决方案是训练LoRA。用角色的照片训练一个专属模型,然后每次生成都调用这个LoRA。
问题是:
训练门槛高,需要准备数据集、调参数、跑训练
训练时间长,一个角色至少几个小时
换个角色就要重新训练
效果还不一定稳定
2026年,你不需要训练LoRA了。
现在三大视频模型都有"主体库"或"参考模式":
Seedance 2.0的全能参考模式: 最多上传9张图+3个视频+3个音频,用@符号指定"图1是主角,图2是场景,图3是道具",模型自动保持一致性。
一次可以放多个角色,全员参考,所有人的脸都不崩。
我们在做训练营学员作业点评的时候发现,用Seedance 2.0全能参考做多角色对话场景,角色一致性已经非常稳了。
可灵3.0 Omni的主体库: 上传一段3-8秒的角色视频,系统自动提取角色特征甚至音色,后续生成时直接从主体库调用。它的优势是画质最稳定,真人写实效果很强,但价格也最贵。
Vidu Q3的多参考: 最多7张参考图,创建主体库管理角色,提示词用@引用。
正确做法:
花时间做好角色的三视图(正面+侧面+背面+面部特写,21:9比例)
出图工具推荐:即梦最懂中文和东方美学,z-image/LibLib真实感最强,Nano Banana多图融合能力最强
把三视图存入各平台的主体库/参考模式
多角色同框时,用全员参考模式,明确指定每张图对应谁
三张照片搞定的事,不要再花几个小时去训练LoRA了。
弯路三:运镜提示词写得太死板

这是一个很多人不知道的细节。
大部分教程会告诉你,运镜要写具体:push in(推镜头)、pan left(左摇)、tracking shot(跟踪镜头)。
这在2024年是非常合理的,因为那时候模型需要明确指令才能执行运镜。
但Seedance 2.0有一个特性:概括性指令的效果,往往比死板限定单一运镜要好。
什么意思?
比如你想拍一个角色走进房间的镜头。
❌ 死板写法:"Medium shot, camera slowly pushes in, character walks into the room"
✅ 概括性写法:"镜头跟随角色走进昏暗的房间,光线从窗户洒进来,角色停下脚步环顾四周"
后者没有指定具体运镜方式,但描述了画面的情绪和动态。
模型会自己判断用什么运镜最合适,可能是跟镜头接一个缓推,可能是先拉后推,效果往往比你指定的更自然、更有电影感。
我们在做《凤主归来》的打斗场景时就深刻体会到了这一点。
一开始写死了"环绕镜头+慢动作",生成的画面很机械。
后来改成描述情绪,"沈翎凤凰之力觉醒,金色火焰从身体迸发,周围的敌人被气浪震退"。
模型自己选择了一个从低角度仰拍到环绕上升的运镜组合,效果比我们预设的好得多。
这背后的逻辑是: 2026年的视频模型已经学过海量的影视素材,它"懂"什么场景该用什么运镜。
你把创作空间交给它,它反而能给你惊喜。你把运镜写死了,它只能机械执行,反而显得呆板。
当然,有些特殊运镜还是要明确指定。
比如我们团队在做破局行动营宣传片时,用Vidu的首尾帧做穿梭特效,用可灵2.1做特效镜头,这些都需要精确控制。但日常叙事镜头,概括性描述是更好的选择。
正确做法:
日常叙事镜头:描述画面情绪和动态,让模型自由发挥运镜
特殊效果镜头:明确指定运镜方式(FPV穿梭/环绕360度/升降等)
提示词公式:【运镜(可选)】+【景别】+【角度】+【主体描述】+【运动描述】+【环境氛围】
多试几次,对比"写死运镜"和"概括性描述"的效果差异,你会有惊喜
弯路四:只关注画面,忽略声音设计

我见过太多AI真人剧,画面做得很精致,但一看就觉得"不像剧"。为什么?因为声音太粗糙了。
要么是全程一首BGM从头放到尾,要么是配音和画面对不上节奏,要么是完全没有环境音和音效。
角色在森林里走,一点虫鸣鸟叫都没有,安静得像在摄影棚。
我们团队有个学员的作品让我印象很深。
他的画面质量其实一般,但声音设计做得非常好,角色在古寺里对话,背景有风铃声、远处的诵经声、脚踩石板的回响。
看完之后你会觉得"这个片子有质感",但如果你仔细看画面,其实有不少AI的痕迹。
声音帮他遮住了画面的瑕疵。
声音占观众感知的50%以上。 一个画面普通但声音设计精良的片子,观感远好于画面精致但声音粗糙的片子。
这里分享两个专业影视剪辑中常用的声音技巧,用在AI真人剧里效果立竿见影:
J-Cut(声音先入): 画面还没切到下一个场景,但下一个场景的声音已经先进来了。
比如角色还在室内说话,但你已经能听到室外的雨声,然后画面才切到室外。这会让转场非常丝滑,观众甚至感觉不到"切了一刀"。
L-Cut(声音后延): 画面已经切到下一个场景了,但上一个场景的声音还在延续。
比如角色说完一句话,画面已经切到对方的反应,但说话声还在继续。这会让对话更自然,不像乒乓球一样来回切。
我们知识库里有一篇文章《AI漫剧真正的分水岭在视听语言》里面举了一个很好的例子:用海浪声过渡到鼾声,两个声音的音色和节奏相似(Sound Match),观众会觉得转场特别巧妙。
这种声音设计的细节,才是区分"业余"和"专业"的分水岭。
除了这两个技巧,音效要分三层:
环境音:场景的底噪(森林虫鸣、城市车流、室内空调嗡嗡声)
动作音:角色的动作声(脚步、开门、拔剑、翻书)
特殊音效:情绪强化(心跳加速、回忆闪回的嗡鸣、打斗的冲击波)
三层叠在一起,你的片子立刻就有了"空间感"和"沉浸感"。
工具推荐:
配音:DubbingX(多情绪控制最强,我们训练营主力工具)、MiniMax(拟真度最高)、ElevenLabs(多语言标杆)
音乐:Suno v5用Custom模式,加元标签[Intro][Verse][Chorus][Bridge][Outro]控制音乐结构
音效:剪映AI音效、爱给网素材库、可灵/即梦自带的音画同出功能
正确做法:
剧本阶段就标注音效(专业剧本格式里有音效标注位,用括号标注环境音和动作音)
分镜阶段提前规划声音延续(哪里用J-Cut,哪里用L-Cut)
剪辑时先铺环境音底噪,再加动作音效,最后叠BGM
BGM不要一首歌从头放到尾,按情绪分段,用"阶梯式"淡入淡出衔接
弯路五:废片率高,靠"多抽几次"解决

做AI真人剧最烧钱烧时间的环节是什么?不是做资产,而是抽卡。
生成一条视频,效果不好,再生一条。还不好,再来。一个镜头抽十几次,最后挑一条勉强能用的。
这不是创作,这是开盲盒。
废片率高的根本原因不是运气差,而是你没有给模型足够的"约束条件"。
模型的自由度越高,结果的随机性就越大。你只给一句提示词,模型有一万种理解方式,当然大部分不是你想要的。
降低废片率的核心思路是:用各种方式收窄模型的自由度,让它只能往你想要的方向走。
具体方法:
方法1:关键镜头用分镜图做"视觉锚点"
虽然前面说了不需要每个镜头都出分镜图,但对于关键镜头(情绪高潮、打斗场景、转场衔接),出一张分镜图再生视频,废片率能降一半以上。
我们在做2D漫剧的时候总结了一个技巧:用Nano Banana生成九宫格批量分镜图,一次出9张保持风格一致,然后挑最好的几张作为关键帧。
这比一张一张出图效率高很多,而且九宫格天然保持了画风统一。
方法2:首尾帧精确控制
首尾帧技术是降低废片率的大杀器。你指定视频的第一帧和最后一帧分别是什么画面,模型只需要生成中间的过渡。
我们在做《凤主归来》的时候,有一个沈翎拔剑的镜头,直接生成总是动作不对。后来用首尾帧,"手握剑柄"作为首帧,"剑完全拔出、寒光一闪"作为尾帧,一次就成了。
首尾帧还有一个妙用:做无缝转场。
A镜头的尾帧和B镜头的首帧用同一张图(或者构图相似的图),生成出来的两段视频天然就能丝滑衔接。
我们在做岳阳楼AIGC大赛作品的时候,用了瞳孔转场、老鹰转场、蝴蝶转场,都是靠首尾帧实现的。
方法3:复杂动作分解
一个镜头里动作太复杂,模型处理不了,就拆成多个简单动作分别生成,最后剪辑拼接。
比如"角色打开打火机点烟"这个动作,拆成:
镜头1:手掏出打火机(特写)
镜头2:打火机打开,火焰亮起(特写)
镜头3:火焰靠近烟,角色吸气(近景)
每个镜头的动作都很简单,模型轻松搞定。剪在一起,观众看到的是一个流畅的连续动作。
这其实就是专业影视里的"蒙太奇"思维,用多个简单镜头组合出复杂叙事。
方法4:截帧修复再回灌
这是一个很实用的补救技巧。如果一条视频前半段很好,后半段崩了:
截取崩坏前的最后一帧(完美帧)
用图片模型修复这一帧(Nano Banana改图、即梦局部重绘、可灵O1修复都行)
把修复后的图片作为新的首帧,重新生成后半段
剪辑拼接
我们在知识库里把这个叫"远全景缺陷修复法"。
还有一个进阶版,线稿分离法:提取崩坏帧的线稿、角色图、背景图,分别修复后重新合成,再作为首帧回灌。适合那些构图很好但细节崩了的镜头。
方法5:善用视频模型截帧替代出图
有些复杂姿态(比如角色侧身回头、半蹲战斗姿势、过肩镜头),用图片模型很难直接生成。但视频模型在运动过程中会经过各种姿态。
技巧:先用视频模型生成一段动作视频(哪怕整体效果一般),然后逐帧检查,找到姿态最完美的那一帧截出来,高清放大,作为分镜图或首帧使用。
120帧的视频里,总有那么1-2帧是完美的。我们在做2D漫剧全流程的时候经常用这个方法,特别是过肩镜头和仰角镜头,图片模型很难直接出,但视频模型运动过程中自然会经过这些角度。
写在最后

这5个弯路,不是什么高深的理论,都是我们团队在实际出片和带训练营过程中总结出来的。
说白了就一句话:AI真人剧的工具和方法在快速迭代,你的工作流也必须跟着迭代。
2024年的最佳实践,到2026年可能就是弯路。不是你不够努力,是方法过时了。
而且说实话,光知道"正确方法"还不够。从知道到做到,中间隔着大量的实操细节。
提示词怎么写、参数怎么调、不同工具在什么场景下效果最好、出了问题怎么补救。这些东西,文章里能讲的只是冰山一角。
我们西羊石团队马上要开下一期AI真人剧训练营了。这一期除了从剧本到成片的完整流程教学,我们还做了一件事:把核心操作流程封装成了智能体。
什么意思?比如拆剧本、拆分镜、生成提示词、批量出图这些重复性高的环节,你不需要自己一步一步手动操作,直接用我们封装好的智能体,输入素材就能自动跑流程。
相当于你有了一个AI助手帮你干活,你只需要把精力放在创意和审美上。
如果你想系统学习最新的AI真人剧制作方法,可以扫码加我的微信,关注后续的开营通知。

我是麋鹿,一个用AI做视频的人。关注我,持续分享AI视频的实战干货。
夜雨聆风