
一、总体流程概览:从“能做”到“能量产”
完整的工业化生产线应包含以下环节:

这套流程的核心逻辑是:先做资产库,再做视频;先做分镜,再生成镜头。
二、第一步:立项与剧本工程化(成败在此)
立项先行,而非先选模型
在开任何工具之前,先回答四个问题:
受众是谁?(男频/女频?国内/出海?)
题材是什么?(重生/霸总/悬疑/末日——高转化题材集中于情绪冲突强的类型)
目标是什么?(投流转化?账号涨粉?还是做IP孵化?)
预算档位?(测试型追求快;量产型追求稳;精品型追求质感和完成度)
剧本写“工程化剧本”,而非文学剧本
AI短剧是“拆件式生产”,剧本要提前考虑可视化资产。不要在剧本里写“他愤怒地冲了出去”,要写“他拍桌站起,快步走向门口”这种可以被AI理解和拆解的动作。
二、第一步:立项与剧本工程化(成败在此)
立项先行,而非先选模型
在开任何工具之前,先回答四个问题:
受众是谁?(男频/女频?国内/出海?)
题材是什么?(重生/霸总/悬疑/末日——高转化题材集中于情绪冲突强的类型)
目标是什么?(投流转化?账号涨粉?还是做IP孵化?)
预算档位?(测试型追求快;量产型追求稳;精品型追求质感和完成度)
剧本写“工程化剧本”,而非文学剧本
AI短剧是“拆件式生产”,剧本要提前考虑可视化资产。不要在剧本里写“他愤怒地冲了出去”,要写“他拍桌站起,快步走向门口”这种可以被AI理解和拆解的动作。
三、第二步:资产搭建(解决“变脸”问题)
角色一致性来自资产管理,不来自玄学提示词。
1. 人物资产包(标准化)
要建立一套包含中景标准图、四视图、不同情绪状态参考的素材库。生成人物时使用以下提示词框架:
【人物生成提示词模板】
text
[角色名],[年龄]岁[职业/身份],[核心外貌特征:发型、服装、身材]。[气质描述:如冷艳高贵、邻家温柔]。纯白背景,中景,正面朝向镜头,自然站立,双臂自然下垂。皮肤纹理自然,高清细节,电影级光影,写实风格。--ar 16:9💡 避坑:生成三视图(正/侧/背)并统一存放,后续所有镜头调用同一套基准图。
2. 场景资产包(多视角)
同一场景必须做多视角资产(正向、反打、广角),否则正反打剪辑必穿帮。
【场景生成提示词模板】
text
[场景名:如“总裁办公室”],[时间:白天/夜晚]。[空间描述:落地窗、深色实木办公桌、皮质沙发]。[光线:窗光为主,室内暖色辅助],[氛围:压抑/温馨/奢华]。空镜,无人物,16:9,超高清,室内设计摄影风格。四、第三步:分镜生成(精品化的分水岭)
直接生成整段视频容易失控。先将剧本拆解为镜头级脚本。
实战技巧:让AI帮你拆解剧本
把下面的系统提示词扔给DeepSeek或豆包,它能自动将剧本转成分镜提示词:
markdown
你是一位专业的AI视频生成提示词工程师。将剧本文本转化为结构化视频提示词。核心规则:1. 每段素材时长控制在5-15秒。2. 不同场景或大情绪转折点用“---”分隔。3. 台词一字不差保留,融入描述中:某某说:“台词内容”。4. 全局设定每段开头写:只生成音效,不要生成音乐。不要生成任何字幕。输出格式:【素材段落 1】只生成音效,不要生成音乐。不要生成任何字幕。0-X秒,[景别],[运镜],[画面描述+台词]X-X秒,[景别],[运镜],[画面描述]---
五、第四步:视频生成(三类核心提示词)
目前主流工具(如Seedance、可灵、Vidu等)均支持“参考生视频”。根据场景选择不同的提示词策略:
1. 3-5秒:简短过渡/反应镜头
策略:极简描述,只说动作和表情,不写运镜,让模型自己补全。
markdown
@图片1(男主)靠在椅背上,表情有些不耐烦地瞥了一眼窗外,轻轻叹了口气。2. 10-15秒:连续剧情/对话(推荐)
策略:直接喂剧本原文+资产绑定。注意:台词必须加双引号,且加上“只生成音效”的控制词,防止乱加BGM。
markdown
@图片1是[男主]。@图片2是[女主]。@图片3是[场景]。只生成音效,不生成音乐。不要生成任何字幕。男主皱眉看着文件,沉声道:“这个数据不对,谁给你的?”女主低头避开视线,小声说:“是我自己算的。”男主把文件摔在桌上。3. 15秒以上:精细化控制(多镜头切换)
策略:结构化分镜,精确到秒级的景别和运镜。
markdown
@图片1是[角色A]。@图片2是[角色B]。只生成音效,不生成音乐。不要生成任何字幕。0-3秒,全景,固定镜头,两人在客厅对峙。3-8秒,近景,缓慢推进,角色A眼眶泛红,哽咽道:“你为什么不早告诉我?”8-12秒,特写,切角色B的手,紧紧握拳,青筋暴起。12-15秒,中景,角色B转身离开,摔门而出。六、第五步:后期与修复(消除AI味)
1. 首尾帧接力(解决跳跃感)
AI生成视频最大的痛点是动作衔接不自然。标准解法是“首尾帧接力”:
生成视频A后,在剪辑软件截取最后一帧。
上传该截图作为下一段视频的首帧参考图。
提示词写入:
@图片X 作为首帧。
2. 台词与配音
AI口型:目前工具支持语音驱动口型,注意提示词中台词要用双引号包裹,否则嘴不动。
情绪配音:配音不要念稿。给配音员(或TTS模型)标注情绪指令:
(愤怒,压低声音)你再说一遍?。
3. 微表情补救
目前的AI对于“隐忍的愤怒”或“悲喜交加”这类高阶表演还原度有限。如果角色表情木讷,可以尝试:
换特写:不要给全景,给眼部或手部特写,减少表情复杂度。
用剪辑弥补:插入空镜(如雨中窗、破碎的杯子)来替代演员的复杂情绪表演。

七、避坑与合规(发行前置)
技术避坑:
不要直接整集生:越长的生成越容易失控,按镜头生成最稳。
多人同框:容易“串脸”。建议先分别生成单人镜头,后期用剪辑或AI换脸合成。
发行合规:
短剧审核趋严,从立项开始就要倒推平台审核标准(如价值观导向、血腥暴力限制等)。
投流素材要提前准备,不要在成片后再剪辑。
夜雨聆风