
制作一部高质量的真人AI短剧,需要从创意策划、视觉生成到后期制作与发行全链条协同发力。结合当前主流的AI视频创作工具链,以下为你系统梳理真人AI短剧的全流程制作步骤、核心提示词技巧,并分享关键环节的高质量提示词模板。
一、全流程制作步骤
AI短剧制作可划分为 创意策划 → 视觉生成 → 后期制作 → 发布运营 四大阶段,整体采用“AI生成+人工优化”的协同模式进行。
阶段一:创意策划与剧本生成
1. 题材定位与剧本大纲
优先选择高传播题材,目前情感向、悬疑向、爽文逆袭是短剧中热度最高的三类方向。将选题方向输入DeepSeek等大模型生成分集大纲,每集控制在500–800字剧本,需包含场景描述、台词和情感节点。
推荐剧本生成提示词模板:
text
你是一位资深网剧导演,擅长将文字内容转化为视觉化脚本。请根据以下小说片段生成拍摄方案:- 目标时长:120秒- 核心情绪:悬疑+热血- 输出格式:分镜表(含景别/运镜/画面描述/台词/时长)- 特殊要求:第8镜头需设计主观视角镜头该模板采用“角色-任务-约束”的三段式结构,能有效引导大模型输出结构化、可直接用于后续制作的分镜方案。
2. 分镜脚本设计
将每集剧本拆解为15–25个分镜,每个分镜需明确:场景描述、镜头类型(远景/近景/特写)、人物动作、情绪状态和预估时长。同时,分镜脚本应进一步转化为可被AI理解的元数据结构:
json
{"scene_id":"S001","location":"未来科技公司前台","characters":[{"name":"林小满","action":"抱着纸箱踉跄进门"}],"dialogue":"第37次面试,这次一定要...","camera":{"type":"中景","duration":3}}
将剧本按上述格式拆解后,即可为后续的视频生成环节提供清晰的“施工蓝图”,大幅降低镜头衔接的复杂度。
阶段二:角色设计与视觉生成
3. 角色设定与参考图准备
解决角色一致性问题是AI短剧制作中最大的技术难点。当前主流AI视频模型(包括Runway Gen-2、Pika等)本质是“无记忆”的概率采样器,仅靠文字描述很难保证跨镜头面部特征稳定。
正确做法是:用即梦AI或Midjourney为主角生成3–5张不同角度的参考图,统一服装、发型和面部特征。然后,在视频生成工具中绑定这些参考图以固定角色ID,确保各镜头中角色外貌稳定。
角色一致性提示词模板:
文生视频完整公式:
text
[主体描述] + [场景描述] + [运动描述] + [美学控制] + [风格化]真人角色定妆提示词示例(即梦Midjourney风格):
text
一位25岁亚洲女性,长发,深灰色职业西装,站立在赛博朋克风格的未来科技公司前台前,金色猫眼妆容,口红色号为豆沙粉,面部无瑕疵,4K超高清,电影级写实风格,专业人像摄影,85mm镜头,柔光布光,背景虚化。这是基于“主体→场景→运动→风格”四维模型的高质量提示词设计方法,可以最大限度保证生成角色的一致性。
动态角色一致性控制实操技巧:
分段生成策略:将长镜头拆解为3–5秒的短片段逐步生成。
首尾帧接力法:以上一段生成的最后一帧作为下一段的首帧输入,强制保持视觉连贯性。
运动幅度控制:在图生视频中将运动强度控制在中等水平(如5–7),避免大幅动作导致角色崩坏。
4. 视频素材生成
使用可灵AI(Kling)、即梦Seedance、Runway Gen-3等主流视频生成工具,逐段生成各分镜的动态视频片段。这是整个流程中工作量最大、最考验提示词能力的环节。
结构化视频生成提示词模板:
text
[SCENE] 夜晚舒适的拉面吧,霓虹红色的氛围,雨水划过窗户。[SHOT] 厨师摆放面条的中近景;浅景深。[CAMERA] 缓慢的推轨镜头,3秒;焦距约为50mm。[ACTION] 蒸汽升腾;筷子轻轻敲击碗;淋油。[LOOK] 暖肤色;电影对比度;自然的运动模糊。[OUTPUT] 8秒片段,24 fps,2.39:1的画幅比例。上述模板采用标签化结构(SCENE/SHOT/CAMERA/ACTION/LOOK/OUTPUT),是目前业界公认的高效视频提示词写法,每个标签单独成行,能使AI模型更准确地理解创作意图。
通用视频提示词精华版:
text
[主体] = 人物/物体核心描述[场景] = 环境、背景、光照[运动] = 动作描述 + 幅度/速率[美学] = 镜头类型/景别 + 运镜方式[风格] = 视觉画风 + 影调风格这是阿里云万相平台推荐的提示词基础公式,适用于绝大多数主流AI视频生成工具。
真人动作视频示例:
text
一位身着灰色职业套裙的亚洲女性,站在未来感城市夜景的落地窗前,缓缓转过身,目光直视镜头,嘴角微扬。手持肩扛式拍摄,轻微呼吸感。蓝调夜景与暖色面部光影形成冷暖对比。4K分辨率,电影级色调,24 fps,时长5秒。阶段三:后期制作
5. 视频剪辑与配音
将生成的视频片段导入剪映或CapCut进行拼接,核心剪辑技巧包括:
场景识别:利用AI功能自动分割不同镜头段落(准确率可达92%)。
节奏匹配:根据背景音乐的BPM自动调整剪辑点。
转场设计:智能推荐匹配镜头运动的转场效果。
关键帧动画:使用“运动跟踪”功能绑定特效元素,通过设置缓动曲线优化动画节奏。
配音方面,可使用剪映AI配音、ElevenLabs或微软Azure TTS,根据角色性格选择合适的音色和情感强度。配音完成后,利用自动字幕功能生成同步字幕,单集时长控制在1–3分钟为平台推荐区间。
6. 配乐与音效
AI智能配乐工具可分析视频情感曲线后自动生成匹配的音乐,关键参数包括:节奏(BPM范围)、调式(大调/小调)、乐器组合和动态范围。也可以使用海绵音乐或天谱乐等专门配乐工具快速生成原创背景音乐。
阶段四:发布运营
7. 多平台分发与数据反馈
AI短剧完成后,可在抖音、快手、腾讯视频、爱奇艺等平台同步上线。建议建立“发布-数据分析-内容迭代”的循环流程:监测不同平台的播放量、完播率和转化数据,识别出观众流失的关键节点,针对性地优化后续剧集的剧本节奏、分镜设计和配乐风格。
目前已有创作者通过AI短剧实现了单账号月收益超过10万元,但高质量内容仍是变现的核心前提。
二、超实用提示词模板库
以下是针对不同场景可直接套用的提示词模板:
| 场景类型 | 提示词模板 |
|---|---|
| 文生视频(基础) | [主体] + [场景] + [运动] |
| 文生视频(进阶) | [主体描述] + [场景描述] + [运动描述] + [美学控制] + [风格化] |
| 图生视频(固定角色) | Same person as input image, [动作描述], [环境描述], 4k, high quality |
| 图生视频(运镜优先) | [运动] + [运镜] |
| 分镜脚本生成 | “你是一位资深网剧导演…输出分镜表(含景别/运镜/画面描述/台词/时长)” |
| 角色定妆提示词 | 角色特征(年龄+性别+外貌+服装)+ 环境定位 + 镜头参数 + 画质要求 |
| 动作一致性提示词 | Consistent with previous frame + [动作延续描述] + [Seamless transition] |
三、关键操作避坑建议
1. 牢记角色一致性是核心难点
不要指望纯文字描述就能锁定角色面部特征。强烈建议在生成前准备好3–5张高质量参考图,并利用工具的角色绑定功能(如可灵的 --cref 参数或即梦的 @图片 绑定)来锁定角色ID。如果条件允许,可使用主体库预存角色DNA,使服装材质和配饰细节都能跨场景保持一致。
2. 提示词越结构化,输出越可控
可灵AI在《山海奇镜》等标杆项目中已验证,结构化提示词已成为决定AI生成画面质量的核心能力。建议养成将描述拆解为“主体+场景+运动+美学+风格”框架的习惯,而非写一段连贯的散文式描述。
3. 宁可多分段,不要贪长
AI视频模型在生成3秒以上镜头时,角色面部特征极易漂移。建议将每个视频片段控制在5–10秒内,采用首尾帧接力法拼接成完整场景,既能保证质量,也便于后期调试修正。
4. 人工优化不可替代
即便是行业领先项目如《灵探》,也采用“AI辅助+人工优化”的协同模式:AI负责快速生成基础素材,美术与导演团队在此基础上进行细节打磨,确保人物的神态、服饰细节以及镜头语言精准服务于故事。因此,不要期待“一键成片”,而是以AI为效率工具,以人为创意核心。
推荐工具组合
| 工具名称 | 功能定位 | 适用场景 |
|---|---|---|
| DeepSeek | 剧本生成、分镜设计、内容逻辑规划 | 前期创意策划 |
| 即梦AI | 图像生成、角色定妆、图生视频 | 角色设计和静态画面 |
| 可灵AI | 视频生成、动态建模、角色一致性保持 | 动态视频生成 |
| 剪映/CapCut | 视频剪辑、配音、字幕、特效合成 | 后期制作 |
| 海绵音乐/天谱乐 | 背景音乐智能生成 | 配乐制作 |
这套组合以DeepSeek为“导演中枢”,可灵AI和即梦AI为“视觉制作”主力,剪映完成“后期精修”,通过明确的分工实现从脚本到成片的高效产出。
夜雨聆风