AI漫剧制作全流程:带你飞速入门,打造爆款短剧不是梦!

2026 年，AI 漫剧市场规模已突破 200 亿元，平均每天有 470 多部新剧上线。红果视频、抖音等平台上，个人创作者用一台电脑就能完成从剧本到成片的全流程，月入过万的案例屡见不鲜。

但是，在开始操作前，我想先给大家泼盆冷水。

AI 漫剧看起来门槛低，但实际需要投入的成本不少：

金钱成本：虽然有免费方案，但效率低，想批量生产还是得花钱买会员
学习成本：AI 工具、剪辑软件、剧本节奏感，每一样都得花时间摸索
试错成本：前 10-20 集可能都没啥播放量，这个阶段最容易放弃

说句实话，短剧能不能火，剧本和节奏才是王道，画面再精美也救不了烂剧情。平台算法盯着完播率和互动率，这两个数据全靠故事够不够抓人。

这篇文章我会把完整的操作流程、工具选择、避坑经验都写出来，但能不能做、值不值得做，大家得结合自己情况合理评估。

一、AI 漫剧创作流程

选题策划 → 剧本生成 → 资产构建 → 分镜图生成 → 图生视频 → 配音剪辑

环节	干什么	产出
选题策划	确定讲什么故事、给谁看、用什么风格	选题方向、故事大纲
剧本生成	把故事拆成分镜头脚本，标注台词、动作、镜头	8-10 个镜头的完整剧本
资产构建	生成角色、场景、道具的标准参考图	角色三视图、场景图、道具图
分镜图生成	根据剧本生成每个镜头的静态画面	8-10 张分镜图
图生视频	把静态图转成 4-6 秒的动态视频	8-10 个视频片段
配音剪辑	加配音、字幕、BGM、转场，合成成片	1-2 分钟完整视频

二、详细操作指南

第一步：选题策划

想清楚你的漫剧讲什么故事、给谁看、用什么风格。

选题决定了平台的流量倾向，这一步千万不能省。

红果视频热门题材（2026 年 4 月）

甜宠逆袭（32%）：灰姑娘遇上霸总，身份反转+虐恋
古风权谋（28%）：宫斗、复仇、女主智斗反派
现代霸总（21%）：契约婚姻、隐藏身份、误会虐恋
末世求生（12%）：丧尸/灾难背景，生存+人性
玄幻修仙（7%）：穿越、重生、逆袭

爆款选题公式

爆款选题 = 热门题材 + 情绪钩子 + 悬念设计

对比一下：

❌ 平庸：“古代女子的宫廷生活”
✅ 爆款：“她以为嫁入冷宫是噩梦，却不知皇帝暗恋她十年”

具体怎么做？

打开红果视频 APP，记下高播放量作品的题材、标题、开篇钩子
选一个你感兴趣且数据好的方向
用一句话概括你的故事核心冲突
确定单集时长（推荐 1 分 30 秒，完播率最高）
确定总集数（新手建议 20-30 集）

注意事项

别追烂大街的题材：“重生复仇”已经饱和了，竞争太激烈
前 15 秒必须抛出核心冲突：红果视频用户没耐心，开头不抓人直接划走
目标受众要明确：18-25 岁女性爱看甜宠虐恋，25-35 岁男性爱看爽文打脸
别闭门造车：选题必须基于数据，不是你觉得好就行

第二步：剧本生成

这步是把选题转化成分镜头脚本，标注每个镜头的景别、人物、动作、台词、时长。

剧本质量直接决定完播率。

推荐工具

豆包（主力）：新手友好
DeepSeek（辅助）：擅长生成结构化脚本
Kimi（备选）：处理超长文本改编

步骤 1：生成故事大纲

为什么先生成故事？因为故事好读，方便调整，确认吸引力够了再细化成剧本。

打开豆包，输入提示词：

请给我讲一个【题材类型】的【故事风格】故事。
要求：
- 故事时长：适合拆成10集，每集1分30秒
- 目标受众：【18-25岁女性/25-35岁男性】
- 情绪基调：【甜宠/虐恋/爽文/悬疑】
- 核心冲突：【一句话描述】
示例：
请给我讲一个古风权谋的虐恋故事。
核心冲突：女主被打入冷宫，却不知皇帝暗恋她十年，所有刁难都是为了保护她。
目标受众：18-25岁女性，喜欢虐中带甜的情感戏。

步骤 2：优化故事

豆包生成后，检查这几点：

开篇有没有强烈的视觉冲击或情绪钩子？
每集结尾有没有悬念设计？
台词会不会太书面化？（要改成口语化、有情绪的表达）

不满意就继续对话调整，如：“开篇不够抓人，加个视觉冲击力强的场景”

步骤 3：生成分镜头脚本

故事满意后，输入提示词：

请把这个故事改成第一集的分镜头脚本。
【基本信息】
时长：1分30秒
镜头数量：8-10个
【格式要求】
每个镜头包含：
1. 镜头编号
2. 景别：特写/中景/全景
3. 场景：室内/室外，具体环境
4. 人物：出现的角色及服装
5. 动作：人物的动作和表情
6. 台词：对白内容（如有）
7. 时长：该镜头持续秒数
【剧情要求】
- 开篇前5秒必须有强视觉冲击或台词钩子
- 中段包含1个情绪爆发点
- 结尾必须卡在悬念处，引导关注下一集
示例结尾钩子："她转身离开，却不知身后的他眼中闪过一丝杀意……"

步骤 4：人工优化

AI 生成的剧本必须手动调整：

台词改成更有冲击力的表达（“你算什么东西”比“你有什么资格”更狠）
检查镜头时长加起来是不是接近 90 秒
确保每个镜头的动作简单（复杂动作 AI 生成不出来）

注意事项

别直接问“帮我写个剧本”：提示词越具体，生成质量越高
台词必须人工优化：AI 写的对白太书面，没有情绪张力
时长控制很重要：红果视频 1-2 分钟完播率最高，超过 3 分钟直接凉凉
每集结尾必须有钩子：“她推开门，看到的竟是……”这种悬念最经典
保存提示词模板：形成自己的 SOP，后面效率能提升好几倍

第三步：资产构建

这步是要建一个完整的视觉资产库：

角色资产：主要角色的标准形象
场景资产：常用场景的参考图
道具资产：重要道具的参考图

这是保证视觉一致性的关键，很多人就是跳过这步导致每个镜头的主角长得都不一样。

为什么要建资产库？

AI 每次生成图片都是“重新理解”提示词，即使描述一样，生成的内容也会有差异。上传参考图作为“垫图”，可以让 AI 明确特征：

角色在不同场景中保持同一张脸
场景风格统一（宫殿的建筑风格、色调一致）
道具细节一致（同一把剑在不同镜头中不会变样）

推荐工具

即梦 AI（主力）：字节旗下，支持保存角色设定
Midjourney（备选）：画质顶级，但角色一致性控制较弱，需要魔法上网

3.1 角色资产生成

步骤 1：准备角色描述

为每个主要角色写详细的外貌描述，分“固定项”和“变量项”：

固定提示（每次生成必须包含）：

脸型：鹅蛋脸/瓜子脸/方脸
五官：丹凤眼/桃花眼/单眼皮，琥珀色/黑色瞳孔，樱桃小嘴/薄唇
发型：乌黑长发/棕色短发，挽成飞仙髻/披肩散发
标志性特征：额间朱砂痣/左眼下泪痣/右手疤痕
服装基本款式：淡青色交领襦裙/黑色西装/白色连衣裙

变量提示（根据情景调整）：

表情：微笑/惊讶/愤怒/冷漠
动作：站立/坐下/转身
场景：宫殿/竹林/现代办公室

步骤 2：生成角色三视图

打开即梦 AI，选择“文生图”，输入提示词：

顶级【风格类型】CG插画，AI漫剧人物设定图，极高细节，8K分辨率。
【角色固定项描述】
一位25岁古风美女，鹅蛋脸，丹凤眼，琥珀色瞳孔，樱桃小嘴，乌黑长发挽成飞仙髻，额间一点朱砂痣，身穿淡青色交领襦裙，腰间系玉佩。气质温婉中带着坚毅。
【输出要求】
生成全身三视图（正面、侧面、背面）以及一张面部特写，纯白背景，无任何多余元素。
【画质要求】
人物设定图，线条清晰，色彩饱和，适合作为角色参考。

重要：三视图必须在同一次对话中生成，否则风格会变。

步骤 3：保存角色资产

下载生成的图片，建议按这样的结构保存：

/角色库
  /女主_冷宫妃子
    - 三视图.png
    - 面部特写.png
    - 角色描述.txt
  /男主_皇帝
    - 三视图.png
    - 面部特写.png
    - 角色描述.txt

步骤 4：测试一致性

用角色参考图测试生成一张新场景图，看角色特征能不能保持一致。差异太大就调整提示词或重新生成三视图。

注意事项

这步最容易被跳过：很多人直接生成分镜图，结果每个镜头的主角长得都不一样
背景必须纯色：复杂背景会干扰后续垫图效果
参考图别超过 3 张：上传太多反而会混淆 AI
每个角色单独生成：别想着一张图生成多个角色的三视图
保存好角色描述文本：后面每次生成场景都要用

3.2 场景资产生成

一部漫剧通常会反复出现相同的场景（女主的冷宫、皇帝的寝殿、御花园等）。如果每次生成都重新描述，会导致：

同一个宫殿在不同集中建筑风格不一样
色调、光线、装饰细节不统一

步骤 1：列出常用场景

根据剧本，列出会反复出现的场景：

古风剧示例：

女主居住的冷宫（破败、凄凉）
皇帝的寝殿（金碧辉煌、庄严）
御花园（精致、浪漫）
朝堂大殿（肃杀、权威）

现代剧示例：

女主的出租屋（简陋、温馨）
男主的豪华办公室（现代、冷峻）
咖啡厅（浪漫、文艺）
公司会议室（正式、商务）

步骤 2：生成场景参考图

打开即梦 AI，选择“文生图”，输入场景提示词：

【画质要求】
顶级【风格类型】CG插画，8K超高清，电影级光影，AI漫剧场景设定图。
【场景描述】
冷宫破败的院落，枯树，落叶满地，残破的宫墙，青苔斑驳的石阶，破旧的木门半掩。
【视角与构图】
全景视角，展示整体环境，无人物，纯场景图。
【氛围与色调】
冷色调，阴天光线，凄凉孤寂的氛围，秋冬季节感。
【画质细节】
场景设定图，细节丰富，适合作为场景参考。

关键点：

不要加人物，纯场景图
视角选全景或中景，展示环境整体
明确色调、光线、季节、氛围

步骤 3：生成多角度场景图

为重要场景生成 2-3 个不同角度的参考图：

正面视角（适合对话场景）
侧面视角（适合人物走动）
俯视/仰视视角（适合特殊镜头）

步骤 4：保存场景资产

下载图片，按这样的结构保存：

/场景库
  /冷宫院落
    - 正面视角.png
    - 侧面视角.png
    - 场景描述.txt
  /皇帝寝殿
    - 正面视角.png
    - 内部特写.png
    - 场景描述.txt

注意事项

别在场景图里加人物：纯场景图更容易复用
同一场景色调要统一：别一会儿白天一会儿黑夜
场景元素别太复杂：3-5 个核心元素就够了（枯树、宫墙、石阶）
生成 2-3 个角度足够：别浪费额度

3.3 道具资产生成

重要道具往往是剧情关键线索，需要在多个场景中反复出现。如果每次生成都不一样：

同一把剑在不同镜头中形状、颜色不一致
信物细节变化，观众认不出来
剧情连贯性受损

必须生成：

剧情关键道具（信物、遗物、证据）
角色标志性道具（武器、法器、配饰）
反复出现的道具（书信、令牌、钥匙）

不需要生成：

一次性道具（茶杯、书籍、普通家具）
背景装饰物

步骤 1：列出关键道具

根据剧本，列出需要反复出现的道具（通常 2-4 个）：

古风剧示例：

皇帝赠送的玉佩（爱情信物）
女主的母亲遗物（发簪）
反派的毒药瓶

现代剧示例：

男主的定情戒指
女主的项链（母亲遗物）
关键合同文件

步骤 2：生成道具参考图

打开即梦 AI，选择“文生图”，输入道具提示词：

【画质要求】
顶级CG插画，8K超高清，产品级渲染，AI漫剧道具设定图。
【道具描述】
一枚古风玉佩，羊脂白玉材质，雕刻精美的凤凰图案，边缘镶嵌金丝，中央有一颗红色宝石。玉佩呈圆形，直径约5厘米，质地温润。
【展示方式】
纯白背景，道具居中展示，正面视角+侧面视角，细节清晰。
【光影效果】
柔和光线，突出玉佩的质感和细节，无多余元素。

关键点：

描述要非常具体（材质、颜色、形状、尺寸、纹饰）
纯白背景，方便后续抠图或垫图
生成正面+侧面两个角度

步骤 3：保存道具资产

下载图片，按这样的结构保存：

/道具库
  /玉佩_信物
    - 正面视角.png
    - 侧面视角.png
    - 道具描述.txt
  /发簪_遗物
    - 正面视角.png
    - 道具描述.txt

注意事项

描述要极其具体：材质、颜色、纹饰、尺寸都要明确
背景必须纯色：方便后续合成到不同场景
别生成太多道具：只生成剧情关键道具，节省额度
保存高清大图：道具可能需要特写镜头

3.4 资产库管理

完整的资产库结构

/AI漫剧_资产库
  /角色库
    /女主_冷宫妃子
      - 三视图.png
      - 面部特写.png
      - 角色描述.txt
    /男主_皇帝
      - 三视图.png
      - 面部特写.png
      - 角色描述.txt
  /场景库
    /冷宫院落
      - 正面视角.png
      - 侧面视角.png
      - 场景描述.txt
    /皇帝寝殿
      - 正面视角.png
      - 场景描述.txt
  /道具库
    /玉佩_信物
      - 正面视角.png
      - 道具描述.txt
    /发簪_遗物
      - 正面视角.png
      - 道具描述.txt

资产复用技巧

生成分镜图时：

上传角色参考图（2-3 张）
上传场景参考图（1-2 张）
如果镜头中有关键道具，上传道具参考图（1 张）
输入场景提示词，让 AI 综合参考所有图片生成

示例：

参考上传的角色图、场景图和道具图，生成以下画面：
【角色】鹅蛋脸古风美女（参考角色图）
【场景】冷宫院落（参考场景图）
【道具】手持玉佩（参考道具图）
【动作】女主站在枯树下，低头凝视手中的玉佩，眼神悲伤
【镜头】中景，从侧面拍摄
【氛围】冷色调,凄凉孤寂

第四步：分镜图生成

根据剧本中每个镜头的描述，生成对应的静态画面。这是最耗时、最费额度的环节，也是决定画面质量的关键。

推荐工具

即梦 AI（主力）：与资产构建用同一工具，风格统一
ComfyUI+Flux（专业）：本地部署，完全免费但学习成本高
Midjourney（高画质）：适合追求极致画质的创作者

步骤 1：准备分镜图生成清单

把剧本中的每个镜头整理成表格：

镜头编号	景别	场景	人物	动作	情绪氛围
1	全景	冷宫院落	女主	独自站在枯树下	凄凉、孤寂
2	特写	女主面部	女主	眼神从绝望到坚毅	情绪转折
…	…	…	…	…	…

步骤 2：编写场景提示词

用这个公式：

[画质描述] + [角色固定项] + [场景描述] + [镜头语言] + [情绪氛围]

示例（镜头 1）：

顶级国风CG插画，8K超高清，电影级光影。
【角色】鹅蛋脸古风美女，丹凤眼，琥珀瞳，额间朱砂痣，淡青色交领襦裙（参考上传的角色图）
【场景】冷宫破败的院落，枯树，落叶满地，远处是残破的宫墙
【镜头】全景，从侧面拍摄，女主独自站在枯树下，背影萧瑟
【氛围】冷色调，阴天光线，营造凄凉孤寂的情绪
AI漫剧风格，高清CG插画。

步骤 3：上传角色参考图并生成

在即梦 AI 中点击“图片参考”，上传角色三视图+面部特写（2-3 张）
输入场景提示词
生成 4-6 张候选图，挑最符合剧本描述的 1 张
下载保存，命名为“第 X 集_镜头 X.png”

步骤 4：批量生成所有镜头

重复步骤 2-3，完成剧本中所有镜头（通常 8-10 个）的分镜图生成。

重要：每次生成新镜头时，必须重新上传角色参考图，否则一致性会下降。

场景提示词技巧

简化场景元素：

✅ 好：“宫殿大殿，金色龙柱，红色地毯”
❌ 差：“金碧辉煌的宫殿，雕梁画栋，琉璃瓦顶，汉白玉台阶，两侧站满太监宫女……”（元素太多，AI 容易崩）

明确镜头语言：

特写：人物面部占画面 70% 以上
中景：人物上半身，适合对话场景
全景：人物全身+环境，适合展示场景氛围

避免复杂动作：

✅ 好：“女主站立，眼神坚毅”
❌ 差：“女主飞身跃起，衣袂飘飘，手持长剑刺向敌人”（动作太复杂，静态图表现不出来）

注意事项

每次生成必须重新上传参考图：即梦 AI 不会自动记住上次的参考图
复杂场景容易失败：多人场景、复杂背景成功率低，要简化元素
手部特写尽量避免：AI 画手容易崩（6 根手指、手指扭曲）
生成 10 张选 1 张是常态：别期待一次成功，失败率 50-70% 很正常
保持风格统一：别中途切换工具或更换提示词中的画质描述

第五步：图生视频

这步是把静态分镜图转成动态视频片段（每段 4-6 秒）。

推荐工具

即梦 Seedance 2.0（主力）：与图片生成一体化，当前最顶尖的视频生成模型
可灵 AI（备选）：动态更自然，最长支持 2 分钟，但生成速度较慢

步骤 1：准备运镜方案

为每个分镜图设计运镜方式和动作描述：

镜头编号	运镜方式	动作描述
1	缓慢推镜头	女主站立不动，衣摆和发丝微微飘动
2	固定镜头	女主眼神从绝望到坚毅，微微眨眼
3	横移镜头	镜头从左向右移动，展示宫殿全貌

常用运镜方式：

推镜头（Zoom in）：镜头向前推进，聚焦人物
拉镜头（Zoom out）：镜头向后拉远，展示环境
横移（Pan）：镜头水平移动
固定镜头（Static）：镜头不动，只有人物微动作

步骤 2：编写运镜提示词

[动作描述] + [运镜方式] + [画质要求]

示例（镜头 1）：

女主静静站立在枯树下，衣摆和发丝随风微微飘动，落叶缓慢飘落。
缓慢推镜头（Slow Zoom in），从全景推至中景。
保持极高3D CG画质，物理动态真实流畅，人物五官和服装细节保持稳定。

步骤 3：上传分镜图并生成

打开即梦 Seedance 2.0，上传对应的分镜图
输入运镜提示词
选择视频时长（推荐 4-6 秒）
等待生成（每个视频约 1-2 分钟）
预览效果，如果人物崩坏或动作不自然，调整提示词重新生成

步骤 4：批量生成所有视频片段

重复步骤 2-3，完成所有镜头的视频生成。

运镜提示词技巧

动作要简单：

✅ 好：“人物缓慢转头看向镜头，眼神从冷漠到惊讶”
❌ 差：“人物快速奔跑，跳跃翻滚，挥剑砍向敌人”（复杂动作极易崩坏）

运镜别太复杂：

✅ 好：推拉摇移选一种
❌ 差：先推镜头再横移再旋转（多重运镜容易画面抖动）

人物说话的处理：

✅ 好：“人物嘴唇微动，眼神坚定”（只让嘴动）
❌ 差：“人物边说话边点头转身”（动作叠加容易崩）

注意事项

避免大幅度动作：跑步、打斗、跳跃等动作失败率 80% 以上
避开高峰期：晚上 8-10 点排队时间长，服务器压力大容易失败
人物五官稳定性：如果生成的视频中人物脸部变形，说明分镜图质量不够高，需要重新生成
时长控制：单个视频片段别超过 6 秒，太长容易崩

第六步：配音与剪辑

这步是把所有视频片段按剧本顺序组合，加 AI 配音、字幕、BGM、转场特效，合成完整的 1-2 分钟成片。

推荐工具

剪映（PC 版+移动版）：内置 AI 配音和自动字幕，功能够强大

步骤 1：导入素材

打开剪映 PC 版，新建项目
把所有视频片段按剧本顺序拖入时间轴
调整每个片段的时长，确保总时长接近 90 秒

步骤 2：添加 AI 配音

点击“文本” → “新建文本”
输入该镜头的台词（从剧本中复制）
选中文本，点击“文本朗读”
挑选音色：

女主：知性女声、温柔女声、少女音
男主：磁性男声、霸道总裁、沉稳男声
旁白：专业播音、纪录片音

调整语速：建议设置为 1.1-1.2 倍速（比正常对话快 15-20%）
生成配音，自动添加到时间轴

重要：每个角色要固定用同一个音色，保持一致性。

步骤 3：添加字幕

点击“文本” → “智能字幕” → “开始识别”
等待自动生成字幕（准确率 95% 左右）
手动校对错别字和标点符号
调整字幕样式：

字体：思源黑体/阿里巴巴普惠体（清晰易读）
字号：适中，别遮挡人物脸部
位置：屏幕下方 1/4 处
颜色：白色字+黑色描边（对比度高）

添加字幕动画：逐字出现（增加节奏感）

步骤 4：添加背景音乐

点击“音频” → “音乐”，搜索剪映曲库
选择红果视频热门 BGM
调整音量：BGM 设为 20-30%，配音设为 100%（确保台词清晰）

使用“自动踩点”功能：让画面切换卡在音乐鼓点上

步骤 5：添加转场特效

在两个视频片段之间点击“转场”
推荐转场效果：

叠化：适合平缓过渡
闪白：适合情绪转折、时间跳跃
故障：适合悬疑、科幻题材

避免过于花哨的 3D 转场

步骤 6：调色与特效

选中所有视频片段，点击“调节”
套用滤镜：

古风剧：“复古胶片”“暖色调”
现代剧：“清新日系”“高对比”
悬疑剧：“冷色调”“低饱和度”

微调参数：亮度+10，对比度+5，锐化+5
添加氛围特效（可选）：

古风剧：飘落花瓣、光斑
现代剧：光晕、镜头光晕
悬疑剧：暗角、噪点

步骤 7：导出成片

点击“导出”
设置参数：

分辨率：1080P
帧率：60fps
编码：H.264
码率：建议 10-15Mbps

导出到本地，命名为“剧名_第 X 集.mp4”

注意事项

配音语速要快 15-20%：正常语速会让观众觉得拖沓，15 秒就划走
字幕别遮挡人物脸部：尤其是特写镜头，字幕要放在画面下方
BGM 音量别盖过配音：台词听不清会严重影响完播率
转场别太频繁：每个镜头之间不一定都要加转场，自然切换就行
红果视频对版权音乐管控严：优先用剪映曲库的免费音乐，避免侵权
导出前检查：检查字幕错别字、配音是否对齐、音量是否合适

三、避坑指南：新手最容易踩的一些坑

1.追求完美画质而忽视剧情

画面及格就行（不崩坏、角色一致），剧情和节奏才是留存关键

2.角色一致性不做前期准备

必须先生成角色三视图，建立资产库，每次生成场景都上传参考图

3.一上来就买所有高级工具

先用免费版跑通全流程，确认能坚持后再针对性升级

4.不做选题研究，闭门造车

每天花 30 分钟刷红果视频热榜，研究爆款规律，选题必须基于数据

5.配音语速过慢

配音语速比正常对话快 15-20%，剪映中设置 1.1-1.2 倍速

6.不重视结尾钩子

每集结尾必须卡悬念，促使用户有点击下一集的想法

四、最后的话

AI 漫剧的门槛确实降低了，但真正能做出爆款的，永远是那些愿意深入研究、持续迭代的创作者。

这不是一个躺赚的项目，而是需要投入时间、精力和创造力的内容创业方向。如果你：

对故事创作有热情
愿意学习新工具和新技能
能够坚持日更 30 天
有耐心度过冷启动期

那么，AI 漫剧可能是你在 2026 年最值得尝试的机会之一。

别想太多，先做出第一集再说。

画面粗糙没关系，节奏有问题没关系，台词不够网感也没关系。

重要的是先发出去，看数据反馈，在实战中快速迭代。

作者简介：我是栗可，AI实战派。不讲理论，只分享真正用过的AI玩法，把自己踩过的坑、走通的路，都讲给你听。