制作AI剧工作流梳理:GPT Image 2.0 + Seedance 2.0 正确打出这对王炸组合

现在很多人都在说，GPT Image 2.0 + Seedance 2.0 是 AI 视频制作里的“王炸组合”。从效果上看，这个判断并不夸张：前者能快速生成高质量参考图、角色设定和分镜画面，后者则能把这些视觉素材进一步视频化，让普通创作者也有机会做出接近动画 OP、漫剧片段的影像质感。

但问题是，工具变强了，并不代表工作流就真的变简单了。最近我看完一位博主分享的 GPT Image 2.0 + Seedance 2.0 制作经验后，反而更清楚地意识到：如果只是做一段几秒钟的炫技视频，确实可以很快；但如果想做一支真正精美、前后连贯、角色一致性稳定、画面逻辑“滴水不漏”的 AI 漫剧，中间依然有大量细节要处理。哪怕 Image 2.0 已经能生成近乎完美的参考图，一旦视频时长拉长，仍然很容易出现画面内容不合理、镜头衔接生硬、角色服装混乱、前后一致性不稳等问题。也正因为如此，这位博主总结出的经验很值得拆开来看。

先看欣赏原视频

已关注

关注

重播分享赞

视频详情

从原画衔接，转向参考设计

我现在更认同一种做法：先把角色、场景、镜头结构设计清楚，再让视频模型去执行。

只靠几张原画拼接，很容易出现物体错乱、角色变形、画面停顿的问题。而三视图的优势在于，它能让模型更清楚地知道角色长什么样、发型是什么、服装是什么、体型比例是什么。

如果只是想生成一段 15 秒左右的视频，角色三视图加上明确提示词，已经能得到比较稳定的结果。尤其是 Seedance 2.0 对起始帧和连续动作的处理，比以前那种硬接原画的方法自然很多。

但三视图也不是万能的。它能稳定角色，却不能完全控制背景、镜头节奏和每个 cut 的演出。所以后面还需要分镜来进一步管理画面。

我理解的基本流程

这套方法可以拆成一个比较清晰的流程：先用 image2.0 做出作品的整体概念图，确定世界观、角色气质和视觉方向。

然后根据作品内容，把整支视频拆成多个短段落，比如每 14 秒一组，每组 7 个镜头，每个镜头 2 秒。

接着让 image2.0 根据这个结构生成分镜。分镜出来之后，不是直接拿去生成视频，而是先审一遍：哪里动作不够，哪里演出不够，哪里角色关系不清楚，就继续修改。

等分镜基本成型，再补齐角色三视图、服装设定、背景设定图，最后用“分镜 + 角色参考 + 背景参考”交给 Seedance 2.0 生成视频。

视频生成完成后，还需要在 CapCut 里做剪辑、调色、音乐匹配和回忆段落处理。这不是“输入一句话，等模型变魔法”，而是一套更像动画前期制作的流程。

关键不是提示词，而是参考设计

这篇经验里最值得提炼的，其实是三个点。

第一，分镜和角色参考要分开。分镜负责镜头内容，三视图负责角色稳定。不能指望一张分镜图同时承担所有信息。

第二，要给视频模型一段“读取分镜”的提示词。也就是说，提示词不一定要把所有镜头细节都写满，而是告诉模型：请按照分镜里的 cut 编号、起始帧、结束帧、摄影机运动和视频提示词来执行。

第三，视频失败时，不要只想着改提示词。很多问题其实是分镜本身让 AI 误解了。分镜如果画错了，提示词再补也很累。

把长视频拆成短镜头

花样滑冰这类题材很难，因为动作幅度大，身体姿态复杂，服装也复杂。如果一个镜头里塞太多内容，模型很容易不知道重点。

所以更好的做法是把整体内容拆成短镜头。比如 98 秒的视频，可以拆成：2 秒 × 7 个镜头 × 7 个部分 = 98 秒

每个 2 秒镜头只做一件事：少女看向冰场、明星选手跳跃、教练握着冰鞋、主角旋转、对手登场、母亲守望、教练点头。这样 AI 更容易理解，也更容易保持画面稳定。

分镜应该是给 AI 看的命令书

我以前可能会把分镜理解成“给人看的画面草图”。但这篇文章提醒我，AI 视频里的分镜最好是“给模型看的命令书”。

所以分镜里不应该只有画面，还应该包含：

cut 编号
起始帧
结束帧
摄影机运动
演出内容
视频提示词

这也是为什么 image2.0 很适合参与前期设计。它不只是生成漂亮图，而是可以帮助我们快速做出可修改、可阅读、可执行的分镜。

角色参考必须单独准备

如果分镜里角色太小，AI 很容易把脸、发型、服装理解错，比如主角本来是侧马尾，视频里却可能变成双马尾。原因很简单：分镜里的角色太小，模型看不清。所以角色参考必须单独准备，而且不同状态最好分开。

同一个主角，日常私服和滑冰服就应该分成两套参考。日常状态强调脸、发型、年龄感和体型；滑冰状态强调服装、身体线条、冰鞋和动作姿态。这比把所有信息塞进一张图里稳定得多。

提示词要让模型“读分镜”

视频生成时，提示词本身可以保持相对简洁。核心不是把每个镜头都重新写一遍，而是明确告诉模型：

参考哪张分镜图，参考哪些角色三视图，每个 cut 如何读取，起始帧和结束帧怎么用，镜头顺序怎么排列，人物设计和色调如何保持一致。

这样的好处是，后续修改更方便。想调整某个镜头，不必重写整段提示词，只要改分镜里的对应内容。

这让我觉得，AI 视频制作的重点正在从“写提示词”转向“设计可被 AI 理解的制作文件”。

制作时踩过的几大坑

同一个角色不要在一个镜头里画多次

花样滑冰有很多连续动作，比如跳跃和旋转。人类画分镜时，可能会在同一张图里画出同一个人的多个姿势，用来表示运动轨迹。但 AI 不一定这么理解。

它可能会把这些姿势当成多个角色，于是画面里就出现“分身”。所以分镜要按 AI 的理解方式来画：一个镜头里尽量只放一个同一角色。动作轨迹可以通过箭头、摄影机运动、残影感或提示词来补充，而不是直接画多个实体人物。

练习场景不要让 AI 自动补观众

花样滑冰题材还有一个问题：模型一看到冰场，就容易联想到比赛现场。

即使你想做的是练习场景，它也可能自动加观众、工作人员、路人，结果画面就变成正式比赛了。

解决方法不是只写“练习场”，而是明确写：这是训练中，场内只有少女和教练。观众席没有人。不要添加观众、工作人员、路人或临时演员。这里不是比赛，而是安静的包场练习冰场。

同时，分镜上也要配合。不要把观众席画得太显眼，必要时让观众席变暗、虚化，或者减少它在画面里的面积。

角色服装要拉开差异

角色一多，服装就容易混。尤其花样滑冰服装本身装饰复杂，如果主角和对手的颜色、轮廓太接近，视频里就会越来越难分辨。

所以角色差异不能只靠脸，还要靠颜色、发型、服装轮廓和气质。

比如主角可以是白色到淡蓝色系，传达柔和、未完成但有希望的感觉。对手则可以用白、黑、红，传达锐利、成熟、天才感。这样 AI 更容易分清角色，观众也更容易看懂关系。

背景设定图也要单独做

只做角色三视图，角色会稳定，但背景会飘。所以背景也需要设定图。比如市民冰场、比赛会场、学校、家庭空间、傍晚回家路、名门俱乐部冰场，这些都应该有明确视觉区别。

市民冰场可以旧一点、本地感强一点，带青白色冰面和傍晚光。比赛会场则更明亮、更大、更正式，有观众席和竞技氛围。

背景一旦区分清楚，观众自然就能理解：哪里是练习，哪里是正式比赛，哪里是过去，哪里是现在。

image2.0 的价值在于快速改分镜

image2.0 最适合的地方，不只是出图好看，而是它可以快速响应修改。

想增加跳跃、增加旋转、清空观众席、修改服装、添加母亲角色、强化镜头意图，都可以直接通过文字修改分镜。这比以前一张张手动改原画高效太多。

更重要的是，它还能帮你组织画面布局。对于花样滑冰这种动作复杂、关系复杂的题材，它能把角色、冰场、教练视线和对手演出整理得更清楚。

后期仍然很重要

如果你要制作非常高质量精品短剧，目前人工介入剪辑是必不可少的

尤其是涉及过去和现在的叙事时，如果不做色调区分，观众很容易混淆。过去场景可以稍微降低饱和度，减弱对比，加一点白蓝色辉光，边缘压暗，再加轻微颗粒或噪点。转场可以用白闪或交叉淡化。这样观众会更容易理解：这是回忆，不是当前时间线。

音乐要配合时长和情绪

如果视频最终是 1 分 43 秒，音乐也要围绕这个时长来做。用 Suno 做 OP 曲时，如果歌词太完整，很容易超过 2 分半。所以歌词要短，情绪要集中。

音乐方向可以是日系动画 OP、女声、青春花样滑冰题材，前奏用钢琴和弦乐，后面进入快节奏 J-pop rock。歌词不需要把花样滑冰解释得太满，只要围绕梦想、冰面、约定、跳跃、未来这些关键词承载情绪就够了。OP 曲不是说明书，它更像情绪推进器。

我从这套方法里学到的核心

这套流程最重要的启发是：AI 视频不是只靠提示词控制，而是靠参考设计控制。

三视图负责角色，背景设定图负责环境，分镜负责镜头流程，简短提示词负责告诉模型如何读取这些参考。

参考图也不是越多越好。越多越容易让模型不知道优先级。关键是分工清楚，每张参考图都承担明确职责。而分镜也不能只按照人类习惯来画，它要画成 AI 不容易误解的形式。

因为篇幅问题，为大家整理所有素材。大家可以关注公众号，后台回复“滑冰”获取素材，大家学着复刻，尊重原创

原创来自