做 AI 武侠视频的人,都有过这种体验——
提示词写了好几百字,场景、角色、光影全写清楚了。点生成。等着。出来一看:人是站着的,刀是歪的,打斗变成了两个人面对面踱步。
不服。再生成。第三次。第五次。第十次。
积分烧完,素材库里一堆废片。
这不是你提示词不行。是 AI 视频模型有一个天生的短板:它对"连续动作"的理解,远远不如它对"单帧画面"的理解。
你给 Seedance 写"红衣女子飞踢黑衣刺客",它会。"飞踢完之后顺势夺刀再肘击"——它不会了。
这篇文章,分享一套已经验证过的解法。思路来自 @TanLuAI 的实战总结:在做视频之前,先用简笔画分镜图把动作"预演"一遍。 测试了不同人物、不同场景,抽卡次数稳定在 2-3 次。
为什么分镜图能解决动作不可控
AI 视频模型的运作逻辑,本质上是从参考图中"推演"下一帧。你给的参考图越丰富、动作信息越明确,它推演的方向就越准。
常规做法是给一张角色设定图+一段文字提示词。但文字对动作的描述是模糊的——"飞踢"可以有一百种姿势, AI 不知道你要哪一种。
分镜图的思路就简单了:我不告诉你什么是飞踢,我画给你看。
16 格分镜图把一段打斗拆成 16 个关键帧——拔刀、格挡、飞踢、夺刀——每个姿势都画出来。 AI 拿到的不再是"一段文字描述",而是"一套视觉引导线"。动作连贯性就从这里来的。
工具链很简单:图片模型 Image 2 + 🍌,视频模型 Seedance 2.0 。
整体流程三步走:资产图制作 → 动作分镜图制作 → 视频生成与后期。
第一步:资产图——让 AI 认识你的角色
在让角色动起来之前, AI 得先知道你的角色长什么样。这一步属于 Seedance 全能参考模式的标准流程,不复杂。
人物设定图。 生成标准人物全身正/侧/背三视图,纯白背景,真人写实风格。左侧近景胸像,右侧全身三视图。

服装/道具细节图。 单独出配件的多角度图,比如飞针、短刀、护腕。纯白背景,不出现人物。

场景图。 生成不含人物的场景空镜,设定好氛围和光线。比如"竹林深处,茶馆外木桌旁,午后光斑碎落桌面"——这些场景信息直接影响视频的环境一致性。

关键时刻场景图。 这是我个人比较推荐的一步。把打斗发生的"关键时刻"预先生成场景图——比如"木桌被踢翻的瞬间环境"、"竹林中的决战空地"——用来锚定视频画面的背景。

备注:这一步人脸如果虚化也没关系,因为生图模型生成的东方人物一致性不如 Seedance 2.0 。人脸可以在后面的视频生成阶段用 Seedance 重新生成。
第二步:动作分镜图——整篇文章最有价值的部分
这是核心。
思路是:用简笔画风格生成 4×4=16 格的武打动作分镜图,而非用真人写实风格。
为什么是简笔画?
两个原因。一是生图模型做真人武打动作的能力不强,出图需要频繁抽卡,积分扛不住。二是——更重要的——简笔画天然剥离了"画风",只保留"动作信息"。 这样 Seedance 在参考时不会把简笔画的风格迁移到真人视频里(你用提示词里加一句"禁止迁移参考图画风"就行)。
以下是第一个完整示例。红衣女子(飞针)在竹林木屋对战多名黑衣刺客(长刀)。

提示词关键要素拆解(你可以用这个模板改自己的):
生成一张用于 AI 视频生成参考的专业级 16 格武打动作分镜图。 【视觉风格】简笔画风格,纯白背景,颜色区分角色, 强烈对比度,突出姿态、动作和物体互动。 【网格布局】4×4 网格,共 16 格,细黑线均匀分隔。 每格编号 1-16,有动作箭头和镜头语言说明。 【角色设定】(用颜色区分角色) 【内容设定】按格逐帧描述: - 格1-4:起始对峙与发力(特写→近景→中景过渡) - 格5-8:第一波交锋(兵刃相接的画面) - 格9-12:转折与压制(节奏加快,镜头切换密集) - 格13-16:收尾(英雄式定格) 【镜头要求】多分镜切换,特写、慢动作、跟拍结合, 构图参考经典武侠电影,强调打击感和速度感。 再来看第二个示例——黑衣女子(短刀)在竹林对战黑衣刺客(长刀),角色逆转。

这一步的真正价值,不在"生成视频",而在"预判"。
分镜图画出来之后,你就能看到:这个角色的动作姿态对不对?构图和镜头语言符不符合基本预期?节奏感到不到位?
不符合——直接改分镜图的提示词重画,花几十积分。比生成完视频发现不对、花几百积分重做,省太多了。
符合预期了,再拿着这套分镜图进入第三步。
第三步:视频生成——水到渠成
有了资产图+关键场景图+动作分镜图,视频生成这一步反而是最简单的。
把这三套图全部作为参考图上传 Seedance 2.0 ,输入提示词:
"生成一段红衣女子@图片 1 在竹林木屋前与多名黑衣刺客@图片 4 打斗的画面。真人武侠电影写实风格, 35mm 摄像机拍摄。画面内容动作设计、镜头语言严格参考@图片 3 (动作分镜图)。仅生成打斗音效和环境音效,不配背景音乐。参考图@图片 3 的画面风格禁止迁移到视频画面中。"
选了模型和比例(一般 15 秒),点生成。

同样的流程换一个场景——黑衣女子竹林决战——动作控制也基本到位,累计抽卡 2 次。

这套流程为什么省积分
回头算一笔账。
常规做法:角色图 + 提示词 → 直接生成视频 → 崩了 → 重试。一次视频 15 秒,积分消耗不低。试十次,积分见底,素材没几个能用的。
分镜图做法:花几十积分别出分镜图(简笔画消耗极低)→ 检查动作和镜头 → 不通过就改分镜提示词,通过才点视频生成 → 一次到三次出片。
本质上是在用廉价积分别(简笔画)替换昂贵积分别(视频抽卡)的试错成本。
而且分镜图是可以复用的。同一个分镜模板,换一套角色资产图,就变成了另一段视频的动作脚本。
总结
武侠 AI 视频的动作可控性问题,根源不在模型能力,在信息传递方式。
文字提示词 → 模型理解 → 动作输出,这条链路的信息损耗太大了。"飞踢"两个字,模型得脑补一百个参数。分镜图把这条链路短接了——用视觉信息直接告诉模型"就这个姿势,就这个角度,就这个节奏"。
信息越完整,抽卡越少。这套流程归根到底就这一条原则。
感兴趣的朋友可以试试。有什么问题评论区聊——你碰到的最离谱的 AI 动作翻车是什么?发出来大家一起笑。
夜雨聆风