武侠AI视频动作总崩?试试这招动作分镜图,抽卡从十几次降到两三次

做 AI 武侠视频的人，都有过这种体验——

提示词写了好几百字，场景、角色、光影全写清楚了。点生成。等着。出来一看：人是站着的，刀是歪的，打斗变成了两个人面对面踱步。

不服。再生成。第三次。第五次。第十次。

积分烧完，素材库里一堆废片。

这不是你提示词不行。是 AI 视频模型有一个天生的短板：它对"连续动作"的理解，远远不如它对"单帧画面"的理解。

你给 Seedance 写"红衣女子飞踢黑衣刺客"，它会。"飞踢完之后顺势夺刀再肘击"——它不会了。

这篇文章，分享一套已经验证过的解法。思路来自 @TanLuAI 的实战总结：在做视频之前，先用简笔画分镜图把动作"预演"一遍。测试了不同人物、不同场景，抽卡次数稳定在 2-3 次。

为什么分镜图能解决动作不可控

AI 视频模型的运作逻辑，本质上是从参考图中"推演"下一帧。你给的参考图越丰富、动作信息越明确，它推演的方向就越准。

常规做法是给一张角色设定图+一段文字提示词。但文字对动作的描述是模糊的——"飞踢"可以有一百种姿势， AI 不知道你要哪一种。

分镜图的思路就简单了：我不告诉你什么是飞踢，我画给你看。

16 格分镜图把一段打斗拆成 16 个关键帧——拔刀、格挡、飞踢、夺刀——每个姿势都画出来。 AI 拿到的不再是"一段文字描述"，而是"一套视觉引导线"。动作连贯性就从这里来的。

工具链很简单：图片模型 Image 2 + 🍌，视频模型 Seedance 2.0 。

整体流程三步走：资产图制作 → 动作分镜图制作 → 视频生成与后期。

第一步：资产图——让 AI 认识你的角色

在让角色动起来之前， AI 得先知道你的角色长什么样。这一步属于 Seedance 全能参考模式的标准流程，不复杂。

人物设定图。生成标准人物全身正/侧/背三视图，纯白背景，真人写实风格。左侧近景胸像，右侧全身三视图。

服装/道具细节图。单独出配件的多角度图，比如飞针、短刀、护腕。纯白背景，不出现人物。

场景图。生成不含人物的场景空镜，设定好氛围和光线。比如"竹林深处，茶馆外木桌旁，午后光斑碎落桌面"——这些场景信息直接影响视频的环境一致性。

关键时刻场景图。这是我个人比较推荐的一步。把打斗发生的"关键时刻"预先生成场景图——比如"木桌被踢翻的瞬间环境"、"竹林中的决战空地"——用来锚定视频画面的背景。

备注：这一步人脸如果虚化也没关系，因为生图模型生成的东方人物一致性不如 Seedance 2.0 。人脸可以在后面的视频生成阶段用 Seedance 重新生成。

第二步：动作分镜图——整篇文章最有价值的部分

这是核心。

思路是：用简笔画风格生成 4×4=16 格的武打动作分镜图，而非用真人写实风格。

为什么是简笔画？

两个原因。一是生图模型做真人武打动作的能力不强，出图需要频繁抽卡，积分扛不住。二是——更重要的——简笔画天然剥离了"画风"，只保留"动作信息"。这样 Seedance 在参考时不会把简笔画的风格迁移到真人视频里（你用提示词里加一句"禁止迁移参考图画风"就行）。

以下是第一个完整示例。红衣女子（飞针）在竹林木屋对战多名黑衣刺客（长刀）。

提示词关键要素拆解（你可以用这个模板改自己的）：

生成一张用于 AI 视频生成参考的专业级 16 格武打动作分镜图。  【视觉风格】简笔画风格，纯白背景，颜色区分角色， 强烈对比度，突出姿态、动作和物体互动。  【网格布局】4×4 网格，共 16 格，细黑线均匀分隔。 每格编号 1-16，有动作箭头和镜头语言说明。  【角色设定】（用颜色区分角色）  【内容设定】按格逐帧描述： - 格1-4：起始对峙与发力（特写→近景→中景过渡） - 格5-8：第一波交锋（兵刃相接的画面） - 格9-12：转折与压制（节奏加快，镜头切换密集） - 格13-16：收尾（英雄式定格）  【镜头要求】多分镜切换，特写、慢动作、跟拍结合， 构图参考经典武侠电影，强调打击感和速度感。

再来看第二个示例——黑衣女子（短刀）在竹林对战黑衣刺客（长刀），角色逆转。

这一步的真正价值，不在"生成视频"，而在"预判"。

分镜图画出来之后，你就能看到：这个角色的动作姿态对不对？构图和镜头语言符不符合基本预期？节奏感到不到位？

不符合——直接改分镜图的提示词重画，花几十积分。比生成完视频发现不对、花几百积分重做，省太多了。

符合预期了，再拿着这套分镜图进入第三步。

第三步：视频生成——水到渠成

有了资产图+关键场景图+动作分镜图，视频生成这一步反而是最简单的。

把这三套图全部作为参考图上传 Seedance 2.0 ，输入提示词：

"生成一段红衣女子@图片 1 在竹林木屋前与多名黑衣刺客@图片 4 打斗的画面。真人武侠电影写实风格， 35mm 摄像机拍摄。画面内容动作设计、镜头语言严格参考@图片 3 （动作分镜图）。仅生成打斗音效和环境音效，不配背景音乐。参考图@图片 3 的画面风格禁止迁移到视频画面中。"

选了模型和比例（一般 15 秒），点生成。

同样的流程换一个场景——黑衣女子竹林决战——动作控制也基本到位，累计抽卡 2 次。

这套流程为什么省积分

回头算一笔账。

常规做法：角色图 + 提示词 → 直接生成视频 → 崩了 → 重试。一次视频 15 秒，积分消耗不低。试十次，积分见底，素材没几个能用的。

分镜图做法：花几十积分别出分镜图（简笔画消耗极低）→ 检查动作和镜头 → 不通过就改分镜提示词，通过才点视频生成 → 一次到三次出片。

本质上是在用廉价积分别（简笔画）替换昂贵积分别（视频抽卡）的试错成本。

而且分镜图是可以复用的。同一个分镜模板，换一套角色资产图，就变成了另一段视频的动作脚本。

总结

武侠 AI 视频的动作可控性问题，根源不在模型能力，在信息传递方式。

文字提示词 → 模型理解 → 动作输出，这条链路的信息损耗太大了。"飞踢"两个字，模型得脑补一百个参数。分镜图把这条链路短接了——用视觉信息直接告诉模型"就这个姿势，就这个角度，就这个节奏"。

信息越完整，抽卡越少。这套流程归根到底就这一条原则。

感兴趣的朋友可以试试。有什么问题评论区聊——你碰到的最离谱的 AI 动作翻车是什么？发出来大家一起笑。