我用5个AI工具做了一部东方奇幻短片,一半素材废了

我用5个AI工具做了一部东方奇幻短片，一半素材废了

先说结论：剧本写了，分镜画了，设定做了，视频跑了。最后能用的镜头不到一半。剩下的？不是动作崩了，就是风格跑了，再不然就是纸人变成了塑料人。

为什么做「纸魂灯」

我想做一部东方奇幻短片。不是那种仙侠恋爱剧，是徐克式的——执念、宿命、纸一样的灵魂。

故事很简单：老纸匠裴十三有一个纸人徒弟阿鸦。纸人替主人承受执念，久了便有了心。裴十三害怕，亲手把纸人封入火中。多年后阿鸦归来，两人在纸竹林中 "共舞"，最后裴十三发现自己才是真正被困在纸中的人。

1分30秒。22个镜头。纸艺定格动画的质感。下面视频是用了2000积分生成了15镜头视频，只有这5个能用。

已关注

关注

重播分享赞

视频详情

我的5个AI工具链

这个项目的 workflow 长这样：

创意 + 故事大纲（我）    ↓剧本（Gemini）    ↓分镜 + 设定（ChatGPT image2.0 → Google nano banana2）    ↓视频生成（Seedance 2.0，图生视频）    ↓剪辑（我，手动）

5个AI工具。听起来很专业对吧？实际上每一步都踩了坑。

血泪教训一：ChatGPT image2.0 镜头语言最好，但噪点毁所有

分镜阶段我试了两种工具。

ChatGPT 的 image2.0 镜头感确实强。同样的 "大雪夜纸镇" 描述，它给的构图有景深、有光影层次，甚至能隐约感受到镜头运动的方向。一看就是懂电影的。

但问题是：噪点太重了。

不是普通的颗粒感，是那种 AI 生成特有的、随机分布的彩色杂斑。像信号干扰。放大了看，纸纹变成了一团糊，竹篾骨架像是融化的蜡烛。这种图当分镜参考可以，但直接拿去给下一步当素材？不行。

后来换了 Google 的 nano banana2。画面干净很多，风格控制也稳，但镜头语言确实弱了一档。很多图像是 "摆拍感"，不是 "电影感"。

我最后的选择是：用 image2.0 的构图思路，用 banana2 出最终设定图。两头沾，两头都不完美。

血泪教训二：Seedance 2.0 的图生视频，提示词和参考图会打架

这是本次最惨烈的战场。

Seedance 2.0 支持图生视频：上传一张分镜图，写一段运动描述，AI 帮你生成动态镜头。理论上很完美——分镜定好了构图和风格，提示词只需要描述 "怎么动"。

我跑了大概20个镜头。废了一半。

废片分三种：

第一种，动作崩坏。我让纸人 "缓缓抬头"，结果头直接180度旋转，竹篾骨架从脖子里穿出来。这种属于物理引擎抽风，无解。

第二种，风格漂移。分镜图明明是冷色调的纸艺质感，视频生成三秒后变成了暖色调的3D动画。纸变成了布，布变成了皮。AI 似乎有自己的审美坚持。

第三种最隐蔽：提示词和参考图互相干扰。我上传了一张 "纸竹林中两人对峙" 的分镜，提示词写的是 "竹叶如绿色纸片翻飞，衣袍飘动"。结果 AI 把 "纸片" 理解成了 "纸飞机"，满屏幕都是折纸飞机在飞。竹林？不见了。

后来我明白了：图生视频时，提示词不能描述画面里已经有的东西，只能描述 "运动"。你说得越多，AI 越困惑。

血泪教训三：纸艺质感，AI 根本不懂

这个项目最核心的视觉关键词是 "纸艺定格动画"。宣纸、竹篾、皱纹纸、墨迹。

但没有一个 AI 真正理解 "纸" 是什么。

Gemini 写剧本时，把 "纸人少年" 理解成了 "穿着白纸衣服的真人少年"。banana2 画图时，纸纹要么太立体像浮雕，要么太平像贴图。Seedance 生成视频时，纸在运动中会莫名其妙地 "变硬" 或 "变透明"，像塑料薄膜。

我试过很多方法：在提示词里加 "stop-motion"、"paper craft"、"layered paper"、"Xuan paper texture"。有用，但不够。AI 知道纸长什么样，但不知道纸 " behaves " 什么样。

纸是软的，但有自己的倔强。折过之后有痕，湿了会皱，烧了会卷边。这些物理特性，AI 全都没见过。

所以最后能用的镜头，都是那种 "不要太近、不要剧烈运动、不要展示纸张细节" 的中远景。保命镜头。

还不错的几个镜头

好在不是全灭。

"风雪纸镇" 的开场镜头稳住了——大雪飘落，纸灯笼轻轻晃动，整个古镇像快散架的梦。这个镜头没有复杂动作，AI 没机会崩。

"阿鸦归来" 的降落镜头也保住了。白衣从风雪中落下，折纸乌鸦盘旋。画面暗，细节少，风格漂移也不明显。

最意外的是 "纸化" 镜头。裴十三的手臂变成宣纸纹理，裂痕里露出竹篾骨架。这个效果我原以为最难做，结果 AI 对 "人体异变" 的熟悉程度远高于 "纸艺质感"。讽刺。

关于那一半废片

它们躺在硬盘里，格式各异，占了好几个G。

有的头在转，有的纸变塑料，有的满屏幕纸飞机。我不删，因为每张废片都在告诉我这个 workflow 的边界在哪。

ChatGPT image2.0 的边界是 "噪点"。banana2 的边界是 "镜头语言"。Seedance 2.0 的边界是 "提示词和参考图的互相干扰"。纸艺质感的边界是 "AI 没见过真正的纸"。

做AI视频，本质上是在和工具的盲区对赌。你试得越多，越知道什么不能碰。但前提是，每次崩你都知道崩在哪。

那这部短片完成了吗

严格来说，没有。

1分30秒的剧本，目前只做出了不到十个能用的镜头，用了我攒半个多月的积分，拼起来大概二十几秒。后面的竹林幻斗、纸化、终幕，全是静态图加文字描述。

但我不觉得这是失败。这二十几秒的成品，已经让我看清楚了一件事：目前的AI视频工具，做 "氛围镜头" 可以，做 "叙事镜头" 还差得远。

什么叫氛围镜头？大雪飘落、灯笼摇晃、纸灰飞舞。没有复杂人物交互，没有精确动作，没有时间压力。

什么叫叙事镜头？师徒对峙、眼神变化、手臂纸化、情感转折。这些需要一致性、精确性和物理逻辑，AI 给不了。

所以我接下来的策略是：用 AI 做氛围，用人做叙事。不是偷懒，是认清边界。

鬼斗
一个跟AI工具死磕的独立创作者。不吹不黑，只写真实体验。如果你也在用AI做视频，告诉我你卡在哪一步了，说不定我那一半废片里刚好有答案。

本文为鬼斗原创内容，基于真实使用经验整理。