我用5个AI工具做了一部东方奇幻短片,一半素材废了
先说结论:剧本写了,分镜画了,设定做了,视频跑了。最后能用的镜头不到一半。剩下的?不是动作崩了,就是风格跑了,再不然就是纸人变成了塑料人。

为什么做「纸魂灯」
我想做一部东方奇幻短片。不是那种仙侠恋爱剧,是徐克式的——执念、宿命、纸一样的灵魂。
故事很简单:老纸匠裴十三有一个纸人徒弟阿鸦。纸人替主人承受执念,久了便有了心。裴十三害怕,亲手把纸人封入火中。多年后阿鸦归来,两人在纸竹林中 "共舞",最后裴十三发现自己才是真正被困在纸中的人。
1分30秒。22个镜头。纸艺定格动画的质感。下面视频是用了2000积分生成了15镜头视频,只有这5个能用。
我的5个AI工具链
这个项目的 workflow 长这样:
创意 + 故事大纲(我) ↓剧本(Gemini) ↓分镜 + 设定(ChatGPT image2.0 → Google nano banana2) ↓视频生成(Seedance 2.0,图生视频) ↓剪辑(我,手动)5个AI工具。听起来很专业对吧?实际上每一步都踩了坑。

血泪教训一:ChatGPT image2.0 镜头语言最好,但噪点毁所有
分镜阶段我试了两种工具。
ChatGPT 的 image2.0 镜头感确实强。同样的 "大雪夜纸镇" 描述,它给的构图有景深、有光影层次,甚至能隐约感受到镜头运动的方向。一看就是懂电影的。
但问题是:噪点太重了。
不是普通的颗粒感,是那种 AI 生成特有的、随机分布的彩色杂斑。像信号干扰。放大了看,纸纹变成了一团糊,竹篾骨架像是融化的蜡烛。这种图当分镜参考可以,但直接拿去给下一步当素材?不行。
后来换了 Google 的 nano banana2。画面干净很多,风格控制也稳,但镜头语言确实弱了一档。很多图像是 "摆拍感",不是 "电影感"。
我最后的选择是:用 image2.0 的构图思路,用 banana2 出最终设定图。两头沾,两头都不完美。

血泪教训二:Seedance 2.0 的图生视频,提示词和参考图会打架
这是本次最惨烈的战场。
Seedance 2.0 支持图生视频:上传一张分镜图,写一段运动描述,AI 帮你生成动态镜头。理论上很完美——分镜定好了构图和风格,提示词只需要描述 "怎么动"。
我跑了大概20个镜头。废了一半。
废片分三种:
第一种,动作崩坏。我让纸人 "缓缓抬头",结果头直接180度旋转,竹篾骨架从脖子里穿出来。这种属于物理引擎抽风,无解。
第二种,风格漂移。分镜图明明是冷色调的纸艺质感,视频生成三秒后变成了暖色调的3D动画。纸变成了布,布变成了皮。AI 似乎有自己的审美坚持。
第三种最隐蔽:提示词和参考图互相干扰。我上传了一张 "纸竹林中两人对峙" 的分镜,提示词写的是 "竹叶如绿色纸片翻飞,衣袍飘动"。结果 AI 把 "纸片" 理解成了 "纸飞机",满屏幕都是折纸飞机在飞。竹林?不见了。
后来我明白了:图生视频时,提示词不能描述画面里已经有的东西,只能描述 "运动"。你说得越多,AI 越困惑。

血泪教训三:纸艺质感,AI 根本不懂
这个项目最核心的视觉关键词是 "纸艺定格动画"。宣纸、竹篾、皱纹纸、墨迹。
但没有一个 AI 真正理解 "纸" 是什么。
Gemini 写剧本时,把 "纸人少年" 理解成了 "穿着白纸衣服的真人少年"。banana2 画图时,纸纹要么太立体像浮雕,要么太平像贴图。Seedance 生成视频时,纸在运动中会莫名其妙地 "变硬" 或 "变透明",像塑料薄膜。
我试过很多方法:在提示词里加 "stop-motion"、"paper craft"、"layered paper"、"Xuan paper texture"。有用,但不够。AI 知道纸长什么样,但不知道纸 " behaves " 什么样。
纸是软的,但有自己的倔强。折过之后有痕,湿了会皱,烧了会卷边。这些物理特性,AI 全都没见过。
所以最后能用的镜头,都是那种 "不要太近、不要剧烈运动、不要展示纸张细节" 的中远景。保命镜头。
还不错的几个镜头
好在不是全灭。
"风雪纸镇" 的开场镜头稳住了——大雪飘落,纸灯笼轻轻晃动,整个古镇像快散架的梦。这个镜头没有复杂动作,AI 没机会崩。
"阿鸦归来" 的降落镜头也保住了。白衣从风雪中落下,折纸乌鸦盘旋。画面暗,细节少,风格漂移也不明显。
最意外的是 "纸化" 镜头。裴十三的手臂变成宣纸纹理,裂痕里露出竹篾骨架。这个效果我原以为最难做,结果 AI 对 "人体异变" 的熟悉程度远高于 "纸艺质感"。讽刺。

关于那一半废片
它们躺在硬盘里,格式各异,占了好几个G。
有的头在转,有的纸变塑料,有的满屏幕纸飞机。我不删,因为每张废片都在告诉我这个 workflow 的边界在哪。
ChatGPT image2.0 的边界是 "噪点"。banana2 的边界是 "镜头语言"。Seedance 2.0 的边界是 "提示词和参考图的互相干扰"。纸艺质感的边界是 "AI 没见过真正的纸"。
做AI视频,本质上是在和工具的盲区对赌。你试得越多,越知道什么不能碰。但前提是,每次崩你都知道崩在哪。
那这部短片完成了吗
严格来说,没有。
1分30秒的剧本,目前只做出了不到十个能用的镜头,用了我攒半个多月的积分,拼起来大概二十几秒。后面的竹林幻斗、纸化、终幕,全是静态图加文字描述。
但我不觉得这是失败。这二十几秒的成品,已经让我看清楚了一件事:目前的AI视频工具,做 "氛围镜头" 可以,做 "叙事镜头" 还差得远。
什么叫氛围镜头?大雪飘落、灯笼摇晃、纸灰飞舞。没有复杂人物交互,没有精确动作,没有时间压力。
什么叫叙事镜头?师徒对峙、眼神变化、手臂纸化、情感转折。这些需要一致性、精确性和物理逻辑,AI 给不了。
所以我接下来的策略是:用 AI 做氛围,用人做叙事。不是偷懒,是认清边界。
鬼斗
一个跟AI工具死磕的独立创作者。不吹不黑,只写真实体验。如果你也在用AI做视频,告诉我你卡在哪一步了,说不定我那一半废片里刚好有答案。
本文为鬼斗原创内容,基于真实使用经验整理。
夜雨聆风