《桃花源记》转AI视频V4:角色一致性-夜雨聆风

《桃花源记》转AI视频V4:角色一致性

本次修改，主要由每段15秒改成10秒，实际上还是15秒更好，因为目前免费版的大多数10秒（无奈之举）；最大的变化是增加了角色一致性，使用R2V模式生成视频，比如武陵渔人的三视觉定妆图：

和上一版本的修改对比如下：

已关注

关注

重播分享赞

视频详情

主角终于不再“变脸”了

做过AI多段视频的人应该都有体会，最头疼的问题就是主角的长相稳不住。上一段还是清瘦的渔人，下一段可能就变成了圆脸大叔，甚至胡茬都莫名其妙长出来了。在V3版本里，我只能在每一段都用大段文字去描述这位渔人——什么年龄、什么脸型、穿什么衣服、用什么笔法勾线。即便如此，AI还是会跑偏，因为每次生成都是独立的，它并不真正“记得”上一段渔人长什么样。

在1V4版本里，我用了参考图模式。渔人从一开始就被一张固定的人物图锁定了，每一段开头只需要调用这个参考图就可以，不必再花大量篇幅去重复他的长相特征。省下来的描述篇幅，全部给了动作和表情。于是你会在画面里看见：他撑船时手臂肌肉轻轻跳动，呼吸时胸膛微微起伏；遇见桃花时惊讶得半张着嘴，告别时喉结上下滑动过一次——这些在10段版里根本不敢写这么细，因为没有那么多字数空间。

动作描写分解得更细了

整部视频有一个贯穿始终的风格规则，叫做“先真实后墨化”。意思是什么东西都得先像真的一样运动，然后再逐渐变成水墨的笔触和墨迹。V3版已经有这个意识了，比如花朵先粉嫩飘落，然后才化成胭脂墨点；水花先溅起，再变成飞白墨点。

V4版在这个基础上把很多关键动作的物理过程拆得更细了。举个例子，有一组“露珠入水”的镜头，描述是这样写的：露珠沿着叶脉往下滑，由于重力被拉得变形，尾部还紧贴着叶面；滑到叶尖停了0.5秒，攒够重量之后，底部与叶面的附着力突然断开，露珠坠落，在空中保持球形，表面反射光斑；砸进水里时，水面先被压出一个极短暂的凹坑，紧接着弹起一圈环状水脊；水脊向外扩散的过程中，顶部从透明逐渐变成淡墨色，最终化为一圈墨环继续扩散。这些精确的步骤分解和时间标记，不是为了炫技，而是为了让AI在生成时有一个清晰的执行顺序，不至于把“墨化”做成一个生硬的滤镜切换。

发现并解决了很多“AI幻觉”问题

在反复生成的过程中，我发现了一些很有意思的“AI幻觉”。比如在夜宿桃源的片段里，残席的木桌上明明应该只有粗陶碗和瓦罐，但AI好几次自动生成了一个现代玻璃酒瓶——因为在它的训练数据里，“宴席+酒”最常见的就是酒瓶。这个问题在V3版里是没有额外约束的，AI想当然就加了进去。

在V4版里，我对这类关键场景增加了专门的“道具约束”。还是以夜宿桃源为例，我加了一条强制规定：所有器皿只能是粗陶碗、粗陶盘、瓦罐、竹筷、木勺，不得出现玻璃、瓷质、金属器皿，不得出现任何瓶状容器。并且把桌上每一件物品都列了出来。这样约束之后，生成的画面就完全符合魏晋时期的设定，不再冒出奇怪的现代物品了。

当然，目前还有不少不足之处

最遗憾的一点是音乐。因为是独立生成，每一段视频的配乐都是各自为政的，没办法像电影配乐那样让上一段的尾音自然地流进下一段。虽然我在设计时让每段音乐都“弱起弱收”，尽量做出收束感，但拼接在一起时还是能听出段落之间的缝隙。这个目前只能靠后期音频软件手动拼接来补救。

其次，那些极其精细的物理变化——比如“0.3秒后水纹转化为墨环”——在实际生成时，AI并不一定能完全精确地还原。有的片段水花墨化做得非常漂亮，有的就只是普通的扩散了一下。这种不稳定，目前没有太好的办法，只能多生成几次从中挑选质量最好的那一次。

还有，非主角的角色虽然在单个片段里描述得很详细，但因为毕竟没有参考图锁定，同一个老者在不同的片段里出现时，脸还是可能不完全一样。比如在“老幼怡然”那一段和后来“渐入告别”那一段，虽然都是我描述的那个“须发皆白、眼窝微陷”的老者，但AI两次生成的面部细节会有出入。一次性出现的角色问题不大，超过两次就需要参考图了。

转场虽然统一用了墨化扩散，但不同片段生成的墨色浓淡、扩散速度不太一样。V4拼在一起连续播放时，细心看会察觉到某些段落过渡的地方有一点点生硬。如果需要追求极致流畅，就需要在后期统一校色，或者给每一段的首尾连接处单独做一层淡墨过渡。

最后说两句：流程固化

做这套视频的整个过程，很像是在为AI写一本极其详细的导演分镜剧本，同时还要兼顾画家的水墨技法、道具师的时代考据和配乐师的谱曲。我最大的感受是：AI能理解诗意到哪一步，很大程度上取决于你给它的指令有多精确。当你说“花瓣飘落化为墨点”，它可能做得很粗糙；但当你把整个过程拆解成变形、停留、滴落、涟漪、拉伸、墨化这六个具体步骤，并且给每一步都标上时间的时候，它就真的有可能给你一处相当动人的水墨瞬间。

每次优化需要不少时间，有没有一种方式固化下来，让人的干预做到最少呢？

所以我做了一个平台，设计了20+智能体协作完成者一个过程，目前核心引擎已经完成开发。