我低估了这一轮 AI 视频的进化速度.

周日一天没休息，我是用 AI 做了一个自己超级喜欢的小片子。

话说我最近用 AI 生成图片、视频，真有点上瘾。就像写代码一样，看着自己一步步把一个作品构建出来，特别有成就感。这和赚钱没关系，就是单纯的好玩。

下个月有一部电影叫《青铜葵花》要上映，改编自曹文轩的同名小说。好几年前跟孩子一块读的，当时就觉得这本书挺有意思。

虽然是儿童文学，但对我来说，它给我最大的感触是让我意识到，人无论在什么情况下都有选择。

即便青铜一家很穷，但仍然可以在很多事情上选择善良，选择更有尊严的活着。这一点让我印象深刻。

上周看到电影要上映的消息，就一直在查资料。周五晚上都躺到床上了，突发奇想：我完全可以用 AI 复刻一下他们的预告片。

因为这个预告片还是非常唯美。我很喜欢其中的画面。

已关注

关注

重播分享赞

视频详情

下面是我复刻的动漫风格版本。做这件事完全是因为喜欢这部电影，喜欢里面的画面。

而且在复刻的过程中，还能学到不少关于镜头、构图、配乐的东西。挺有意思的。

已关注

关注

重播分享赞

视频详情

工具方面，我用的是 Vidu 的 Q3 模型。Q3 最突出的能力就是参考生视频能力很强。

简单说参考生就是让 AI 生成视频时能参考我们给它的图片。我给它一张人脸照，生成的视频里这个人就长这样。给它一个场景图，它就在这个场景里拍。角色、场景、道具都能指定。

这能力对做连续剧情的内容特别重要。以前 AI 生成视频，每条都是独立的，角色长相会飘，场景会变，根本没法串成故事。

有了参考生，角色和场景可以复用，才有可能做出一个完整的片子。

Vidu 是最早做参考生的，Q3 这个版本又往前推了一步。以前主要是保角色一致性，现在是万物可参。人脸、场景、服装、道具，甚至音色，都可以作为参考输入。

除了参考生，Q3 还有一个让我惊喜的地方是特效和音效。

它内置了六类特效引擎，粒子、流体、光影、动力学这些都能做。虽然《青铜葵花》是个安静的故事，用不上爆炸和能量波，但像风吹芦苇、阳光穿过葵花田这种环境氛围，Q3 处理得很自然。

光影的变化、空气里的颗粒感，这些细节让画面更有电影质感。

音效也是直接生成的。以前 AI 视频要么没声音，要么只能后期配 BGM。Q3 能生成环境音、动作音效，甚至情绪氛围音。

我片子里有几个镜头，风声、脚步声都是模型自己加的，省了不少后期的事。

我复刻《青铜葵花》预告片的时候，先做了青铜和葵花的动漫角色图，又找了大麦地、葵花田这些场景图，然后一条一条生成。

角色在不同镜头里是同一个人，场景也能保持统一，这才能把片子串起来。

真的没想到，AI 视频已经发展到这个地步了。

创作过程

#01

假期的一次尝试

下面，我给大家复现下具体我是怎么做的。

Vidu 的地址在这里：

https://www.vidu.com/zh/home/recommend

输入专属邀请码：CPAY，注册就送500积分。

企业用户也可以登陆，体验最新功能：

https://platform.vidu.cn/

这里我要多一句嘴，Vidu 在动漫风格上依旧是王者。我选它还有一个原因：不想额外生成中间图片。

什么意思呢？我的思路是直接拿预告片的分镜截图当参考图，加上提示词，喂给 Vidu Q3 模型。这样最省事。

但这个思路能跑通，有两个前提：一是动漫风格的呈现要好，二是模型对参考图的理解要足够深，能读懂整张图在讲什么，而不是只抓到局部细节。

Q3 在这两点上都还不错，所以整个流程很顺：截图、写提示词、生成、挑选。没有太多中间环节。

所以我的工作流就非常简单。大家看下面这张截图：

先说个我最开始就踩的坑。

第一个镜头是河边大树加水面的空镜开场。原片里其实是有人的，只不过特别小，很容易被模型忽略。

这里如果提示词里不写清楚，Vidu Q3 可能会直接去掉人物，生成出来一个纯风景的空镜开场。所以这里得加一句：画面中人物保留，不要去掉。

参考生视频相较于首尾帧生视频对提示词的要求还是要细一些。所以效果不好，不是一定是模型做不到，而是我们没说清楚。

第二个镜头，男孩在芦苇中的近景，这个挺难抽的。因为有段时间没有细致的写提示词了，所以一开始我以为是模型不行，但后来结合第一个镜头的经验，意识到不是能力问题，是可控范围的问题。

把细节往提示词里塞，比如，水面波纹、微风吹动、芦苇晃动、远处鸟鸣、竹竿碰水的声音，人物表情先怎么样，后怎么样，这些东西它是能接住的，而且接得还挺稳。

这里我要多一句嘴，就是我们上传的图片是可以复用的，输入“@”符号就可以选择要复用的图片了。

这一代模型让我改观的地方是，它生成出来的东西不那么假了。

比如我做葵花在芦苇荡里跑的那个镜头。以前AI生成这种画面，人在跑，但周围的芦苇纹丝不动，光也不变，人物和环境像是两层皮，一眼就穿帮。

Q3不一样，人跑过去，芦苇会晃，光线会跟着变，整个环境跟人物是一体的。

音效也是。那个镜头里风吹芦苇的沙沙声、脚步踩地的声音，都是模型自己生成的，跟画面是配套的，不是后期硬贴上去的感觉。

这些东西单拎出来都是细节，但加在一起，感觉就对了。风声、光影、环境的晃动，其实都在帮你讲情绪。

还有一个发现是，提示词写得越具体，出来的效果越好。不是那种玄学的你要懂它，就是老老实实把你想要的画面描述清楚。

模型能力是够的，就看你能不能把脑子里的画面翻译成它能懂的话。

第三个镜头，女孩首次亮相就很简单了，几乎是送分题，两次就出了。

Vidu Q3 模型上限很高，但还是有点小毛病存在的。

拿接下来的这第四到第六个镜头来说，这一段我抽卡的时候，提示词中写人物向右转头，它可能给你来个向左，写固定镜头，它可能自己开始运镜。

不过有意思的地方也在这儿。它有时候自己加一点景别变化、镜头移动，或者光线的起伏，画面反而更好看了。

接下来，第七个镜头向日葵空镜就不说了，很简单。

第八个镜头，男孩穿行在向日葵田找女孩，这个镜头有点玄学，也许是运气好。我当时抽的时候完全没底，光想想就觉得难。

我预想肯定会碰到这些问题：人物比例不对，比向日葵矮一截。或者节奏不对，像在散步旅行，一点找人的焦急感没有。还有那种低级错误，比如穿行方向反了。

这些问题碰上就头大。没想到没抽几次就出了还不错的效果。

你看这个镜头，向日葵挡住人，人又从后面钻出来，阳光在叶子和脸上一闪一闪，镜头还跟着人在动。这些东西加在一起，找人那种着急劲儿就出来了。

下面是我加的特效和音效，模型能够理解到。就是这些小细节自然地配合在一起，画面就开始讲故事了。

第九到第十一个镜头又轻松回来了，属于那种你让它干嘛它就干嘛的阶段，基本没什么阻力。

第十二个镜头稍微有点意思，难点不在动作，而在情绪。

男孩找到离家出走的女孩，那种松一口气的感觉，这种很微妙。你很难用一句提示词说清楚，但又必须让它表现出来。

第十四个镜头就又简单了，基本一两次搞定。

然后到第十五、第十六个镜头，两个孩子在河面上的动作镜头，直接地狱模式，不一定是最难的，但一定是最复杂的。

这一段不只是单个镜头难，而是它前后镜头是连着的，动作、情绪、场景、远景人物穿搭和细节都要接得上，而且不能穿帮和出现很违和的动作。

后面的镜头就不一一展开了，大体就是在类似上面的这个循环里反复横跳。

整体感受是，Vidu Q3 确实能支撑起一个完整短片的制作。从角色设定到场景搭建，从镜头生成到音效合成，一个工具基本能覆盖。

当然也有不完美的地方。有些镜头的动作还是不够自然，生成多条之后挑一条效果最好的用。但对于我这种纯粹出于兴趣做着玩的人来说，已经足够了。

#02

写在最后

昨天一整天没出门，就在办公室待着，一直到晚上七点多，把整个片子鼓捣出来。看着成品的那一刻，特别有成就感。

这种感觉很难描述。就是你脑子里有一个画面，然后你真的把它做出来了。不是想想而已，是真的做出来了。

这事放在以前，我想都不敢想。短时间做出这样一个作品？怎么可能。我又不是专业做动画的，又不会画画，又没有团队。

但现在不一样了。周末当个 Side Project 玩一玩，就能把东西做出来。

图片模型、视频模型、音频模型、大语言模型……这些工具就摆在那里，谁都能用。门槛已经低到这个程度了，剩下的就是我们愿不愿意动手。

我这个片子当然不完美，但这不重要。关注我比较久的朋友应该能看出来，我做的东西在慢慢变好。

每做一个，就比上一个强一点。审美在积累，手感在养成，工具在迭代。这些东西会在某一刻串起来。

所以我现在越来越觉得，这个时代最重要的事就是成为 AI Maker，而不是只当一个 Consumer。

工具已经在这了，门槛已经够低了。剩下的就是动手。做得不好？没关系，下一个会更好。