从一张照片到一支MV《掌心的光》:4个AI工具,花了X块,踩了这些坑夏天一个下午,阳光很好,海风凉爽,在海边咖啡厅随手拍了一张照片。我把它上传到Suno,试了一下图生歌功能,还挺惊艳,有灵魂,朋友都说好听。于是我决定,给这首歌做一支MV,整个项目用了4个AI工具,总花费约X元,花了些时间。有一点值得单独说:环境镜头——海、沙滩、晚霞、天空、月亮——用真实拍摄的照片。 AI生成的环境总差一点灵魂。这支MV里,只有女主角是AI的,海是真实的。白天海边+轻纱波浪白裙 ➡️晚霞+轻纱花边紫裙 ➡️日落+橙金线礼裙上传海边照片,Suno生成了歌曲《掌心的光》,包含完整歌词、旋律和编曲。这一步几乎没有人工干预,成品质量超出预期。三套服装(白色吊带裙、浅紫色挂脖裙、浅橙色抹胸礼服裙)分别用即梦生成设计+人工参考图,作为后续视频生成的视觉锚点。Step 3:OhYesAI 生成女主角、分镜描述输入音频,提示词给OhYesAI ,女主形象定型,以及分镜剧本雏形。把歌词时间轴输入,逐句设计对应画面。AI第一版出来的脚本问题很多——景别单一,70%是全景中景,没有大特写,更没有摄影机运动指令。这一步来回改了3轮,最终确定37个分镜,每个分镜明确:景别、摄影机运动方式、人物动作、情绪落点。Step 4:OhYesAI 根据Perplexity建议优化输入Perplexity分镜优化给到OhYesAI,OhYesAI进行调整分镜描述优化,最后生成各个分镜视频。OhYesAI我用的是vidu q2视频生成模型,有些地方比较没有灵魂,用即梦seedance2.0进一步调整(主要是即梦有些积分快过期了别浪费😊)37个视频片段按歌曲时间轴拼接,添加转场,音画对齐。一开始直接让OhYesAI直接生成分镜,没有检查分镜描述、数量,导致一开始做出来分镜尤其散乱多,大大增加后期处理的复杂性!上面的工作流是踩了坑优化出来。还有其他如下坑:70%的镜头都是全景或中景,没有大特写,没有摄影机运动。直接用会让MV显得像PPT翻页。解决方法:逐条标注景别问题,明确要求每个分镜加上"推/拉/跟/摇"的具体运动指令。有一个对应"我的心随光轻轻摇晃"的分镜,我想要女主极轻微地随光摇晃,AI生成出来她的头一直在转,完全不对。最终解法是反向操作——让人完全静止,把所有的"摇晃"交给光:提示词加入:女主角头部完全固定,不转动,不摇头,全程保持静止姿态。所有动态元素仅限于:裙摆飘动、发丝飘动、光影变化、背景海浪。人不动,光在动。副歌出现两次,两次用了几乎相同的画面设计。解决方法:副歌第一次用正面中景+白天光感,副歌第二次改为双手合十大特写+晚霞光感,相同歌词用完全不同的视觉信息呈现,避免审美疲劳。比如全程赤脚在海边,所有的环境都在海边等等,不然有时候穿鞋,有时候跑到室内整个mv下来感觉最好的分镜是用无人机视角提示词拍摄:在 @图片3 环境中,跟拍加回望动作加无人机缓慢拉高。尾奏定格镜头,摄影机跟随 @图片1 @图片2 女主的背影渐渐远去,她逐渐融入暮色中。在无人机开始拉高前(约第5秒时),女主停下脚步,轻轻回头望一眼镜头,然后继续向远方走去。无人机缓慢拉高,画面逐渐拉远,最终画面只剩沙滩、一串赤脚脚印延伸向远方、金黄泛红的天际线与温柔海浪,画面透出无尽安宁,最后渐暗。横屏16:9。
做这个mv主要原因——不是工具有多酷,而是某个夏天下午的光,终于被留下来了。完整分镜提示词 + 每个工具详细使用方法 ,欢迎留言感兴趣的细节,下篇见。