从一张照片到一支MV《掌心的光》:4个AI工具,花了X块,踩了这些坑

夏天一个下午，阳光很好，海风凉爽，在海边咖啡厅随手拍了一张照片。

好奇这么一张治愈的照片，用来生成音乐🎵会是怎样？

我把它上传到Suno，试了一下图生歌功能，还挺惊艳，有灵魂，朋友都说好听。

于是我决定，给这首歌做一支MV，整个项目用了4个AI工具，总花费约X元，花了些时间。有一点值得单独说：环境镜头——海、沙滩、晚霞、天空、月亮——用真实拍摄的照片。 AI生成的环境总差一点灵魂。这支MV里，只有女主角是AI的，海是真实的。

一：工具、成本

二、场景设计核心主线：服装适配环境时间线

白天海边+轻纱波浪白裙 ➡️晚霞+轻纱花边紫裙 ➡️日落+橙金线礼裙

三、完整工作流：5个步骤

Step 1：Suno 图生歌

上传海边照片，Suno生成了歌曲《掌心的光》，包含完整歌词、旋律和编曲。这一步几乎没有人工干预，成品质量超出预期。

Step 2：即梦生成服装和画面参考

三套服装（白色吊带裙、浅紫色挂脖裙、浅橙色抹胸礼服裙）分别用即梦生成设计+人工参考图，作为后续视频生成的视觉锚点。

Step 3：OhYesAI 生成女主角、分镜描述

输入音频，提示词给OhYesAI ，女主形象定型，以及分镜剧本雏形。

Step 4：Perplexity 优化分镜描述

把歌词时间轴输入，逐句设计对应画面。AI第一版出来的脚本问题很多——景别单一，70%是全景中景，没有大特写，更没有摄影机运动指令。这一步来回改了3轮，最终确定37个分镜，每个分镜明确：景别、摄影机运动方式、人物动作、情绪落点。

Step 4：OhYesAI 根据Perplexity建议优化

输入Perplexity分镜优化给到OhYesAI，OhYesAI进行调整分镜描述优化，最后生成各个分镜视频。

Step 5：即梦调整部分分镜

OhYesAI我用的是vidu q2视频生成模型，有些地方比较没有灵魂，用即梦seedance2.0进一步调整（主要是即梦有些积分快过期了别浪费😊）

Step 6：剪映后期剪辑

37个视频片段按歌曲时间轴拼接，添加转场，音画对齐。

四、踩了哪些坑

一开始直接让OhYesAI直接生成分镜，没有检查分镜描述、数量，导致一开始做出来分镜尤其散乱多，大大增加后期处理的复杂性！上面的工作流是踩了坑优化出来。还有其他如下坑：

坑1：AI第一版脚本景别严重失衡

70%的镜头都是全景或中景，没有大特写，没有摄影机运动。直接用会让MV显得像PPT翻页。解决方法：逐条标注景别问题，明确要求每个分镜加上"推/拉/跟/摇"的具体运动指令。

坑2：人物头部，动作控制失效

有一个对应"我的心随光轻轻摇晃"的分镜，我想要女主极轻微地随光摇晃，AI生成出来她的头一直在转，完全不对。

最终解法是反向操作——让人完全静止，把所有的"摇晃"交给光：

提示词加入：女主角头部完全固定，不转动，不摇头，全程保持静止姿态。所有动态元素仅限于：裙摆飘动、发丝飘动、光影变化、背景海浪。人不动，光在动。

效果反而更好，也更贴近歌词的意境。

坑3：相同画面的歌词重复段落

副歌出现两次，两次用了几乎相同的画面设计。解决方法：副歌第一次用正面中景+白天光感，副歌第二次改为双手合十大特写+晚霞光感，相同歌词用完全不同的视觉信息呈现，避免审美疲劳。

坑4：提示词约束一定要在一开始思考完整，减少返工

比如全程赤脚在海边，所有的环境都在海边等等，不然有时候穿鞋，有时候跑到室内

五、提示词

整个mv下来感觉最好的分镜是用无人机视角提示词拍摄：

在 @图片3 环境中，跟拍加回望动作加无人机缓慢拉高。尾奏定格镜头，摄影机跟随 @图片1 @图片2 女主的背影渐渐远去，她逐渐融入暮色中。在无人机开始拉高前（约第5秒时），女主停下脚步，轻轻回头望一眼镜头，然后继续向远方走去。无人机缓慢拉高，画面逐渐拉远，最终画面只剩沙滩、一串赤脚脚印延伸向远方、金黄泛红的天际线与温柔海浪，画面透出无尽安宁，最后渐暗。横屏16:9。

已关注

关注

重播分享赞

视频详情

做这个mv主要原因——不是工具有多酷，而是某个夏天下午的光，终于被留下来了。

完整分镜提示词 + 每个工具详细使用方法，欢迎留言感兴趣的细节，下篇见。