我用AI做了张交响乐专辑——《一念星河》-夜雨聆风

我用AI做了张交响乐专辑——《一念星河》

我用AI做了张交响乐专辑

事情是这样的：

前阵子我在刷mmx的命令行帮助文档，就那么随手翻翻，看看这玩意还能干点什么有意思的事。

然后我看到了 music generate 这个子命令。

说是可以用自然语言描述，生成音乐。我当时就寻思，这能有多真啊？AI生成图片我见过，生成视频我也见过，这音乐也能AI搞？

说实话我也不确定。

但我就是想试试。

所以我就输入了一句 prompt，描述了一个电影配乐风格的曲子，按下回车，等了几分钟，下载，打开播放器。

你猜怎么着。

那个开头钢琴琶音一出来，我当时就愣住了。

这不是我随便写的那几个词儿吗？这低音铜管的呜鸣，这弦乐层层叠进去的感觉，这打击乐的重量感。全部都在。

就是几个字的描述，它给我变出来了一整支交响乐团。

我靠。

然后我就停不下来了。

先说说什么是 MiniMax Music 2.6。

这玩意儿是 MiniMax 在今年4月发布的新一代音乐生成模型，底层是个 MoE 架构，总共 2300 亿参数，但推理的时候只激活 100 亿。技术细节我就不展开了，反正你只需要知道，这东西生成出来的音乐，长度可以到五分钟，有完整的verse、chorus、bridge 结构，音质最高能到 256kbps。

它支持的玩法大概分两种。

一种是纯器乐，你给个风格描述，它给你生成配乐。

另一种是有歌词的，你可以写好词儿让它唱，也可以让它自动生成歌词。

我做的这张专辑，有的是器乐，还有两首有人声。为啥？因为我想试试 AI 在没有人声的情况下，能把情绪和氛围做到什么程度。

说到这个，我就不得不提一个让我印象特别深刻的发现。

生成音乐这件事，最难的不是技术，是描述。

你脑子里有一个声音，但要把它变成文字让AI理解，这个翻译过程特别有意思。有时候你觉得描述得挺清楚了，结果出来的东西跟你想的完全不是一回事儿。有时候你就随口写了一句，结果出来的东西让你卧槽。

比如我写第一首《Time》的时候，描述的是「Hans Zimmer风格，盗梦空间配乐那种感觉」。结果出来一版，我听着觉得情绪不够浓，不够虐。然后我就加了几个词，「更深沉、更哀伤、从钢琴独奏开始慢慢铺开」，再生成一版，这回感觉对了。

所以啊，这个跟AI画画其实有点像，你得学会怎么跟它沟通。

prompt 的质量直接决定输出质量。

我后来琢磨出一套写提示词的套路，跟大家分享一下，不成熟的地方也请懂的兄弟指正。

第一层是核心元素，必须包括：风格流派、参考作曲家、情绪氛围、乐器编制、节奏速度。

比如「史诗电影配乐、汉斯·季默风格、沉思宏大、钢琴弦乐深铜管、90BPM」这样。

第二层是增强元素，可以让结果更精准：调式调性、结构设计、文化背景、细节描写。

比如「C小调、从安静开场到爆发性高潮、中国古典文化背景」。

第三层是高级元素，让结果更有灵魂：情感弧线、参考作品、具体声音细节、动态范围。

比如「从绝望到希望再到最后的高潮、流浪地球OST那种感觉、要有那种地球被推走时的悲壮感」。

这样三层叠加下来，一个完整的 prompt 就能出来了。

我做的这张专辑，14首曲子，分了几个风格方向。

第一类是史诗电影配乐，这个我参考的是两个作曲家，汉斯·季默和阿鲲。

汉斯·季默大家都熟悉，盗梦空间、星际穿越、蝙蝠侠黑暗骑士，这些都是他的作品。他的标志性特点是什么？那个深沉的低音铜管「braams」，钢琴和弦乐先行，然后一层一层往上叠加，最后给你一个几乎能把屋顶掀翻的爆发。

我写的《Time》就是这个路数，90BPM，C小调，从钢琴独奏开始，慢慢进弦乐，再进铜管，再进打击乐和合唱。你闭上眼睛听，能感觉到那种时间的重量压下来。

阿鲲可能有些人不太熟，但提到流浪地球、哪吒之魔童降世、红海行动的原声音乐，你应该就有印象了。他是中国目前最顶尖的电影配乐作曲家之一。他的风格是什么？是东方式的史诗感，有那种宏大叙事底下的人情味在。

《流浪地球》那首我是真的想做出那种「人类面对宇宙时的绝望和希望」的感觉，所以用了155BPM，C小调，全交响乐团编制，加了电子元素做点缀。出来的效果怎么说呢，反正我自己听的时候是起鸡皮疙瘩的。

第二类是纪录片配乐，这个我只做了一首，《舌尖上的中国》风格。

这首有意思的点在于，它用到了大量的中国传统乐器，二胡、琵琶、古筝、竹笛。我之前没想过让AI生成纯中国风的曲子，总觉得这个东西太讲究了，AI不一定搞得定。

但结果让我服气。

那些乐器的音色是对的，旋律的走向是五声性的，整体的氛围是温暖的、有人间烟火气的。你听那个开场的竹笛，能感觉到早晨的雾气还没散；你听那个古筝的刮奏，能感觉到有人在厨房里揉面团。

我甚至加了声音细节的描述，「切菜的声音、油锅滋滋响、蒸汽升腾」，AI居然真的把这些抽象的感官写进去了。

第三类是中国传统民乐，这个我做了四首。

《历史的天空》和《江城民谣》各两个版本。这类曲子跟纪录片配乐不太一样，它更讲究意境，更讲究那种「留白」的感觉。我试了很多次才找到那个平衡点，既不能太满，也不能太空。

中国传统音乐讲究「气韵生动」，你得让听的人有想象空间。

这个在 prompt 里挺难描述的，我最后用的方法是「先给出情绪关键词，再用否定句排除不要的感觉」。比如「不要太好莱坞大片感、不要太煽情」之类的。

有用，但感觉还不够精准。我自己也在摸索更好的表达方式。

第四类是古典交响，这个我做了两版《春天交响曲》。

这首的灵感来源是古典音乐里的春天，你想贝多芬的《春天奏鸣曲》，门德尔松的《春之歌》，那种冰雪消融、万物复苏的感觉。

第一版我写的是「清晨的薄雾、长笛独奏、竖琴琶音」，出来的效果偏柔美。第二版我改了一下，加了「更坚定的主旋律、更多交响乐层的铺陈、定音鼓的敲击」，这回就有那种「春天来了但还得经历一些波折」的感觉。

古典音乐的结构是最严谨的，开头发展高潮结尾，你得让AI把这个起承转合做出来，不然听上去就会很散。

我的方法是给出明确的时间线和结构描述，比如「00:00-00:30 序奏，00:30-01:00 主旋律进入，01:00-02:00 发展」这样的，AI基本上能照着走。

第五类是班得瑞风格，这个我做了三首。

班得瑞是一个瑞士乐团，出的全是自然音乐，森林、湖泊、山川、日出。你可能听过他们的曲子当背景音乐，但不知道名字。

我做这个的原因是，班得瑞是我听过最早的「氛围音乐」，小时候家里放这个，我就觉得心里特别安静。

这三首分别是《班得瑞风格》《森林晨曦》《海岸日落》。写的时候我脑子里想的就是那个画面，早上五点从帐篷里钻出来，阳光刚出来，雾气还没散，空气里有松针的味道。

AI生成出来的效果怎么说呢，那个长笛的音色是对的，那个吉他的分解和弦是对的，那种「静谧但有生命在呼吸」的感觉也是对的。

我觉得班得瑞这类曲子的关键在于「留白」和「自然」，你不能加太多东西，得让它有呼吸的空间。在 prompt 里我特意写了「不要太多合成器感、不要太电子」，因为这玩意儿一旦过了就俗了。

说了这么多，你可能想问，这玩意儿的意义是什么？

我自己的感受是，AI音乐生成是一个特别有意思的创作工具，它不能替代真正的作曲家，但可以帮你快速验证想法、快速产出原型。

比如你脑子里有一个配乐的想法，以前你得找作曲家、谈价格、等交稿，现在你可能花十分钟写 prompt，半小时生成，你就能听到一个雏形了。这个雏形可能只有60分的水平，但它能帮你确认方向。

然后你再迭代，再调整 prompt，再生成，再迭代。这个过程本身就很有意思。

我做了14首曲子，每一首我大概迭代了2-3次，有几首甚至试了5次以上才满意。这个「试-听-改」的过程，我觉得比结果本身更有价值。因为在这个过程里，你在学习怎么用文字描述音乐，你在学习怎么把抽象的感受翻译成精确的指令，你在学习AI的边界在哪里。

说到底，这是一个你跟AI互相试探、互相了解的过程。

它比你想象的能做的更多，但也比你想象的更需要在某些地方给你框住。你得学会信任它，也得学会纠正它。

这个感觉，怎么说呢，有点像带一个刚入职的新人。你得给他方向，也得给他自由度；你得相信他能做好，也得准备好在他跑偏的时候把他拽回来。

最后说说我对这张专辑的规划吧。

现在这14首只是起点。我还想试试加入人声做成歌曲，想试试更多风格方向（比如爵士、电子、古典），想试试用AI生成的旋律做采样再加工。

你如果感兴趣的话，可以每一首都听一下。反正我是真的觉得，这玩意儿挺好玩的。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标。

哦对了，这篇文章上面这些都是AI生成的，根据我和它的对话、经过自动生成的，然而内容还真是我的想法，我承认我偷懒了，但是文章确实是真实的。

谢谢你看我的文章，下次再见。

下面开始欣赏音乐吧，因为公众号音频数量限制，只上传了10首，剩下的可以到网易云音乐听

《一念星河》：https://music.163.com/#/djradio?id=1490597087