乐于分享
好东西不私藏

我用AI做了张交响乐专辑——《一念星河》

我用AI做了张交响乐专辑——《一念星河》

我用AI做了张交响乐专辑

事情是这样的:

前阵子我在刷mmx的命令行帮助文档,就那么随手翻翻,看看这玩意还能干点什么有意思的事。

然后我看到了 music generate 这个子命令。

说是可以用自然语言描述,生成音乐。我当时就寻思,这能有多真啊?AI生成图片我见过,生成视频我也见过,这音乐也能AI搞?

说实话我也不确定。

但我就是想试试。

所以我就输入了一句 prompt,描述了一个电影配乐风格的曲子,按下回车,等了几分钟,下载,打开播放器。

你猜怎么着。

那个开头钢琴琶音一出来,我当时就愣住了。

这不是我随便写的那几个词儿吗?这低音铜管的呜鸣,这弦乐层层叠进去的感觉,这打击乐的重量感。全部都在。

就是几个字的描述,它给我变出来了一整支交响乐团。

我靠。

然后我就停不下来了。

先说说什么是 MiniMax Music 2.6。

这玩意儿是 MiniMax 在今年4月发布的新一代音乐生成模型,底层是个 MoE 架构,总共 2300 亿参数,但推理的时候只激活 100 亿。技术细节我就不展开了,反正你只需要知道,这东西生成出来的音乐,长度可以到五分钟,有完整的verse、chorus、bridge 结构,音质最高能到 256kbps。

它支持的玩法大概分两种。

一种是纯器乐,你给个风格描述,它给你生成配乐。

另一种是有歌词的,你可以写好词儿让它唱,也可以让它自动生成歌词。

我做的这张专辑,有的是器乐,还有两首有人声。为啥?因为我想试试 AI 在没有人声的情况下,能把情绪和氛围做到什么程度。

说到这个,我就不得不提一个让我印象特别深刻的发现。

生成音乐这件事,最难的不是技术,是描述。

你脑子里有一个声音,但要把它变成文字让AI理解,这个翻译过程特别有意思。有时候你觉得描述得挺清楚了,结果出来的东西跟你想的完全不是一回事儿。有时候你就随口写了一句,结果出来的东西让你卧槽。

比如我写第一首《Time》的时候,描述的是「Hans Zimmer风格,盗梦空间配乐那种感觉」。结果出来一版,我听着觉得情绪不够浓,不够虐。然后我就加了几个词,「更深沉、更哀伤、从钢琴独奏开始慢慢铺开」,再生成一版,这回感觉对了。

所以啊,这个跟AI画画其实有点像,你得学会怎么跟它沟通。

prompt 的质量直接决定输出质量。

我后来琢磨出一套写提示词的套路,跟大家分享一下,不成熟的地方也请懂的兄弟指正。

第一层是核心元素,必须包括:风格流派、参考作曲家、情绪氛围、乐器编制、节奏速度。

比如「史诗电影配乐、汉斯·季默风格、沉思宏大、钢琴弦乐深铜管、90BPM」这样。

第二层是增强元素,可以让结果更精准:调式调性、结构设计、文化背景、细节描写。

比如「C小调、从安静开场到爆发性高潮、中国古典文化背景」。

第三层是高级元素,让结果更有灵魂:情感弧线、参考作品、具体声音细节、动态范围。

比如「从绝望到希望再到最后的高潮、流浪地球OST那种感觉、要有那种地球被推走时的悲壮感」。

这样三层叠加下来,一个完整的 prompt 就能出来了。

我做的这张专辑,14首曲子,分了几个风格方向。

第一类是史诗电影配乐,这个我参考的是两个作曲家,汉斯·季默和阿鲲。

汉斯·季默大家都熟悉,盗梦空间、星际穿越、蝙蝠侠黑暗骑士,这些都是他的作品。他的标志性特点是什么?那个深沉的低音铜管「braams」,钢琴和弦乐先行,然后一层一层往上叠加,最后给你一个几乎能把屋顶掀翻的爆发。

我写的《Time》就是这个路数,90BPM,C小调,从钢琴独奏开始,慢慢进弦乐,再进铜管,再进打击乐和合唱。你闭上眼睛听,能感觉到那种时间的重量压下来。

阿鲲可能有些人不太熟,但提到流浪地球、哪吒之魔童降世、红海行动的原声音乐,你应该就有印象了。他是中国目前最顶尖的电影配乐作曲家之一。他的风格是什么?是东方式的史诗感,有那种宏大叙事底下的人情味在。

《流浪地球》那首我是真的想做出那种「人类面对宇宙时的绝望和希望」的感觉,所以用了155BPM,C小调,全交响乐团编制,加了电子元素做点缀。出来的效果怎么说呢,反正我自己听的时候是起鸡皮疙瘩的。

第二类是纪录片配乐,这个我只做了一首,《舌尖上的中国》风格。

这首有意思的点在于,它用到了大量的中国传统乐器,二胡、琵琶、古筝、竹笛。我之前没想过让AI生成纯中国风的曲子,总觉得这个东西太讲究了,AI不一定搞得定。

但结果让我服气。

那些乐器的音色是对的,旋律的走向是五声性的,整体的氛围是温暖的、有人间烟火气的。你听那个开场的竹笛,能感觉到早晨的雾气还没散;你听那个古筝的刮奏,能感觉到有人在厨房里揉面团。

我甚至加了声音细节的描述,「切菜的声音、油锅滋滋响、蒸汽升腾」,AI居然真的把这些抽象的感官写进去了。

第三类是中国传统民乐,这个我做了四首。

《历史的天空》和《江城民谣》各两个版本。这类曲子跟纪录片配乐不太一样,它更讲究意境,更讲究那种「留白」的感觉。我试了很多次才找到那个平衡点,既不能太满,也不能太空。

中国传统音乐讲究「气韵生动」,你得让听的人有想象空间。

这个在 prompt 里挺难描述的,我最后用的方法是「先给出情绪关键词,再用否定句排除不要的感觉」。比如「不要太好莱坞大片感、不要太煽情」之类的。

有用,但感觉还不够精准。我自己也在摸索更好的表达方式。

第四类是古典交响,这个我做了两版《春天交响曲》。

这首的灵感来源是古典音乐里的春天,你想贝多芬的《春天奏鸣曲》,门德尔松的《春之歌》,那种冰雪消融、万物复苏的感觉。

第一版我写的是「清晨的薄雾、长笛独奏、竖琴琶音」,出来的效果偏柔美。第二版我改了一下,加了「更坚定的主旋律、更多交响乐层的铺陈、定音鼓的敲击」,这回就有那种「春天来了但还得经历一些波折」的感觉。

古典音乐的结构是最严谨的,开头发展高潮结尾,你得让AI把这个起承转合做出来,不然听上去就会很散。

我的方法是给出明确的时间线和结构描述,比如「00:00-00:30 序奏,00:30-01:00 主旋律进入,01:00-02:00 发展」这样的,AI基本上能照着走。

第五类是班得瑞风格,这个我做了三首。

班得瑞是一个瑞士乐团,出的全是自然音乐,森林、湖泊、山川、日出。你可能听过他们的曲子当背景音乐,但不知道名字。

我做这个的原因是,班得瑞是我听过最早的「氛围音乐」,小时候家里放这个,我就觉得心里特别安静。

这三首分别是《班得瑞风格》《森林晨曦》《海岸日落》。写的时候我脑子里想的就是那个画面,早上五点从帐篷里钻出来,阳光刚出来,雾气还没散,空气里有松针的味道。

AI生成出来的效果怎么说呢,那个长笛的音色是对的,那个吉他的分解和弦是对的,那种「静谧但有生命在呼吸」的感觉也是对的。

我觉得班得瑞这类曲子的关键在于「留白」和「自然」,你不能加太多东西,得让它有呼吸的空间。在 prompt 里我特意写了「不要太多合成器感、不要太电子」,因为这玩意儿一旦过了就俗了。

说了这么多,你可能想问,这玩意儿的意义是什么?

我自己的感受是,AI音乐生成是一个特别有意思的创作工具,它不能替代真正的作曲家,但可以帮你快速验证想法、快速产出原型。

比如你脑子里有一个配乐的想法,以前你得找作曲家、谈价格、等交稿,现在你可能花十分钟写 prompt,半小时生成,你就能听到一个雏形了。这个雏形可能只有60分的水平,但它能帮你确认方向。

然后你再迭代,再调整 prompt,再生成,再迭代。这个过程本身就很有意思。

我做了14首曲子,每一首我大概迭代了2-3次,有几首甚至试了5次以上才满意。这个「试-听-改」的过程,我觉得比结果本身更有价值。因为在这个过程里,你在学习怎么用文字描述音乐,你在学习怎么把抽象的感受翻译成精确的指令,你在学习AI的边界在哪里。

说到底,这是一个你跟AI互相试探、互相了解的过程。

它比你想象的能做的更多,但也比你想象的更需要在某些地方给你框住。你得学会信任它,也得学会纠正它。

这个感觉,怎么说呢,有点像带一个刚入职的新人。你得给他方向,也得给他自由度;你得相信他能做好,也得准备好在他跑偏的时候把他拽回来。

最后说说我对这张专辑的规划吧。

现在这14首只是起点。我还想试试加入人声做成歌曲,想试试更多风格方向(比如爵士、电子、古典),想试试用AI生成的旋律做采样再加工。

你如果感兴趣的话,可以每一首都听一下。反正我是真的觉得,这玩意儿挺好玩的。

以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标。

哦对了,这篇文章上面这些都是AI生成的,根据我和它的对话、经过自动生成的,然而内容还真是我的想法,我承认我偷懒了,但是文章确实是真实的。

谢谢你看我的文章,下次再见。

下面开始欣赏音乐吧,因为公众号音频数量限制,只上传了10首,剩下的可以到网易云音乐听

《一念星河》:https://music.163.com/#/djradio?id=1490597087