AI 生成的音乐为什么听起来像"一张大饼"?
讲了这么多AI音乐生成工具,也听了这么多AI生成的音乐,有时候会有种说不清楚的感觉。音色挺好,节奏也对,但哪里太均匀了——好像每个频段都被照顾到了,但层次感又不太对,没有什么东西是真正”在前面”的,也没有什么东西是真正”在后面”的。
虽然目前的AI生成音乐工具还在快速发展,并且未来一定会越来越好,但是我们会好奇为什么现在我们听AI生成的音乐像一张“大饼”,细品后会觉得食之无味呢?
大饼是什么意思
“大饼”不是在说音乐质量差。是在说音乐的结构和和声对位感觉。
现代录音/编曲制作常常是分层的:小提琴是一条轨,大提琴是一条轨,鼓是一条轨,人声是一条轨。这些轨道相互独立,可以各自调整,最后混音合并。你能在任何时候把某条轨道单独拎出来听,也能把它们之间的比例关系反复来回改。
很多主流文生音乐产品更接近把 Prompt 直接映射到最终听感——中间跳过了用户可见、可编辑的分轨、声部设计和混音决策,直接出成品。在这种生成逻辑下,结果天然是层次混合在一起的,不是哪里做错了,是生成方式决定了输出结构,这就是大饼。
为什么学了交响乐,出来还是大饼
即使训练材料里包含复杂交响乐,即使模型接触过大量有层次的编制音乐,生成出来的还是大饼。这件事听起来有点矛盾,原因在于目标设定。
很多这类模型的训练目标更接近生成”听起来像交响乐的音频”,不是”维护小提琴声部和大提琴声部之间的对位关系”。两件事听起来相关,但方向完全不同。前者是从结果出发倒推模式,后者是从结构出发向前推演。模型学到的是”交响乐听起来什么样”,不是”各声部如何分层配合”。
它能生成有弦乐质感的音频,但弦乐和铜管之间有没有真正的呼应设计、有没有内在的对位逻辑——这些未必会以稳定、可控的方式出现在结果里。
目标设定决定学习方向,学习方向决定结果的结构方式。
音乐为什么比图像更难做到分层
图像生成领域已经出现了可控分层的模型。语言生成相对更容易控制文本结构。为什么音乐的分层比它们更难?
视觉信息是空间性的。一张图里,背景和前景物理上就分开,层级关系对应空间位置。在很多图像任务里,天空和地面通常能通过空间区域被分开处理。图像里的层,至少更容易被空间位置帮助理解。
音乐是时间性的。一段旋律在某个位置有意义,依赖的是它前面和后面发生了什么。一个和弦制造了紧张感,这件事要放在整首曲子的调性脉络里才成立。孤立出任何一段,它的语义就缺失了大半。音乐里没有天然的空间层,层是从时间关系里来的。
在功能和声语境里,属七和弦常常对应一套解决规则和紧张感——但这依赖调性脉络和听者的文化经验,不是孤立和弦自带的固定属性。模型看到的不是乐谱上的”属七和弦”四个字,而是频谱、编码表示或更高层的音频特征;这些表示不会天然带着”要解决”这样的乐理标签。怎么把这些数值关系转化为”这里有紧张感”——这个转化不透明,也不稳定。乐理符号和音频表示之间本来就存在鸿沟,这条鸿沟没有因为模型变大而消失。
所以音乐分层的难度不只是计算量的问题,是结构问题。
Stems 分离是解法吗
一些 AI 音乐平台会提供或曾经提供 Stems 功能,可以把生成结果拆分成人声、鼓、贝斯、其他乐器几条轨道。看起来像是解法。
但 Stems 分离更接近一种后处理。AI 生成的本体就是那张大饼,Stems 是再把大饼拆开:
就像用刀把碗里混合的两种面粉重新分开。能分,但分不干净——多少会互相带着对方的味道。
这和传统录音里的分轨不是一回事。原生分轨是在录制阶段就各自独立,后期对每条轨道做的是完全隔离的处理。后处理的 Stems 没有这个起点——它在已经混合的结果里做逆向拆解,信息叠在一起了,拆开的边界必然有损耗。
不同平台 Stems 的实现方式不同,效果也有差异,但这个逻辑上的限制是共通的:先混在一起,再拆开,和从来没有混在一起过,是两件不同的事。这里讨论的是分离原理,不代表当前每个平台都开放了 Stems 导出入口。
接下来可能的两条路
如果”大饼”问题要在结构层面真正解决,目前能看到两个方向。
一条是做真正的多声部生成:让模型在生成过程中同时维护多个声部的关系,声部之间有内在逻辑,不是混合出来再拆分。这条路技术难度很高,要求模型在时间维度上同时追踪多个独立的”线”,还要处理它们之间的动态关系。至少在现在面向普通用户的文生音乐产品里,这还没有成为稳定、透明、可编辑的默认工作流。
另一条更激进:完全跳过声部概念,不再用人类乐理的框架来组织生成逻辑,而是让模型在更抽象的层面直接生成复杂听感。不问”这是哪个声部”,只问”这段音频有没有做到想要的效果”。这条路和传统音乐制作的逻辑差距更大,但也可能走出完全不同的形态。
更可能先出现的,也许不是某一种标准答案,而是一套新的听觉控制方式。
如果对你有帮助,欢迎点赞收藏。有问题或者想法,评论区见。
夜雨聆风