开源免费AI人声生成工具SoulX-Singer如何部署使用?
上和弦匠心设计全新校区
Audio Matrix









本文作者:辰谙
国产免费开源的AI人声合成模型SoulX-Singer的发布,让我们的AI歌手的制作变得更加快速而便捷。

01
SoulX-Singer的突破
在此前的AI歌声合成技术中,如果要让AI模仿某个人的声音唱歌,比如之前火爆全网的AI孙燕姿等,往往需要收集该歌手大量的干净歌声数据进行专门的模型训练,动辄几个甚至十几个小时的训练耗时又耗力。
针对这一点,SoulX-Singer可以说做出了很大的突破。使用SoulX-Singer,我们只需要提供一段极短的全新目标音色音频,SoulX-Singer就能直接用该音色唱出全新的歌曲,且保持相似度和自然度。

目前,SoulX-Singer已经原生支持普通话、英语和粤语三种语言。
在生成控制上,SoulX-Singer则支持基于MIDI和歌词来生成歌声,以及参考音频旋律来复刻原唱这两种模式。
02
SoulX-Singer的部署和使用
SoulX-Singer的部署主要依赖于Python与PyTorch生态。目前我们可以采用官方代码库的命令行部署和整合包部署。无论采用哪种部署方式,都建议在配备NVIDIA GPU的Linux或Windows环境下进行操作。
以国内大神刘悦发布的整合包的部署为例,下载之后我们会得到以下的文件,其中有一个名为“开始.bat”的文件,我们双击启动:

之后就会进入这款工具的WebUI:

界面中有几个比较重要的区域,首先是歌词语种选项。我们根据实际情况进行选择即可,默认是普通话:

然后是人声分离选项,如果我们上传的音频是带有伴奏的音频,这里就需要勾选上:

接着是Prompt音频区域,这个区域是供我们上传目标音色的:

比如说,如果我们想用某个歌手的音色来翻唱某一首歌曲,在这里就可以上传目标歌手的歌声音频,如果我们想要制作自己声音的AI歌手,在这里则可以上传一段自己唱歌的录音。
这个上传之后,我们还需要在Target音频栏上传我们需要翻唱的原始音频,想要翻唱哪首歌曲就上传哪首歌曲:

上传完毕之后,参考音频文本框和目标音频文本框中会解析出我们上传的音频中说或唱的文字内容,如果有错误我们也可以手动修改。

然后,我们需要选择控制类型。前面提到过,SoulX-Singer则支持基于MIDI和歌词来生成歌声,以及参考音频旋律来复刻原唱这两种模式,其中”score“对应前一种,”melody“对应后一种:

由于我们刚才已经上传了目标音频,这里我们选择”melody“即可。如果需要更细致地控制输出的人声,我们就可以选择”score“模式,然后上传对应的MIDI文件。
最后,我们点击”开始生成“:

根据显卡性能的不同,生成所需的时间也有所不同,部分高性能的显卡的生成时间只有数秒。
03
工具获取
SoulX-Singer在GitHub上的项目地址如下:
https://soul-ailab.github.io/soulx-singer/
国内大神刘悦发布的整合包的下载地址如下:
https://pan.quark.cn/s/eecc29900be5
对于新手来说,推荐使用整合包,以免去一些额外的学习成本。

作者往期文章(向上滑动阅览)
音乐文化|音乐审美|音乐教育|音乐学习|五线谱|民族记谱法|和声|卡农|古典音乐|交响乐|爵士乐|摇滚乐队|噪音音乐|夜曲|指弹|民乐|强力集团|钞票上的音乐家(上)|钞票上的音乐家(下)|中国摇滚|不插电|电子音乐|Lo-Fi音乐 | 8bit音乐|音乐评论|ASMR|阿卡贝拉|City Pop|蒸汽波|R&B|Funk|灵魂乐|Future Bass|雷鬼|黑胶唱片|
音乐理论|国际标准音|十二平均律|五度相生律/纯律|中国古代律制|二十四大小调|中古调式|大小调|转调|固定唱名法/首调唱名法|和弦标记|转位和弦|中国民族调式|日本民族调式|三分损益法/五度相生律|通奏低音|平行五度/平行八度|三全音|谱号|五度圈|人声音域|王道进行|Leading Bass和声进行 | 三种小调 | 旋律大调/和声大调 | 复合和弦 | 负面和声 | Alt音阶|Swing|“So What”|增六和弦|那不勒斯六和弦|六声音阶 | 终止式 | 超级玛丽终止式|调式互换|调式音乐|切分节奏|单对双的节奏|延伸音 | “Back Door”和声进行 | Slash Chord |刹车和弦|“Lady Bird”和声进行 | 半音趋近变化|Rhythm Changes|多利亚调式|利底亚调式|
乐器及演奏|管弦乐团配器|乐器音域|管风琴|钢琴|键盘类|古琴|木吉他|电吉他|电吉他效果器|指弹吉他|CAGED System|3NPS|贝斯|贝斯Slap技巧|手风琴|特雷门|中提琴|低音提琴|单簧管/双簧管|三角铁|架子鼓|定音鼓|唢呐|移调乐器|钢琴伴奏织体|提琴揉弦|T1213121|大横按|钢琴踏板Ⅰ|钢琴踏板Ⅱ|萨克斯风|打击乐器|
现代音乐|混音/母带|母带|百万调音师|MIDI|音频格式|DJ|声音设计|作曲/写歌|旋律创作|流行音乐的曲式结构|作曲/编曲|传统和声/流行和声|人声和声|虚拟歌手|杜比音效|记录旋律|听力|翻唱/改编|相位抵消|相位问题的解决方案|模拟信号/数字信号| 人耳的声源定位 |立体声录音|虚拟低频|谢帕德音调|Hi-Res|削波|不同颜色的噪声|混叠|等响曲线|掩蔽效应|硬削波/软削波|AI作曲|谐波失真|过载/失真/法兹|吉他类乐器的录音 |钢琴类乐器的录音|架子鼓的录音|录音的响度电平控制|多普勒效应|家庭录音室的工作台方位设置|低频陷阱/驻波问题|抖动|MIDI 2.0|立体声兼容单声道|dBFS和LKFS/LUFS|自动化处理|家庭录音室的噪声|响度提升|减法合成/加法合成|粒子合成|波表合成|MIDI钢琴人性化设置|噪音在音乐制作中的应用|编曲时要不要加效果器|音乐app对音乐文件的处理|编曲师需不需要懂混音|现代音乐制作VS传统和声规则|免费制作AI歌手|半开麦/假唱|
音乐设备|声卡|动圈麦克风/电容麦克风|麦克风的指向性|动圈耳机/动铁耳机|监听耳机|808鼓|监听音箱|倒相孔|啸叫|家庭录音室|MIDI设备|电子键盘|二分频/三分频|大三芯/卡侬头/大二芯/莲花头|调音台的接口|调音台的旋钮和按钮|调音台的类型|监听扬声器的类型|音量推子|话筒放大器|通道条|磁带模拟|不同阻抗的耳机|耳放|声卡和调音台的取舍|无源音箱/有源音箱|平衡/非平衡|数字麦克风/模拟麦克风|数字音频时钟|低音炮|推子前/推子后|
音乐软件|建模钢琴Pianoteq 9|L系列限制器|DAWproject|Pro Tool更新|Suno|传统DAW和AI|Fabfilter Pro-MB的向上压缩|解决立体声声相问题的工具|Cubase 15解决CSS弦乐的延迟|Ozone 12的母带实时拆分技术|Valhalla FutureVerb|Gemini 3|iZotope Insight 2|UAD插件|RipX DAW 8|Vovious|Waves Curves Resolve|FabFilter Pro-C3|OTT|Polarity-MD|Future MB|DynAssist|Stacks Audio插件|AI音频分离工具|ACE-Step 1.5|
音乐制作|音频分析|耳机混音|导出分轨|混响|混响效果器|卷积混响/IR|混响效果器的类型|弹簧混响|抽吸效果|滤波器|EQ/动态EQ/多段压缩|EQ效果器的Q值|EQ效果器的扩展功能|压缩器的参数|压缩效果器的类型|多段压缩器|压缩器的Attack和Release|压缩效果器的扩展功能|饱和效果器|限幅器|噪声门|降噪|声像调整|调制类效果器|扩展器|效果器的连接方式|M/S处理|dBSPL/dBm/dBu/dBV/dBFS|基本波形|采样精度|采样率|延迟效果器|延迟效果器的延迟时间|摇滚混音|人声和声的混音|压缩效果器处理人声|低频处理|电脑性能节省|测算和修改BPM|失真电吉他的混音|卧室制作人的母带制作Tips|声场扩大|混音融合度|混音增强鼓的打击感|侧链压缩的应用|
⬆️上和弦地理位置
详情咨询请戳👇

夜雨聆风