乐于分享
好东西不私藏

Soul App 又放大招!把 42000 小时数据喂出的“歌神” SoulX-Singer 开源了!

Soul App 又放大招!把 42000 小时数据喂出的“歌神” SoulX-Singer 开源了!

语音合成这两年爆发式增长。

TTS 模型越来越强,音乐生成模型也是层出不穷,除了闭源的 Suno、Udio 等一骑绝尘外。

开源领域也不乏强大优秀的音乐模型,比如前两周的 HeartMuLa,又或是前两天刚开源的 ACE-Step1.5,它们在某些场景下也不弱于闭源音乐生成模型。

但今天给大家介绍的都不是上面的模型,而且一个真正稳定、可控、工业级可用的开源歌声合成模型

它就是国内社交巨头 Soul APP 联合 AIC、天津大学、西北工业大学开源的 SoulX-Singer

这是一个喂了 42000 小时高质量歌声数据的庞然大物。它主打 “零样本歌声合成(SVS)”,而且同时支持基于 旋律控制(F0 音高曲线) 和 乐谱控制(MIDI 音符) 的两种歌声合成控制方式。

选取了一个官方演示:

已关注

关注

重播 分享

它不是实验室演示级模型,而是:

  • • 42,000+ 小时训练数据
  • • 支持零样本歌声克隆
  • • 多语言(普通话 / 英语 / 粤语)
  • • MIDI + Melody 双控制
  • • 本地运行,100% 开源
  • • 面向工业真实场景

这一次,SVS 真正进入「可用阶段」。

两大核心亮点

1、4.2 万小时数据打底,零样本能力封神

零样本歌声合成的核心就是数据,SoulX-Singer 直接甩出42000 小时高质量歌声数据,覆盖普通话、英语、粤语三种语言,还有上百种音色、几十种演唱风格,从流行到古风、从抒情到摇滚都能 hold 住。

42,000+ 小时。 这是一个什么概念?如果一个人不吃不喝连续唱歌,要唱整整 5 年。

它直接解决了零样本(Zero-shot)合成中最大的痛点——泛化能力

即使是它从未见过的歌手音色,或者极其复杂的音乐条件,它也能稳得住。它不再是模仿,而是真正学会了“如何像人一样发声”。

2、双重控制范式,满足不同需求

SoulX-Singer 的技术实力也完全配得上工业级定位,它提供了两种指挥 AI 唱歌的方式:

  • • Music Score (MIDI) 驱动:这是专业音乐人最想要的功能。你可以直接导入一个 MIDI 文件(乐谱)和歌词,模型会严格按照你设定的音高、时长、节奏来演唱。
  • • Melody (旋律) 驱动:这个模式支持“哼唱转歌唱”或“风格迁移”。你提供一段参考音频(比如你跑调的哼唱,或者原唱),模型会提取其中的旋律和演技巧,然后用目标音色重新演绎。(也是目前比较火的 AI 翻唱中的一种形式)

3、多语言与跨语言能力

支持普通话、英语、粤语。最强的是跨语言风格迁移:你可以给它一段周杰伦的中文素材,然后让它用标准的伦敦音唱 Adele 的歌,或者让 Taylor Swift 的声音唱粤语歌。

技术原理

扒开技术文档,你会发现 SoulX-Singer 在架构设计上非常“鸡贼”(褒义)。它没有沿用老旧的扩散模型,而是采用了当下最先进的 Flow Matching(流匹配) 范式。

为了解决“歌词-旋律-发声”的强耦合问题,它引入了三个关键设计:

  • • Audio Infilling(音频补全)建模:它把歌声合成看作是一种填空题。给它上下文,它补全中间的波形。这种生成方式天然具备极高的连贯性。
  • • 显式对齐机制:它不让模型去“猜”歌词对应哪个音,而是强制建立歌词、MIDI 音符与声学特征的对齐关系。这就好比给 AI 戴上了“节拍器”,想跑调都难。
  • • 两阶段训练策略(The Two-Stage Magic)
    • • 阶段一(打基础):用 2-16 秒的短切片训练,让模型学会看乐谱,减少对上下文的依赖,提高鲁棒性。
    • • 阶段二(练气息):用 30-90 秒的长片段训练,让模型学会“长气口”。这使得它在演唱长段落时,气息连贯,不会出现“断气”的机械感。

评测表现

评测数据集:

  • • GMO-SVS(整合主流开源数据)
  • • SoulX-Singer-Eval(严格零样本测试)

结果:

  • • 语义清晰度领先
  • • 歌手相似度领先
  • • 基频一致性更高
  • • 主观听感明显更好

在多个维度上超过此前开源方案。

快速使用

怕部署麻烦?SoulX-Singer 早就为你想好了:

在线 Demo 直接玩

https://huggingface.co/spaces/Soul-AILab/SoulX-Singer

不用下载任何东西,上传音频、输入歌词就能生成歌声,还能直接用内置 MIDI 编辑器调旋律(需魔法)

本地部署也简单

克隆 GitHub 仓库

git clone https://github.com/Soul-AILab/SoulX-Singer.git
cd
 SoulX-Singer

配置 Python3.10 环境,安装依赖

conda create -n soulxsinger -y python=3.10
conda activate soulxsinger

pip install -r requirements.txt

下载预训练模型

pip install -U huggingface_hub

# Download the SoulX-Singer SVS model

hf download Soul-AILab/SoulX-Singer --local-dir pretrained_models/SoulX-Singer

# Download models required for preprocessing

hf download Soul-AILab/SoulX-Singer-Preprocess --local-dir pretrained_models/SoulX-Singer-Preprocess

运行推理

bash example/infer.sh

可以使用以下命令启动交互式界面:

python webui.py

写在最后

过去几年,音乐生成在热闹,TTS 在爆发,但 SVS 一直缺一个真正稳定、开源、可控、可用的模型。

SoulX-Singer 的开源,很可能是:开源歌声合成进入工业级阶段的里程碑。

如果你关注音乐创作、虚拟歌手、AI 内容生成,这个项目非常值得深入研究,也可以顺便为这个国产模型点点 Star。

GitHub: https://github.com/Soul-AILab/SoulX-Singer

项目地址:https://soul-ailab.github.io/soulx-singer/

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!
本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » Soul App 又放大招!把 42000 小时数据喂出的“歌神” SoulX-Singer 开源了!

评论 抢沙发

2 + 5 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
×
订阅图标按钮