ComfyUI 插件之人声背景音乐分离插件(三款软件效果对比 / 集成到 infiniteTalk 实现人物唱歌)

ComfyUI 插件之人声背景音乐分离插件（三款软件效果对比 / 集成到 infiniteTalk 实现人物唱歌）

核心作用

给定一首歌曲，将人声和背景音乐分离开来。

在一些对口型的数字人项目上，例如，infiniteTalk，如果直接将歌曲传进去，受背景音乐干扰，口型可能对不准，此时就可以先提取人声，使用人声生成数字人图像帧集合，最后将歌曲和数字人图像帧集合组合，生成最终的视频。

本文介绍三种人声分离方法：soulx-singer 软件包；ComfyUI-MelBandRoFormer 插件；audio-separation-nodes-comfyui 插件。接下来对其进行对比。并将其中最优秀的集成到 infiniteTalk 工作流上，实现人物唱歌能力。

人声背景音乐分离效果：ComfyUI-MelBandRoFormer 与 soulx-singer 相当，均优于 audio-separation-nodes-comfyui。（audio-separation-nodes-comfyui 提取出的人声更干，提取出的背景音偶现杂音）

易用度：如果需要集成在 ComfyUI 中，ComfyUI-MelBandRoFormer 和 audio-separation-nodes-comfyui 均可；soulx-singer 是独立软件包，无法直接在 ComfyUI 中使用（后续可能也会出现 ComfyUI 插件）

功能丰富度：audio-separation-nodes-comfyui 功能众多，例如从视频中抽取音乐/音乐片段截取等；ComfyUI-MelBandRoFormer 专注于人声背景音乐分离；soulx-singer 核心功能是翻唱，人声背景音乐分离是其副业

综上所述：在 ComfyUI 中优先使用 ComfyUI-MelBandRoFormer。

原始音乐：

人声：

背景音：

人声：

背景音：

人声：

背景音：

此处，仔细听背景音的前5s，有杂音。而前两者没有。

使用 ComfyUI-Manager 安装插件 https://github.com/kijai/ComfyUI-MelBandRoFormer，之后重启 ComfyUI。

使用 ComfyUI-Manager 安装插件 https://github.com/christian-byrne/audio-separation-nodes-comfyui，之后重启 ComfyUI。

说明：仅将输入的音乐进行人声分离，之后将人声输入到 AudioEncoderEncode 来驱动人物口型，其他地方没有变化。

效果如下：

已关注

关注

重播分享赞