ComfyUI 插件之人声背景音乐分离插件(三款软件效果对比 / 集成到 infiniteTalk 实现人物唱歌)
ComfyUI 插件之人声背景音乐分离插件(三款软件效果对比 / 集成到 infiniteTalk 实现人物唱歌)
核心作用
给定一首歌曲,将人声和背景音乐分离开来。
适用场景
在一些对口型的数字人项目上,例如,infiniteTalk,如果直接将歌曲传进去,受背景音乐干扰,口型可能对不准,此时就可以先提取人声,使用人声生成数字人图像帧集合,最后将歌曲和数字人图像帧集合组合,生成最终的视频。
本文介绍三种人声分离方法:soulx-singer 软件包;ComfyUI-MelBandRoFormer 插件;audio-separation-nodes-comfyui 插件。接下来对其进行对比。并将其中最优秀的集成到 infiniteTalk 工作流上,实现人物唱歌能力。
附:soulx-singer 软件包见 高性能高质量控制灵活的开源音乐翻唱神器 SoulX-Singer
对比结论
人声背景音乐分离效果:ComfyUI-MelBandRoFormer 与 soulx-singer 相当,均优于 audio-separation-nodes-comfyui。(audio-separation-nodes-comfyui 提取出的人声更干,提取出的背景音偶现杂音)
易用度:如果需要集成在 ComfyUI 中,ComfyUI-MelBandRoFormer 和 audio-separation-nodes-comfyui 均可;soulx-singer 是独立软件包,无法直接在 ComfyUI 中使用(后续可能也会出现 ComfyUI 插件)
功能丰富度:audio-separation-nodes-comfyui 功能众多,例如从视频中抽取音乐/音乐片段截取等;ComfyUI-MelBandRoFormer 专注于人声背景音乐分离;soulx-singer 核心功能是翻唱,人声背景音乐分离是其副业
综上所述:在 ComfyUI 中优先使用 ComfyUI-MelBandRoFormer。
效果展示
原始音乐:
soulx-singer
人声:
背景音:
ComfyUI-MelBandRoFormer
人声:
背景音:
audio-separation-nodes-comfyui
人声:
背景音:
此处,仔细听背景音的前5s,有杂音。而前两者没有。
插件安装
ComfyUI-MelBandRoFormer
使用 ComfyUI-Manager 安装插件 https://github.com/kijai/ComfyUI-MelBandRoFormer,之后重启 ComfyUI。
(可选)audio-separation-nodes-comfyui
使用 ComfyUI-Manager 安装插件 https://github.com/christian-byrne/audio-separation-nodes-comfyui,之后重启 ComfyUI。
工作流

ComfyUI-MelBandRoFormer

(可选)audio-separation-nodes-comfyui

infiniteTalk 集成 MelBandRoFormer 人声分离能力

说明:仅将输入的音乐进行人声分离,之后将人声输入到 AudioEncoderEncode 来驱动人物口型,其他地方没有变化。
效果如下:
夜雨聆风
