乐于分享
好东西不私藏

只要9秒音频就能克隆你的声音!这个AI工具太强了

只要9秒音频就能克隆你的声音!这个AI工具太强了

ComfyUI声音克隆:9秒音频复刻你的声音

你有没有想过——给自己的AI虚拟形象配一个专属声音?

不需要专业录音设备,不用花几个小时进录音棚,只要一段 5-10秒的语音样本,Chatterbox 就能学会你的声音,然后你说任何话它都能帮你说出来。

今天分享的这个 ComfyUI 工作流,就是用 Chatterbox 做声音克隆 + 文字转语音的工具,整个流程只有4个节点。

这个工作流能做什么

用一句话说:给一段你的声音样本 + 任意文字,输出一段用”你的声音”说的新语音

内置示例:上传一段”chatterbox_input_target_voice.mp3“(9秒左右的语音),然后输入一段文字,Chatterbox 就会用同样的声音念出来。

适合的使用场景:

  • AI虚拟主播/数字人配音:克隆你的声音,给虚拟形象配上真人的声线
  • 有声书/播客制作:克隆一个主播的声音,批量生成内容
  • 品牌语音定制:打造品牌专属的声音形象
  • 多语言配音:用同一个声音生成不同语言版本
  • 语音内容批量化:一段文案快速生成多条配音版本

开始前的准备

系统要求

项目 要求
ComfyUI 版本 v0.9.2 或更高
Python 版本 3.10+
显存 建议 4GB 以上
硬盘空间 约 2GB(用于存储模型)
网络 可选(部分模型支持离线运行)

插件安装

本工作流需要安装 ComfyUI-Chatterbox 插件:

  1. 打开 ComfyUI-Manager(如果没有,先安装)
  2. 点击「Install Custom Node」
  3. 搜索 Chatterbox 或 FL_ChatterboxTTS
  4. 点击安装
  5. 重启 ComfyUI

安装完成后,确认以下节点可用:

  • FL_ChatterboxTTS(核心TTS节点)
  • LoadAudio(音频加载)
  • SaveAudioMP3(音频保存)

模型下载

Chatterbox 需要下载专门的语音模型。安装插件后,首次运行工作流时会自动提示下载,或者可以手动下载:

  • 访问 Hugging Face 上的 Chatterbox 项目页面
  • 下载模型文件到 ComfyUI/models/chatterbox/ 目录

声音样本要求

要求 说明
时长 5-10秒最佳,太短可能效果差,太长没必要
内容 清晰朗读一段话,不要纯音乐或噪音
质量 无背景音乐、无混响、单一说话人
格式 MP3、WAV 均支持,推荐 MP3

建议录音方式:打开手机,安静环境下朗读一段30秒的自我介绍,然后截取前10秒即可。

工作流节点配置清单

本工作流共 4个节点,结构极简:

节点ID 节点类型 功能说明 类别
#6 LoadAudio 加载声音样本 输入
#4 FL_ChatterboxTTS 核心TTS节点(克隆+合成) 核心
#5 SaveAudioMP3 保存生成的语音 输出
#7 MarkdownNote 使用说明备注 辅助

各节点详细配置

节点 #6:LoadAudio(加载声音样本)

  • 功能:加载用于克隆的声音参考音频
  • 参数配置
参数 说明
audio chatterbox_input_target_voice.mp3 声音样本文件名(放在 input/ 目录)

提示:声音样本放在 ComfyUI/input/ 目录下。如果使用自己的录音,直接填文件名即可。

节点 #4:FL_ChatterboxTTS(核心节点)

这是工作流的核心,完成声音克隆 + 文字转语音。

  • 参数配置
参数 默认值 说明
text “This is Chatterbox…” 要说的话(英文效果更稳定)
exaggeration 0.5 表达力强度(0-1,越高越夸张)
cfg_weight 0.5 CFG权重(控制语音对文本的遵循度)
temperature 0.8 随机性/自然度(越高越有变化)
top_p 390519100 采样参数(保持默认即可)
seed randomize 随机种子(设为 randomize 每次不同)

内置示例文本(英文):

“This is Chatterbox—and it just recreated my voice from a nine-second recording. Give it a shot with your own voice and hear the results for yourself.”

中文使用建议

  • 英文效果最稳定:Chatterbox 对英文的支持最好,建议先用英文测试
  • 中文支持:Chatterbox 也支持中文,但部分口音和声调可能与参考声音有差异
  • 混合语言:如果需要中英混合,建议分开生成后拼接

节点 #5:SaveAudioMP3(保存音频)

  • 功能:将生成的语音保存为MP3文件
  • 参数配置
参数 说明
filename_prefix audio/chatterbox_tts 保存路径前缀,生成 output/audio/chatterbox_tts-xxx.mp3
version V0 版本标识

节点 #7:MarkdownNote(使用说明)

这是工作流自带的英文使用说明,包含:

  • 快速开始步骤
  • 参数调整建议
  • 注意事项

看不懂英文也没关系,下面的中文教程已经覆盖了所有内容。

节点连接关系

工作流数据流向清晰,共2条连接:

连接 起点 终点 数据类型
连接7 #6 LoadAudio(输出AUDIO) #4 FL_ChatterboxTTS(audio_prompt) AUDIO
连接6 #4 FL_ChatterboxTTS(输出audio) #5 SaveAudioMP3(audio) AUDIO

整体数据流向:

text
[#6 LoadAudio 加载声音样本]         ↓ AUDIO[#4 FL_ChatterboxTTS 克隆声音+合成语音]         ↓ AUDIO[#5 SaveAudioMP3 保存MP3]

使用步骤

第一步:安装插件和模型

  1. 通过 ComfyUI-Manager 安装 Chatterbox 插件
  2. 重启 ComfyUI
  3. 首次运行时会自动下载模型(约1-2GB)

第二步:准备声音样本

  1. 录制一段自己的声音(5-10秒,安静环境)
  2. 保存为 MP3 或 WAV 格式
  3. 放入 ComfyUI/input/ 目录
  4. 或者直接用示例音频 chatterbox_input_target_voice.mp3 测试

第三步:加载工作流

  1. 打开 ComfyUI
  2. 加载 audio-chatterbox_tts.json 工作流
  3. 检查所有节点是否正常显示

第四步:配置声音样本

  1. 点击节点 #6(LoadAudio)
  2. 在 audio 输入框填写你的声音样本文件名
  3. 确认文件放在 ComfyUI/input/ 目录

第五步:输入要说的文字

  1. 点击节点 #4(FL_ChatterboxTTS)
  2. 找到 text 参数,输入你想让声音说的话
  3. 建议先用英文测试效果

第六步:调整参数(可选)

参数 说明 建议
exaggeration 表达力,越高越夸张 0.5(默认)
cfg_weight 语音对文本的遵循度 0.5(默认)
temperature 自然度,越高越有变化 0.8(默认)

第七步:生成

  1. 点击 “Queue Prompt”
  2. 等待生成完成(通常10-30秒)
  3. 音频保存在 ComfyUI/output/audio/chatterbox_tts-*.mp3

参数调优建议

表达力(Exaggeration)

效果
0.2-0.3 平稳、克制,适合播报
0.5 平衡(默认)
0.7-1.0 夸张、有情感,适合表演

CFG权重(CFG Weight)

效果
0.3-0.4 更自然,但可能偏离原文
0.5 平衡(默认)
0.6-0.8 严格遵循文本,语气一致

随机性(Temperature)

效果
0.5-0.6 稳定,变化少
0.8 平衡(默认)
0.9-1.0 变化多,更自然,但可能不稳定

调优组合推荐

场景 exaggeration cfg_weight temperature
播报/新闻 0.3 0.6 0.6
日常对话 0.5 0.5 0.8
有声书 0.6 0.4 0.7
情感表达 0.8 0.3 0.9

常见问题

Q1:生成的声音不像怎么办?

  • 声音样本质量问题:录音环境要安静,无背景音乐
  • 样本时长不够:建议至少5-10秒
  • 说话人太混杂:样本中只能有一个人说话
  • 可以多尝试几个不同的声音样本

Q2:中文发音不准确?

  • Chatterbox 对中文支持不如英文完善
  • 建议:英文内容直接用英文,中文可以先翻译成拼音或英文
  • 或者等待官方更新中文模型

Q3:生成的语音有杂音?

  • 检查原始声音样本是否有噪音
  • 尝试降低 temperature 值(0.6-0.7)
  • 增加 cfg_weight 值(0.6)

Q4:插件安装失败?

  • 确认 ComfyUI-Manager 已正确安装
  • 检查网络连接(需要访问GitHub)
  • 尝试手动安装:从GitHub下载zip包,手动解压到 ComfyUI/custom_nodes/ 目录

Q5:声音样本放哪里?

  • 放入 ComfyUI/input/ 目录
  • 然后在 LoadAudio 节点填写文件名

Q6:如何批量生成不同内容?

  • 每次修改 text 参数
  • 点击 Queue Prompt 重新生成
  • 生成的音频自动编号(-0001, -0002…)

总结

Chatterbox 是我见过的最简单的声音克隆工具之一。只需要一段5-10秒的声音样本,就能复刻出一个接近真人的AI语音。

这个工作流的亮点是极简:4个节点,一个核心TTS节点,其余都是输入输出辅助。安装好插件后,操作流程非常直观。

如果你正在做虚拟主播、数字人、有声内容,强烈建议试试这个工作流。免费、本地运行、效果还不错。

有任何问题欢迎留言交流,觉得有帮助的话点赞和在看支持一下。