只要9秒音频就能克隆你的声音!这个AI工具太强了
ComfyUI声音克隆:9秒音频复刻你的声音
你有没有想过——给自己的AI虚拟形象配一个专属声音?
不需要专业录音设备,不用花几个小时进录音棚,只要一段 5-10秒的语音样本,Chatterbox 就能学会你的声音,然后你说任何话它都能帮你说出来。
今天分享的这个 ComfyUI 工作流,就是用 Chatterbox 做声音克隆 + 文字转语音的工具,整个流程只有4个节点。
这个工作流能做什么
用一句话说:给一段你的声音样本 + 任意文字,输出一段用”你的声音”说的新语音。
内置示例:上传一段”chatterbox_input_target_voice.mp3“(9秒左右的语音),然后输入一段文字,Chatterbox 就会用同样的声音念出来。
适合的使用场景:
- AI虚拟主播/数字人配音:克隆你的声音,给虚拟形象配上真人的声线
- 有声书/播客制作:克隆一个主播的声音,批量生成内容
- 品牌语音定制:打造品牌专属的声音形象
- 多语言配音:用同一个声音生成不同语言版本
- 语音内容批量化:一段文案快速生成多条配音版本
开始前的准备
系统要求
| 项目 | 要求 |
|---|---|
| ComfyUI 版本 | v0.9.2 或更高 |
| Python 版本 | 3.10+ |
| 显存 | 建议 4GB 以上 |
| 硬盘空间 | 约 2GB(用于存储模型) |
| 网络 | 可选(部分模型支持离线运行) |
插件安装
本工作流需要安装 ComfyUI-Chatterbox 插件:
- 打开 ComfyUI-Manager(如果没有,先安装)
- 点击「Install Custom Node」
- 搜索
Chatterbox或FL_ChatterboxTTS - 点击安装
- 重启 ComfyUI
安装完成后,确认以下节点可用:
FL_ChatterboxTTS(核心TTS节点)LoadAudio(音频加载)SaveAudioMP3(音频保存)
模型下载
Chatterbox 需要下载专门的语音模型。安装插件后,首次运行工作流时会自动提示下载,或者可以手动下载:
- 访问 Hugging Face 上的 Chatterbox 项目页面
- 下载模型文件到
ComfyUI/models/chatterbox/目录
声音样本要求:
| 要求 | 说明 |
|---|---|
| 时长 | 5-10秒最佳,太短可能效果差,太长没必要 |
| 内容 | 清晰朗读一段话,不要纯音乐或噪音 |
| 质量 | 无背景音乐、无混响、单一说话人 |
| 格式 | MP3、WAV 均支持,推荐 MP3 |
建议录音方式:打开手机,安静环境下朗读一段30秒的自我介绍,然后截取前10秒即可。
工作流节点配置清单
本工作流共 4个节点,结构极简:
| 节点ID | 节点类型 | 功能说明 | 类别 |
|---|---|---|---|
| #6 | LoadAudio | 加载声音样本 | 输入 |
| #4 | FL_ChatterboxTTS | 核心TTS节点(克隆+合成) | 核心 |
| #5 | SaveAudioMP3 | 保存生成的语音 | 输出 |
| #7 | MarkdownNote | 使用说明备注 | 辅助 |
各节点详细配置
节点 #6:LoadAudio(加载声音样本)
- 功能:加载用于克隆的声音参考音频
- 参数配置:
| 参数 | 值 | 说明 |
|---|---|---|
| audio | chatterbox_input_target_voice.mp3 |
声音样本文件名(放在 input/ 目录) |
提示:声音样本放在 ComfyUI/input/ 目录下。如果使用自己的录音,直接填文件名即可。
节点 #4:FL_ChatterboxTTS(核心节点)
这是工作流的核心,完成声音克隆 + 文字转语音。
- 参数配置:
| 参数 | 默认值 | 说明 |
|---|---|---|
| text | “This is Chatterbox…” | 要说的话(英文效果更稳定) |
| exaggeration | 0.5 |
表达力强度(0-1,越高越夸张) |
| cfg_weight | 0.5 |
CFG权重(控制语音对文本的遵循度) |
| temperature | 0.8 |
随机性/自然度(越高越有变化) |
| top_p | 390519100 |
采样参数(保持默认即可) |
| seed | randomize |
随机种子(设为 randomize 每次不同) |
内置示例文本(英文):
|
“This is Chatterbox—and it just recreated my voice from a nine-second recording. Give it a shot with your own voice and hear the results for yourself.” |
中文使用建议:
- 英文效果最稳定:Chatterbox 对英文的支持最好,建议先用英文测试
- 中文支持:Chatterbox 也支持中文,但部分口音和声调可能与参考声音有差异
- 混合语言:如果需要中英混合,建议分开生成后拼接
节点 #5:SaveAudioMP3(保存音频)
- 功能:将生成的语音保存为MP3文件
- 参数配置:
| 参数 | 值 | 说明 |
|---|---|---|
| filename_prefix | audio/chatterbox_tts |
保存路径前缀,生成 output/audio/chatterbox_tts-xxx.mp3 |
| version | V0 |
版本标识 |
节点 #7:MarkdownNote(使用说明)
这是工作流自带的英文使用说明,包含:
- 快速开始步骤
- 参数调整建议
- 注意事项
看不懂英文也没关系,下面的中文教程已经覆盖了所有内容。
节点连接关系
工作流数据流向清晰,共2条连接:
| 连接 | 起点 | 终点 | 数据类型 |
|---|---|---|---|
| 连接7 | #6 LoadAudio(输出AUDIO) | #4 FL_ChatterboxTTS(audio_prompt) | AUDIO |
| 连接6 | #4 FL_ChatterboxTTS(输出audio) | #5 SaveAudioMP3(audio) | AUDIO |
整体数据流向:
text [#6 LoadAudio 加载声音样本]↓ AUDIO[#4 FL_ChatterboxTTS 克隆声音+合成语音]↓ AUDIO[#5 SaveAudioMP3 保存MP3]使用步骤
第一步:安装插件和模型
- 通过 ComfyUI-Manager 安装
Chatterbox插件- 重启 ComfyUI
- 首次运行时会自动下载模型(约1-2GB)
第二步:准备声音样本
- 录制一段自己的声音(5-10秒,安静环境)
- 保存为 MP3 或 WAV 格式
- 放入
ComfyUI/input/目录- 或者直接用示例音频
chatterbox_input_target_voice.mp3测试第三步:加载工作流
- 打开 ComfyUI
- 加载
audio-chatterbox_tts.json工作流- 检查所有节点是否正常显示
第四步:配置声音样本
- 点击节点 #6(LoadAudio)
- 在 audio 输入框填写你的声音样本文件名
- 确认文件放在
ComfyUI/input/目录第五步:输入要说的文字
- 点击节点 #4(FL_ChatterboxTTS)
- 找到 text 参数,输入你想让声音说的话
- 建议先用英文测试效果
第六步:调整参数(可选)
| 参数 | 说明 | 建议 |
|---|---|---|
| exaggeration | 表达力,越高越夸张 | 0.5(默认) |
| cfg_weight | 语音对文本的遵循度 | 0.5(默认) |
| temperature | 自然度,越高越有变化 | 0.8(默认) |
第七步:生成
- 点击 “Queue Prompt”
- 等待生成完成(通常10-30秒)
- 音频保存在
ComfyUI/output/audio/chatterbox_tts-*.mp3
参数调优建议
表达力(Exaggeration)
| 值 | 效果 |
|---|---|
| 0.2-0.3 | 平稳、克制,适合播报 |
| 0.5 | 平衡(默认) |
| 0.7-1.0 | 夸张、有情感,适合表演 |
CFG权重(CFG Weight)
| 值 | 效果 |
|---|---|
| 0.3-0.4 | 更自然,但可能偏离原文 |
| 0.5 | 平衡(默认) |
| 0.6-0.8 | 严格遵循文本,语气一致 |
随机性(Temperature)
| 值 | 效果 |
|---|---|
| 0.5-0.6 | 稳定,变化少 |
| 0.8 | 平衡(默认) |
| 0.9-1.0 | 变化多,更自然,但可能不稳定 |
调优组合推荐
| 场景 | exaggeration | cfg_weight | temperature |
|---|---|---|---|
| 播报/新闻 | 0.3 | 0.6 | 0.6 |
| 日常对话 | 0.5 | 0.5 | 0.8 |
| 有声书 | 0.6 | 0.4 | 0.7 |
| 情感表达 | 0.8 | 0.3 | 0.9 |
常见问题
Q1:生成的声音不像怎么办?
- 声音样本质量问题:录音环境要安静,无背景音乐
- 样本时长不够:建议至少5-10秒
- 说话人太混杂:样本中只能有一个人说话
- 可以多尝试几个不同的声音样本
Q2:中文发音不准确?
- Chatterbox 对中文支持不如英文完善
- 建议:英文内容直接用英文,中文可以先翻译成拼音或英文
- 或者等待官方更新中文模型
Q3:生成的语音有杂音?
- 检查原始声音样本是否有噪音
- 尝试降低 temperature 值(0.6-0.7)
- 增加 cfg_weight 值(0.6)
Q4:插件安装失败?
- 确认 ComfyUI-Manager 已正确安装
- 检查网络连接(需要访问GitHub)
- 尝试手动安装:从GitHub下载zip包,手动解压到
ComfyUI/custom_nodes/目录
Q5:声音样本放哪里?
- 放入
ComfyUI/input/目录 - 然后在 LoadAudio 节点填写文件名
Q6:如何批量生成不同内容?
- 每次修改 text 参数
- 点击 Queue Prompt 重新生成
- 生成的音频自动编号(-0001, -0002…)
总结
Chatterbox 是我见过的最简单的声音克隆工具之一。只需要一段5-10秒的声音样本,就能复刻出一个接近真人的AI语音。
这个工作流的亮点是极简:4个节点,一个核心TTS节点,其余都是输入输出辅助。安装好插件后,操作流程非常直观。
如果你正在做虚拟主播、数字人、有声内容,强烈建议试试这个工作流。免费、本地运行、效果还不错。
有任何问题欢迎留言交流,觉得有帮助的话点赞和在看支持一下。
夜雨聆风