只要9秒音频就能克隆你的声音!这个AI工具太强了-夜雨聆风

只要9秒音频就能克隆你的声音!这个AI工具太强了

ComfyUI声音克隆：9秒音频复刻你的声音

你有没有想过——给自己的AI虚拟形象配一个专属声音？

不需要专业录音设备，不用花几个小时进录音棚，只要一段 5-10秒的语音样本，Chatterbox 就能学会你的声音，然后你说任何话它都能帮你说出来。

今天分享的这个 ComfyUI 工作流，就是用 Chatterbox 做声音克隆 + 文字转语音的工具，整个流程只有4个节点。

这个工作流能做什么

用一句话说：给一段你的声音样本 + 任意文字，输出一段用”你的声音”说的新语音。

内置示例：上传一段”chatterbox_input_target_voice.mp3“（9秒左右的语音），然后输入一段文字，Chatterbox 就会用同样的声音念出来。

适合的使用场景：

AI虚拟主播/数字人配音：克隆你的声音，给虚拟形象配上真人的声线
有声书/播客制作：克隆一个主播的声音，批量生成内容
品牌语音定制：打造品牌专属的声音形象
多语言配音：用同一个声音生成不同语言版本
语音内容批量化：一段文案快速生成多条配音版本

开始前的准备

系统要求

项目	要求
ComfyUI 版本	v0.9.2 或更高
Python 版本	3.10+
显存	建议 4GB 以上
硬盘空间	约 2GB（用于存储模型）
网络	可选（部分模型支持离线运行）

插件安装

本工作流需要安装 ComfyUI-Chatterbox 插件：

打开 ComfyUI-Manager（如果没有，先安装）
点击「Install Custom Node」
搜索 Chatterbox 或 FL_ChatterboxTTS
点击安装
重启 ComfyUI

安装完成后，确认以下节点可用：

FL_ChatterboxTTS（核心TTS节点）
LoadAudio（音频加载）
SaveAudioMP3（音频保存）

模型下载

Chatterbox 需要下载专门的语音模型。安装插件后，首次运行工作流时会自动提示下载，或者可以手动下载：

访问 Hugging Face 上的 Chatterbox 项目页面
下载模型文件到 ComfyUI/models/chatterbox/ 目录

声音样本要求：

要求	说明
时长	5-10秒最佳，太短可能效果差，太长没必要
内容	清晰朗读一段话，不要纯音乐或噪音
质量	无背景音乐、无混响、单一说话人
格式	MP3、WAV 均支持，推荐 MP3

建议录音方式：打开手机，安静环境下朗读一段30秒的自我介绍，然后截取前10秒即可。

工作流节点配置清单

本工作流共 4个节点，结构极简：

节点ID	节点类型	功能说明	类别
#6	LoadAudio	加载声音样本	输入
#4	FL_ChatterboxTTS	核心TTS节点（克隆+合成）	核心
#5	SaveAudioMP3	保存生成的语音	输出
#7	MarkdownNote	使用说明备注	辅助

各节点详细配置

节点 #6：LoadAudio（加载声音样本）

功能：加载用于克隆的声音参考音频
参数配置：

参数	值	说明
audio	`chatterbox_input_target_voice.mp3`	声音样本文件名（放在 input/ 目录）

提示：声音样本放在 ComfyUI/input/ 目录下。如果使用自己的录音，直接填文件名即可。

节点 #4：FL_ChatterboxTTS（核心节点）

这是工作流的核心，完成声音克隆 + 文字转语音。

参数配置：

参数	默认值	说明
text	“This is Chatterbox…”	要说的话（英文效果更稳定）
exaggeration	`0.5`	表达力强度（0-1，越高越夸张）
cfg_weight	`0.5`	CFG权重（控制语音对文本的遵循度）
temperature	`0.8`	随机性/自然度（越高越有变化）
top_p	`390519100`	采样参数（保持默认即可）
seed	`randomize`	随机种子（设为 randomize 每次不同）

内置示例文本（英文）：

“This is Chatterbox—and it just recreated my voice from a nine-second recording. Give it a shot with your own voice and hear the results for yourself.”

中文使用建议：

英文效果最稳定：Chatterbox 对英文的支持最好，建议先用英文测试
中文支持：Chatterbox 也支持中文，但部分口音和声调可能与参考声音有差异
混合语言：如果需要中英混合，建议分开生成后拼接

节点 #5：SaveAudioMP3（保存音频）

功能：将生成的语音保存为MP3文件
参数配置：

参数	值	说明
filename_prefix	`audio/chatterbox_tts`	保存路径前缀，生成 `output/audio/chatterbox_tts-xxx.mp3`
version	`V0`	版本标识

节点 #7：MarkdownNote（使用说明）

这是工作流自带的英文使用说明，包含：

快速开始步骤
参数调整建议
注意事项

看不懂英文也没关系，下面的中文教程已经覆盖了所有内容。

节点连接关系

工作流数据流向清晰，共2条连接：

连接	起点	终点	数据类型
连接7	#6 LoadAudio（输出AUDIO）	#4 FL_ChatterboxTTS（audio_prompt）	AUDIO
连接6	#4 FL_ChatterboxTTS（输出audio）	#5 SaveAudioMP3（audio）	AUDIO

整体数据流向：

text

[#6 LoadAudio 加载声音样本]         ↓ AUDIO[#4 FL_ChatterboxTTS 克隆声音+合成语音]         ↓ AUDIO[#5 SaveAudioMP3 保存MP3]

使用步骤

第一步：安装插件和模型

通过 ComfyUI-Manager 安装 Chatterbox 插件
重启 ComfyUI
首次运行时会自动下载模型（约1-2GB）

第二步：准备声音样本

录制一段自己的声音（5-10秒，安静环境）
保存为 MP3 或 WAV 格式
放入 ComfyUI/input/ 目录
或者直接用示例音频 chatterbox_input_target_voice.mp3 测试

第三步：加载工作流

打开 ComfyUI
加载 audio-chatterbox_tts.json 工作流
检查所有节点是否正常显示

第四步：配置声音样本

点击节点 #6（LoadAudio）
在 audio 输入框填写你的声音样本文件名
确认文件放在 ComfyUI/input/ 目录

第五步：输入要说的文字

点击节点 #4（FL_ChatterboxTTS）
找到 text 参数，输入你想让声音说的话
建议先用英文测试效果

第六步：调整参数（可选）

参数	说明	建议
exaggeration	表达力，越高越夸张	0.5（默认）
cfg_weight	语音对文本的遵循度	0.5（默认）
temperature	自然度，越高越有变化	0.8（默认）

第七步：生成

点击 “Queue Prompt”
等待生成完成（通常10-30秒）
音频保存在 ComfyUI/output/audio/chatterbox_tts-*.mp3

参数调优建议

表达力（Exaggeration）

值	效果
0.2-0.3	平稳、克制，适合播报
0.5	平衡（默认）
0.7-1.0	夸张、有情感，适合表演

CFG权重（CFG Weight）

值	效果
0.3-0.4	更自然，但可能偏离原文
0.5	平衡（默认）
0.6-0.8	严格遵循文本，语气一致

随机性（Temperature）

值	效果
0.5-0.6	稳定，变化少
0.8	平衡（默认）
0.9-1.0	变化多，更自然，但可能不稳定

调优组合推荐

场景	exaggeration	cfg_weight	temperature
播报/新闻	0.3	0.6	0.6
日常对话	0.5	0.5	0.8
有声书	0.6	0.4	0.7
情感表达	0.8	0.3	0.9

常见问题

Q1：生成的声音不像怎么办？

声音样本质量问题：录音环境要安静，无背景音乐
样本时长不够：建议至少5-10秒
说话人太混杂：样本中只能有一个人说话
可以多尝试几个不同的声音样本

Q2：中文发音不准确？

Chatterbox 对中文支持不如英文完善
建议：英文内容直接用英文，中文可以先翻译成拼音或英文
或者等待官方更新中文模型

Q3：生成的语音有杂音？

检查原始声音样本是否有噪音
尝试降低 temperature 值（0.6-0.7）
增加 cfg_weight 值（0.6）

Q4：插件安装失败？

确认 ComfyUI-Manager 已正确安装
检查网络连接（需要访问GitHub）
尝试手动安装：从GitHub下载zip包，手动解压到 ComfyUI/custom_nodes/ 目录

Q5：声音样本放哪里？

放入 ComfyUI/input/ 目录
然后在 LoadAudio 节点填写文件名

Q6：如何批量生成不同内容？

每次修改 text 参数
点击 Queue Prompt 重新生成
生成的音频自动编号（-0001, -0002…）

总结

Chatterbox 是我见过的最简单的声音克隆工具之一。只需要一段5-10秒的声音样本，就能复刻出一个接近真人的AI语音。

这个工作流的亮点是极简：4个节点，一个核心TTS节点，其余都是输入输出辅助。安装好插件后，操作流程非常直观。

如果你正在做虚拟主播、数字人、有声内容，强烈建议试试这个工作流。免费、本地运行、效果还不错。

有任何问题欢迎留言交流，觉得有帮助的话点赞和在看支持一下。