你的电脑也能克隆声音了?这个开源工具火爆GitHub

前两天刷GitHub,看到一个项目突然冲到了Trending榜首,一天涨了800多星。点进去一看,好家伙,这玩意儿有点东西——Voicebox,一个完全本地运行的开源语音克隆工具。

说实话,我第一反应是:这不就是开源版的ElevenLabs吗?但仔细研究了一下,发现它比我想象的要猛得多。

为什么突然火了?

你可能听说过ElevenLabs,那个能用几秒钟音频就克隆出你声音的AI工具。效果确实牛,但有两个问题:一是贵(免费版每月只有10分钟),二是你的声音数据要上传到他们服务器。

Voicebox的出现,直接把这两个问题都解决了。

**完全免费,完全本地。**你的声音数据不会离开你的电脑,想克隆多少次就克隆多少次,想生成多长就生成多长。对于重视隐私的人来说,这简直是福音。

而且它不是那种"能用但效果一般"的开源项目。它内置了5个TTS引擎,支持23种语言,还能加各种音效(混响、延迟、变调),甚至有个时间轴编辑器,可以做多人对话、播客那种复杂项目。

上手有多简单?

我在MacBook上试了一下,整个过程比我预想的顺滑太多。

第一步:下载安装

直接去官网下载对应系统的安装包:

macOS (Apple Silicon): https://voicebox.sh/download/mac-arm^[1]
macOS (Intel): https://voicebox.sh/download/mac-intel^[2]
Windows: https://voicebox.sh/download/windows^[3]
Docker用户: docker compose up

Linux用户需要自己编译,官方给了详细教程:https://voicebox.sh/linux-install^[4]

第二步:创建声音配置

打开软件后,你会看到一个很干净的界面。点击"Profiles"(配置文件),然后"Create Profile"。

这里有两个选项:

上传音频文件(支持多个文件,质量更好)
直接在软件里录音

我试了录音功能,对着麦克风说了大概30秒话,软件就自动生成了一个声音配置。整个过程不到1分钟。

第三步:生成语音

在主界面输入你想说的文字,选择刚才创建的声音配置,点击"Generate"。

等几秒钟(具体时间取决于你的硬件),语音就生成好了。你可以直接播放试听,也可以导出成音频文件。

如果觉得效果不够理想,可以:

切换不同的TTS引擎(Qwen3-TTS、LuxTTS、Chatterbox等)
调整语速、音调
加音效(比如加点混响让声音更有空间感)

它到底能干什么?

1. 内容创作

做视频解说、播客、有声书,再也不用自己一遍遍录音了。写好文案,生成语音,直接用。

而且它支持超长文本(最多5万字符),会自动分段生成然后无缝拼接。我试着丢了一篇3000字的文章进去,生成的音频听起来完全没有断裂感。

2. 多语言配音

支持23种语言,包括英语、中文、日语、阿拉伯语、印地语、斯瓦希里语等等。如果你做跨境内容,这个功能简直是神器。

3. 游戏对话

它有个"Stories"编辑器,可以做多人对话。你可以创建多个声音配置(比如一个男声、一个女声),然后在时间轴上排列对话,做出类似游戏NPC对话的效果。

4. 情感表达

Chatterbox Turbo引擎支持一些特殊标签,比如 [laugh](笑声)、[sigh](叹气)、[gasp](倒吸一口气)。在文本里插入这些标签,生成的语音就会带上对应的情绪。

我试了一下在句子里加 [laugh],效果还挺自然的,不是那种生硬的"哈哈哈",而是真的像人在说话时笑出来的感觉。

技术细节(给极客们)

Voicebox的架构挺有意思的,前端用的是Tauri(Rust写的,比Electron轻量),后端是FastAPI(Python)。

5个TTS引擎各有特点:

Qwen3-TTS:多语言克隆质量最高,还支持"说慢一点"、"耳语"这种指令
LuxTTS:轻量级,只需要1GB显存,CPU上也能跑,速度是实时的150倍
Chatterbox Multilingual:语言覆盖最广,23种语言
Chatterbox Turbo:速度快,支持情感标签
TADA:HumeAI的模型,能生成700秒以上的连贯音频

硬件加速支持:

macOS (Apple Silicon): 用MLX加速,速度快4-5倍
Windows/Linux (NVIDIA): CUDA
AMD显卡: ROCm
Intel Arc: IPEX/XPU
没有独显?CPU也能跑,就是慢点

我在M2 MacBook上测试,生成一段30秒的语音大概只需要5-6秒。如果你有NVIDIA 4090那种显卡,速度会更快。

音效处理:不只是生成语音

生成语音只是第一步,Voicebox还内置了8种音效处理:

变调:上下调整12个半音,可以把男声变女声(虽然效果不是特别自然)
混响:模拟不同房间的声音效果
延迟/回声:做那种空旷的回声效果
合唱/镶边:金属感或者丰富的质感
压缩器:让音量更均衡
增益:调整音量
高通/低通滤波器:去掉低频或高频

软件自带4个预设(机器人、广播、回声室、低沉嗓音),你也可以自己调参数保存成自定义预设。

我试了一下"广播"预设,加上去之后声音立刻有了那种老式电台的感觉,挺有意思的。

API:开发者的福音

如果你是开发者,Voicebox还提供了完整的REST API。

# 生成语音
curl -X POST http://localhost:17493/generate \
  -H "Content-Type: application/json" \
  -d '{"text": "Hello world", "profile_id": "abc123", "language": "en"}'

# 列出所有声音配置
curl http://localhost:17493/profiles

# 创建新配置
curl -X POST http://localhost:17493/profiles \
  -H "Content-Type: application/json" \
  -d '{"name": "My Voice", "language": "en"}'

API文档在 http://localhost:17493/docs,可以直接在浏览器里测试。

这意味着你可以把Voicebox集成到自己的项目里,比如做一个自动生成视频解说的工具,或者给游戏加上动态对话系统。

实际体验:有哪些坑?

说了这么多优点,也得说说问题。

1. 克隆质量看运气

声音克隆的效果很大程度上取决于你提供的音频质量。如果你的录音背景噪音很大,或者说话不够清晰,克隆出来的声音可能会有点奇怪。

建议:

用好一点的麦克风
在安静的环境录音
多录几段不同内容的音频(软件支持多个样本)

2. 长文本偶尔会有停顿感

虽然软件会自动分段并交叉淡化,但有时候还是能听出来拼接的痕迹。不过这个问题不大,调整一下"Crossfade"(交叉淡化)的时长就能改善。

3. 中文支持还行,但不如英文

我试了中文克隆,效果还可以,但明显不如英文那么自然。可能是因为训练数据的问题。如果你主要做中文内容,可能需要多试几个引擎,看哪个效果最好。

4. 首次启动会下载模型

第一次运行软件时,它会自动下载TTS模型,大小从几百MB到几GB不等。如果你网络不好,可能需要等一会儿。

和ElevenLabs比怎么样?

说实话,如果只看克隆质量,ElevenLabs的效果可能还是要好一点点,尤其是在情感表达和自然度上。

但Voicebox的优势在于:

完全免费:没有使用限制
完全本地:隐私有保障
开源:可以自己改代码,加新功能
多引擎:可以根据需求切换不同的模型

如果你只是偶尔用一下,ElevenLabs的免费额度可能够了。但如果你是重度用户,或者对隐私比较在意,Voicebox绝对是更好的选择。

未来会有什么?

看了一下项目的Roadmap,开发者计划加入:

实时流式生成:边生成边播放,不用等全部生成完
声音设计:用文字描述创建新声音(比如"年轻女性,温柔的声音")
更多模型:XTTS、Bark等其他开源模型
插件架构:让社区可以自己加模型和音效
手机端:用手机控制电脑上的Voicebox

如果这些功能都实现了,Voicebox可能会成为语音合成领域的"Stable Diffusion"--一个真正属于社区的开源标准。

下载和资源

官网: https://voicebox.sh^[5]
GitHub: https://github.com/jamiepine/voicebox^[6]
文档: https://docs.voicebox.sh^[7]
下载地址: https://github.com/jamiepine/voicebox/releases/latest^[8]

我的看法

AI语音合成这个领域,之前一直是商业公司的天下。ElevenLabs、Azure TTS、Google Cloud TTS,效果都很好,但要么贵,要么有使用限制,要么需要上传数据。

Voicebox的出现,让普通人也能用上高质量的语音克隆技术,而且不用担心隐私问题。这才是开源的意义--把技术的门槛降下来,让更多人能用上。

当然,它现在还不完美。但考虑到这是一个完全免费、完全本地的开源项目,已经做得相当不错了。而且社区很活跃,更新很快,未来可期。

如果你做内容创作,或者只是对AI语音合成感兴趣,强烈建议试试Voicebox。反正是免费的,不试白不试。

说不定哪天,你就能用自己的声音给自己的视频配音了。想想还挺科幻的,对吧?

引用链接

[1]https://voicebox.sh/download/mac-arm

[2]https://voicebox.sh/download/mac-intel

[3]https://voicebox.sh/download/windows

[4]https://voicebox.sh/linux-install

[5]https://voicebox.sh

[6]https://github.com/jamiepine/voicebox

[7]https://docs.voicebox.sh

[8]https://github.com/jamiepine/voicebox/releases/latest