前两天刷GitHub,看到一个项目突然冲到了Trending榜首,一天涨了800多星。点进去一看,好家伙,这玩意儿有点东西——Voicebox,一个完全本地运行的开源语音克隆工具。

说实话,我第一反应是:这不就是开源版的ElevenLabs吗?但仔细研究了一下,发现它比我想象的要猛得多。
为什么突然火了?
你可能听说过ElevenLabs,那个能用几秒钟音频就克隆出你声音的AI工具。效果确实牛,但有两个问题:一是贵(免费版每月只有10分钟),二是你的声音数据要上传到他们服务器。
Voicebox的出现,直接把这两个问题都解决了。
**完全免费,完全本地。**你的声音数据不会离开你的电脑,想克隆多少次就克隆多少次,想生成多长就生成多长。对于重视隐私的人来说,这简直是福音。
而且它不是那种"能用但效果一般"的开源项目。它内置了5个TTS引擎,支持23种语言,还能加各种音效(混响、延迟、变调),甚至有个时间轴编辑器,可以做多人对话、播客那种复杂项目。
上手有多简单?
我在MacBook上试了一下,整个过程比我预想的顺滑太多。

第一步:下载安装
直接去官网下载对应系统的安装包:
macOS (Apple Silicon): https://voicebox.sh/download/mac-arm[1] macOS (Intel): https://voicebox.sh/download/mac-intel[2] Windows: https://voicebox.sh/download/windows[3] Docker用户: docker compose up
Linux用户需要自己编译,官方给了详细教程:https://voicebox.sh/linux-install[4]
第二步:创建声音配置
打开软件后,你会看到一个很干净的界面。点击"Profiles"(配置文件),然后"Create Profile"。
这里有两个选项:
上传音频文件(支持多个文件,质量更好) 直接在软件里录音
我试了录音功能,对着麦克风说了大概30秒话,软件就自动生成了一个声音配置。整个过程不到1分钟。
第三步:生成语音
在主界面输入你想说的文字,选择刚才创建的声音配置,点击"Generate"。
等几秒钟(具体时间取决于你的硬件),语音就生成好了。你可以直接播放试听,也可以导出成音频文件。
如果觉得效果不够理想,可以:
切换不同的TTS引擎(Qwen3-TTS、LuxTTS、Chatterbox等) 调整语速、音调 加音效(比如加点混响让声音更有空间感)
它到底能干什么?
1. 内容创作

做视频解说、播客、有声书,再也不用自己一遍遍录音了。写好文案,生成语音,直接用。
而且它支持超长文本(最多5万字符),会自动分段生成然后无缝拼接。我试着丢了一篇3000字的文章进去,生成的音频听起来完全没有断裂感。
2. 多语言配音
支持23种语言,包括英语、中文、日语、阿拉伯语、印地语、斯瓦希里语等等。如果你做跨境内容,这个功能简直是神器。
3. 游戏对话
它有个"Stories"编辑器,可以做多人对话。你可以创建多个声音配置(比如一个男声、一个女声),然后在时间轴上排列对话,做出类似游戏NPC对话的效果。
4. 情感表达
Chatterbox Turbo引擎支持一些特殊标签,比如 [laugh](笑声)、[sigh](叹气)、[gasp](倒吸一口气)。在文本里插入这些标签,生成的语音就会带上对应的情绪。
我试了一下在句子里加 [laugh],效果还挺自然的,不是那种生硬的"哈哈哈",而是真的像人在说话时笑出来的感觉。
技术细节(给极客们)
Voicebox的架构挺有意思的,前端用的是Tauri(Rust写的,比Electron轻量),后端是FastAPI(Python)。
5个TTS引擎各有特点:
Qwen3-TTS:多语言克隆质量最高,还支持"说慢一点"、"耳语"这种指令 LuxTTS:轻量级,只需要1GB显存,CPU上也能跑,速度是实时的150倍 Chatterbox Multilingual:语言覆盖最广,23种语言 Chatterbox Turbo:速度快,支持情感标签 TADA:HumeAI的模型,能生成700秒以上的连贯音频
硬件加速支持:
macOS (Apple Silicon): 用MLX加速,速度快4-5倍 Windows/Linux (NVIDIA): CUDA AMD显卡: ROCm Intel Arc: IPEX/XPU 没有独显?CPU也能跑,就是慢点
我在M2 MacBook上测试,生成一段30秒的语音大概只需要5-6秒。如果你有NVIDIA 4090那种显卡,速度会更快。
音效处理:不只是生成语音
生成语音只是第一步,Voicebox还内置了8种音效处理:
变调:上下调整12个半音,可以把男声变女声(虽然效果不是特别自然) 混响:模拟不同房间的声音效果 延迟/回声:做那种空旷的回声效果 合唱/镶边:金属感或者丰富的质感 压缩器:让音量更均衡 增益:调整音量 高通/低通滤波器:去掉低频或高频
软件自带4个预设(机器人、广播、回声室、低沉嗓音),你也可以自己调参数保存成自定义预设。
我试了一下"广播"预设,加上去之后声音立刻有了那种老式电台的感觉,挺有意思的。
API:开发者的福音
如果你是开发者,Voicebox还提供了完整的REST API。
# 生成语音
curl -X POST http://localhost:17493/generate \
-H "Content-Type: application/json" \
-d '{"text": "Hello world", "profile_id": "abc123", "language": "en"}'
# 列出所有声音配置
curl http://localhost:17493/profiles
# 创建新配置
curl -X POST http://localhost:17493/profiles \
-H "Content-Type: application/json" \
-d '{"name": "My Voice", "language": "en"}'
API文档在 http://localhost:17493/docs,可以直接在浏览器里测试。
这意味着你可以把Voicebox集成到自己的项目里,比如做一个自动生成视频解说的工具,或者给游戏加上动态对话系统。
实际体验:有哪些坑?
说了这么多优点,也得说说问题。
1. 克隆质量看运气
声音克隆的效果很大程度上取决于你提供的音频质量。如果你的录音背景噪音很大,或者说话不够清晰,克隆出来的声音可能会有点奇怪。
建议:
用好一点的麦克风 在安静的环境录音 多录几段不同内容的音频(软件支持多个样本)
2. 长文本偶尔会有停顿感
虽然软件会自动分段并交叉淡化,但有时候还是能听出来拼接的痕迹。不过这个问题不大,调整一下"Crossfade"(交叉淡化)的时长就能改善。
3. 中文支持还行,但不如英文
我试了中文克隆,效果还可以,但明显不如英文那么自然。可能是因为训练数据的问题。如果你主要做中文内容,可能需要多试几个引擎,看哪个效果最好。
4. 首次启动会下载模型
第一次运行软件时,它会自动下载TTS模型,大小从几百MB到几GB不等。如果你网络不好,可能需要等一会儿。
和ElevenLabs比怎么样?
说实话,如果只看克隆质量,ElevenLabs的效果可能还是要好一点点,尤其是在情感表达和自然度上。
但Voicebox的优势在于:
完全免费:没有使用限制 完全本地:隐私有保障 开源:可以自己改代码,加新功能 多引擎:可以根据需求切换不同的模型
如果你只是偶尔用一下,ElevenLabs的免费额度可能够了。但如果你是重度用户,或者对隐私比较在意,Voicebox绝对是更好的选择。
未来会有什么?
看了一下项目的Roadmap,开发者计划加入:
实时流式生成:边生成边播放,不用等全部生成完 声音设计:用文字描述创建新声音(比如"年轻女性,温柔的声音") 更多模型:XTTS、Bark等其他开源模型 插件架构:让社区可以自己加模型和音效 手机端:用手机控制电脑上的Voicebox
如果这些功能都实现了,Voicebox可能会成为语音合成领域的"Stable Diffusion"--一个真正属于社区的开源标准。
下载和资源
官网: https://voicebox.sh[5] GitHub: https://github.com/jamiepine/voicebox[6] 文档: https://docs.voicebox.sh[7] 下载地址: https://github.com/jamiepine/voicebox/releases/latest[8]
我的看法
AI语音合成这个领域,之前一直是商业公司的天下。ElevenLabs、Azure TTS、Google Cloud TTS,效果都很好,但要么贵,要么有使用限制,要么需要上传数据。
Voicebox的出现,让普通人也能用上高质量的语音克隆技术,而且不用担心隐私问题。这才是开源的意义--把技术的门槛降下来,让更多人能用上。
当然,它现在还不完美。但考虑到这是一个完全免费、完全本地的开源项目,已经做得相当不错了。而且社区很活跃,更新很快,未来可期。
如果你做内容创作,或者只是对AI语音合成感兴趣,强烈建议试试Voicebox。反正是免费的,不试白不试。
说不定哪天,你就能用自己的声音给自己的视频配音了。想想还挺科幻的,对吧?
引用链接
[1]https://voicebox.sh/download/mac-arm
[2]https://voicebox.sh/download/mac-intel
[3]https://voicebox.sh/download/windows
[4]https://voicebox.sh/linux-install
[5]https://voicebox.sh
[6]https://github.com/jamiepine/voicebox
[7]https://docs.voicebox.sh
[8]https://github.com/jamiepine/voicebox/releases/latest
夜雨聆风