做视频、播客,或者开发带语音功能的应用时,你可能都头疼过AI语音合成这事儿。
用云服务吧,价格不便宜,还老担心隐私问题。用本地工具呢,功能往往很单一,效果粗糙,多语言支持也不好,想调个音效还得专门打开音频软件,来回切换特别麻烦。
今天给大家推荐一个能从根本上解决这些问题的开源工具:Voicebox。你可以把它看作一个直接装在你电脑里的语音合成工作室。
用它,你可以克隆声音、合成多语言语音、实时添加音频效果,甚至编辑多轨对话。最关键的一点是,它完全免费、开源,所有处理都在你本地电脑上完成,你的声音数据压根不会上传到任何地方,隐私性拉满。
它到底是个啥?
简单说,Voicebox 是一个主打本地运行的语音克隆与合成工作室,算是一个开源版的 ElevenLabs 替代品。
它的核心功能很明确:让你在自己的电脑上,就能走完从声音克隆到最终输出的全部流程。
你只需要提供几秒钟的音频样本,它就能克隆出那个声音。接着,你可以用这个声音,生成支持多达23种语言的语音,再用内置的音频效果器调整音色,最后还能在一个多轨时间线上,编排多个声音的对话或故事。
所有的模型运算和音频数据都在你的机器上跑,没有网络请求,没有数据上传,隐私完全掌握在你自己手里。
[1]
不止能克隆声音,这些功能才是真亮点
亮点一:五个引擎随便换,总有一个适合你
Voicebox 里面直接内置了五个不同的语音合成引擎,生成时可以随时切换。这样你就能根据不同的语言、质量或者速度需求,灵活选择最合适的模型。
- Qwen3-TTS
:支持10种语言,克隆质量很高。它有个好玩的功能,能用文字指令控制语调,比如告诉它“轻声说”或者“说慢点”,它就能照做。 - LuxTTS
:专门针对英语,特别轻量,1GB显存就能跑起来,能输出48kHz的高品质音频。在CPU上跑,速度能达到实时的150倍。 - Chatterbox Multilingual
:语言支持最广,足足有23种。从英语、日语到阿拉伯语、印地语甚至斯瓦希里语,一些小众语言也包含在内。 - Chatterbox Turbo
:专门为英文优化的快速模型,它有一个杀手锏功能叫副语言标签,后面会细说。 - TADA
:这个引擎来自 HumeAI,特长是生成超长的连贯音频,能一次生成超过700秒的内容,在做长文本叙事时很有优势。
有了这五个引擎,你就不用再为了某个特定语言或需求,满世界找五花八门的工具了。一个 Voicebox,基本上就能覆盖主流的语音合成场景。
亮点二:给AI语音注入情绪,让它“活”过来
总觉得AI生成的对话干巴巴的没感情?Voicebox 的 Chatterbox Turbo 引擎支持一个特别实用的功能:副语言标签。
具体怎么用呢?你在输入文本的时候,直接打一个 /,就能插入像 [laugh](笑声)、[sigh](叹气声)、[gasp](倒吸气声)这样的标签。
模型会把这些标签合成为真实的、带有相应情绪的声音,并且无缝地嵌入到整段语音里。这比你自己后期手动去拼接音效要自然太多了。
如果你在做有声书、对话类视频,或者给游戏NPC配音,这个功能绝对能让你的内容生动程度提升好几个档次。
亮点三:内置专业级效果链,后期不用开其他软件
语音生成好了,但想要机器人那种电子音、电台主播的厚重感,或者加点空旷的回声效果怎么办?
Voicebox 集成了基于 Spotify pedalboard 库的8种音频效果器:音高变换、混响、延迟、合唱/镶边、压缩器、增益、高通滤波器和低通滤波器。
你可以实时调整参数并预览效果,还能把调好的一套效果设置保存成预设,之后一键应用到其他语音上。
软件自带了“机器人”、“电台”、“回声室”、“深沉人声”四个现成的预设。这意味着,大多数基础的音频润色工作,你完全不用再打开 Audition 或者 Audacity,在 Voicebox 里面就能直接搞定。
亮点四:支持超长文本生成,还有多轨编辑器处理对话
碰到长篇文章或者书籍章节需要合成语音?打开“自动分块”功能,它会按照句子边界智能分割文本,分别生成语音后再用交叉淡入淡出的方式拼接起来,最长支持5万个字符。
如果需要制作多人对话或者播客节目,那就用它的“故事编辑器”。
这是一个多轨时间线界面,你可以把不同声音的语音片段,拖到不同的轨道上,然后进行剪辑、调整时间顺序,并且能统一播放预览。
对于内容创作者来说,这两个功能把从文本到语音成品的路径,大大缩短了。
亮点五:自带REST API,方便集成进你自己的项目
Voicebox 不仅仅是个桌面应用。它在后台会运行一个完整的 REST API 服务(默认端口是17493)。
这意味着,你可以通过发送 HTTP 请求,让你自己开发的游戏、工具或者自动化脚本,调用它来生成语音。
# 生成语音
curl -X POST http://localhost:17493/generate \
-H "Content-Type: application/json" \
-d '{"text": "你好世界", "profile_id": "abc123", "language": "zh"}'
# 列出所有声音档案
curl http://localhost:17493/profiles
你可以把它用作游戏内的动态对话系统、自动生成视频配音,或者为无障碍应用提供语音接口。详细的API文档可以在 http://localhost:17493/docs 找到。
三步上手,快速搭建你的本地语音工厂
第一步:下载安装
直接访问 voicebox.sh[2] 或者去项目的 GitHub Release 页面,根据你的操作系统下载对应的安装包。
- macOS
(Apple Silicon/Intel):下载 DMG 文件直接安装。 - Windows
:下载 MSI 安装程序。 - Linux
:目前没有现成的可执行文件,需要参照官网文档从源码构建。 - Docker
:也支持,一行命令就能启动。
这个软件是用 Tauri(Rust)开发的,不是那种吃资源的 Electron 应用,所以原生性能很好。
第二步:创建你的第一个声音模型
打开 Voicebox,点击“创建档案”。你可以上传一段清晰的、至少几秒钟的语音文件(支持 MP3、WAV 等格式),或者直接使用电脑麦克风现场录制一段。
建议多添加几个音频样本,这样克隆出来的声音质量会更高。创建好后,给它起个名字,再选择一下主要使用的语言。
第三步:生成语音并开始编辑
- 基础生成
:在文本框里输入你想说的内容,在右边选择刚才创建好的声音档案和对应的语言(比如中文),点击生成。任务会进入处理队列,在后台运行。 - 添加效果
:生成完成后,点击那段语音,在右侧面板打开“效果”标签页。你可以添加“混响”来制造空间感,用“音高变换”来改变性别或年龄感,调好之后点击“应用”就行。 - 使用故事编辑器
:点击顶部导航栏的“故事”标签。把之前生成好的多个语音片段(可以是不同人的)从左侧的素材库,直接拖到下方的时间线轨道上。你可以拖动它们调整前后顺序,甚至进行简单的剪辑。点击播放键,就能预览整段对话的效果。 - 调用API
:确保软件在运行状态,然后在你自己的代码里,向 http://localhost:17493发送 HTTP 请求(就像上面的代码示例那样)。生成的文件会在软件内部管理,你也可以通过 API 获取到音频文件的具体路径。
总的来说,Voicebox 把过去需要依赖多个云端服务、切换好几个专业软件才能完成的语音合成与处理工作,整合成了一个免费、开源、且在本地运行的桌面应用。
对开发者来说,它的 API 打开了自动化集成的大门。对内容创作者而言,它极大降低了制作高质量、多语种语音内容的门槛。而对那些特别在意隐私的用户来说,所有数据都在本地处理,就是最大的定心丸。
这个项目目前还在积极开发中,未来的路线图包括了实时流式生成、通过文本描述创建全新声音等更酷的功能。像这样把前沿的AI模型,用实用、易用的形式封装起来的开源项目,确实是开发者社区里最受欢迎的类型。
如果你也在为语音合成的成本、隐私或者效率问题头疼,不妨下载 Voicebox 尝个鲜。它很可能就是你一直在找的那个“一站式”解决方案。
📎 脚注链接
[1] :https://voicebox.sh
[2] voicebox.sh:https://voicebox.sh
夜雨聆风