
前天分享了一款小米开源语音Ai大模型详细安装教程,但是没什么人观看,估计是太麻烦了😭。那今天就给大家推荐一个很容易使用的Ai语音开源神器--Voicebox,直接下载安装即可使用,下载地址文末获取。
Voicebox 是一款以本地化为核心的 AI 语音工具,它是github上一款免费开源的应用程序,你可以从几秒钟的音频中克隆语音,使用内置的引擎生成不同语言的语音,还可以将语音转录成为文本,还能直接剪辑音频等,装上它,你的电脑就是一台“Ai配音工作站”。

Voicebox通过捆绑的本地LLM实现语音精细化和个性化设置,所有功能都在您的本地计算机上运行。安装后需要自己下载所需要的模型。可以自行更改模型下载位置。

VoiceBox可以使用7款TTS引擎:Qwen3-TTSQwen CustomVoice、LuxTTS、Chatterbox Multilingual、Chatterbox Turbo、HumeAITADA和Kokoro。

如果你要做对话场景、播客或多角色叙事,Voicebox内置了多轨时间线编辑器:
不同角色分配不同的克隆声音
可视化编排音频片段
支持多轨道叠加
可以直接剪辑拼接音频,相当于把“后期剪辑”直接整合进了生成流程,做有声书或广播剧会顺手很多。

由Whisper提供技术支持,实现准确的语音转文字。自动从语音样本中提取参考文本。转录之前需要先自己下载转录模型工具。

除了上传语音克隆,还可从通过Kokoro和Qwen CustomVoice使用 50 多个精选预设语音。

音频还可以后期进行音高变换、混响、延迟、合唱、压缩和滤波器。

选择Chatterbox Turbo后,/在文本输入框中输入内容以打开标签插入器,并将富有表现力的标签内联添加到语音中:
[laugh][chuckle][gasp][cough][sigh][groan][sniff][shush][clear throat]

还有其他一些功能:
长度不限——脚本、文章和章节自动分段并带有淡入淡出效果
语音输入——全局听写快捷键,支持按键说话和切换模式;macOS 系统下支持辅助功能验证的自动粘贴功能;支持基于 Whisper 的语音转文本功能。
代理语音输出——只需调用一次工具(
voicebox.speak),任何支持 MCP 的代理(Claude Code、Cursor、Cline)就会用你克隆的声音与你对话。语音个性——将自由形式的语音配置文件附加到任何语音配置文件,然后通过捆绑的本地 LLM 进行编写、重写或回复——代理可以通过 MCP 调用相同的模式。
支持多平台——macOS(MLX/Metal)、Windows(CUDA)、Linux、AMD ROCm、Intel Arc、Docker
无论你是想做播客/有声书创作者,还是做视频博主/内容创作者,都可以用这个Ai语音工具来克隆自己想要的声音,制作自己需要的音频。
项目地址:
https://github.com/jamiepine/voicebox
该项目也有自己的官方网站,大家也可以直接在官网下载,地址:
https://voicebox.sh/
⚠️警告:严禁将此模型用于未经授权的语音克隆、语音模仿、欺诈、诈骗或任何其他非法或不道德活动。所有用户均应确保完全遵守适用的当地法律、法规和道德标准。
往期精彩:

END

夜雨聆风