这个软件让你快速拥有任何人的声音-夜雨聆风

这个软件让你快速拥有任何人的声音

💡 Voicebox：一款开源、本地运行的 AI 语音工作室。它被视为 ElevenLabs 的终极开源替代方案，支持 23 种语言，集成了语音克隆、TTS（文本转语音）、STT（语音转文字）以及多轨音频编辑功能，且所有数据都在本地处理，确保极致隐私。

🎬 效果演示

以下是使用 Voicebox 克隆声音后的实际转换效果演示。你可以听到 AI 在保持原声音色的同时，自然地处理了语气的起伏。

已关注

关注

重播分享赞

演示视频：原声素材与 AI 克隆生成的对比

💡 为什么选择 Voicebox？

在 AI 语音领域，ElevenLabs 虽强但价格昂贵且依赖云端。Voicebox 的出现打破了这一现状：

·完全本地化：无需联网，保护你的声音隐私，不被云端训练利用。

·零样本克隆：只需上传一段 10-30 秒的清晰录音，即可像素级还原目标音色。

·全能集成：内置 7 种 TTS 引擎，支持混响、延迟、音高调节等 8 种后期特效。

·跨平台支持：支持 macOS (M系列芯片优化)、Windows (NVIDIA GPU 加速) 和 Linux。

🛠️ 安装与初始化

前往 Voicebox 官网或 GitHub Releases 页面下载。 – Windows：下载 .msi 安装包。 – macOS：下载 .dmg 安装包（推荐 M1/M2/M3 用户）。

注：安装程序将引导你完成基础环境配置

首次启动后，进入 Model Management。为了获得最佳效果，建议优先下载： – Qwen3-TTS (1.7B)：核心生成模型，质量最顶尖。 – Whisper Turbo：用于超快速的语音转文字。

注：本地模型下载，一次下载，终身免联网使用

🎙️ 极致克隆：如何获得“本尊”音感？

创建“语音人格（Voice Profile）”时，样本的质量决定了最终的上限。

Voicebox 提供了极其灵活的样本采集方式： – Upload File：上传已有的高质量音频（如录音笔素材）。 – Record Mic：直接对着麦克风进行实时录音（建议环境安静）。 – System Audio：神器功能！可以直接抓取电脑系统发出的声音进行克隆（例如克隆视频里的旁白）。

注：支持多种输入源，甚至可以直接克隆系统当前播放的声音

Qwen3-TTS 具备语义理解能力，你不需要调节参数，而是直接用文字描述语气：

指令示例：输入 [Speak like a calm British narrator, slightly empathetic, with a slow pace.]。

💻 开发者进阶：MCP 智能体集成

通过 MCP 协议，你可以让 Claude 或 Cursor 直接用你的声音说话。

执行以下命令，将 Voicebox 添加为 MCP 节点：

⚠️ 硬件建议与优化

显存要求：Qwen3-1.7B 建议 6GB 以上显存。若硬件较低（如 8GB 内存的旧款 Mac），建议选择 LuxTTS 或 Kokoro 引擎，生成速度会大幅提升。
自动加速：Voicebox 针对不同平台进行了深度适配。Mac 用户无需手动配置，软件会自动利用 MLX 框架调用 Apple Silicon 的统一内存进行加速；Windows 用户只需确保安装了最新的 NVIDIA 驱动，软件即可自动识别CUDA 环境。
性能监控：如果生成速度较慢，请检查是否同时开启了多个占用 VRAM 的大型应用（如剪映或 3A 游戏）。

🛠️ 项目地址：https://github.com/jamiepine/voicebox

如果这篇文章对你有帮助，欢迎点赞分享！

注：请在法律允许的范围内使用语音克隆技术，尊重他人版权与隐私。