VibeVoice安装指南

这篇文章是官方版本VibeVoice安装指南，操作有一定的复杂度，如果你希望跳过繁琐的排坑环节，直接获取一套稳定运行的‘开箱即用’方案，我也提供付费的私有化部署与技术支持服务，欢迎通过公众号私信交流，把专业的事交给实操过的人。

VibeVoice介绍

现在的语音 AI 很多，但要做到长时间、高保真、还要像人一样有“聊天感”，其实非常难。VibeVoice 就是为了解决这些痛点而生的“全能选手”。

VibeVoice 的一项核心创新在于其采用了连续语音标记器（声学和语义），运行频率极低，仅为 7.5 赫兹。VibeVoice 的一项核心创新在于其采用了连续语音标记器（声学和语义），运行频率低至 7.5 赫兹。这些标记器在有效保留音频保真度的同时，显著提高了处理长序列的计算效率。VibeVoice 采用了一种下一个标记扩散框架，利用大型语言模型（LLM）来理解文本上下文和对话流程，并通过扩散头生成高保真的声学细节。相比传统模型，它可以像人类大脑一样，在处理长篇大论时依然保持逻辑清晰，而且合成的语音非常有“情感起伏”。

VibeVoice三大模式详解 (重点)

模式一：VibeVoice-ASR（长音频识别）

首先是 ASR 模式，也就是语音转文字。它最强的地方在于：

超长续航：
它可以一次性处理长达 60 分钟的音频，不像普通 ASR 需要切成小段。
结构化输出：
它不仅能转文字，还能告诉你谁在什么时候说了什么（包含角色、时间戳和内容）。

模式二：VibeVoice-TTS（长篇多角色语音合成）

第二种是 TTS 模式。这是做播客或广播剧的神器！

90分钟超长合成：
一次性生成 90 分钟的对话，语气前后连贯，不会断气。
四人同台：
支持多达 4 个不同的角色，每个人的音色、情感都极其自然，就像真人在录音室对话一样。

模式三：VibeVoice-Streaming（实时流式 TTS）

最后是 Streaming 模式，专为实时交互设计的“轻量版”。

极低延迟：
它的模型参数只有 0.5B，首字响应时间低于 300 毫秒。
边打字边说话：
支持流式文本输入，你可以像聊天一样输入，它会实时生成语音，非常适合给 AI 助手当“嘴巴”。

本地安装部署

git clone https://github.com/microsoft/VibeVoice.git

conda create -n vibevoice python=3.10 -yconda activate vibevoice

安装pytorch

pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu130

安装依赖

pip install -e .

模型下载

网盘链接：https://pan.quark.cn/s/170ef8889bae下载模型，把models文件放到项目根目录

也可使用命令进行模型安装，如果已下载上面网盘模型，此步骤可跳过，仅仅作为笔记存在语音转换为文字（Speech-to-Text）模型

huggingface-cli download microsoft/VibeVoice-ASR --local-dir ./models/VibeVoice-ASR --local-dir-use-symlinks False

将文字转换为语音（Text-to-Speech）1.5B模型

huggingface-cli download microsoft/VibeVoice-1.5B --local-dir ./models/VibeVoice-1.5B --local-dir-use-symlinks False

7B模型

huggingface-cli download vibevoice/VibeVoice-7B     --local-dir ./models/VibeVoice-7B     --local-dir-use-symlinks False

实时文本转语音(首次语音输出的延迟约为300毫秒)

huggingface-cli download microsoft/VibeVoice-Realtime-0.5B --local-dir ./models/VibeVoice-Realtime-0.5B  --local-dir-use-symlinks False

启动ASR语音转文本

在网盘里已编写了启动bat，双击运行

也可使用命令启动 ASR Demo:

python demo/vibevoice_asr_gradio_demo.py --model_path ./models/VibeVoice-ASR

显存占用情况使用中显存占用情况

实时文本转语音Streaming启动

在网盘里已编写了启动bat，双击运行

也可使用命令进行启动

python demo/vibevoice_realtime_demo.py --model_path ./models/VibeVoice-Realtime-0.5B

显存占用情况

文本转语音TTS启动

python demo/gradio_demo.py --model_path ./models/VibeVoice-1.5B

这里直接报错了，因为被滥用，所以官方去掉了这个程序，具体文档见https://github.com/microsoft/VibeVoice/blob/main/docs/vibevoice-tts.md

可能官方版本已经够用，为防止滥用，这里教程也做了简单限制，具体安装教程可以看另外一篇文档。

Vibevoice TTS文本转语音