你有没有想过,有一天你能用AI克隆自己的声音,甚至凭空"设计"一个从未存在过的声音?
前几天我在GitHub上刷到一个炸裂的开源项目——VoxCPM2,今天一天就涨了1000多星。我花了一个下午折腾,发现这玩意儿真的太顶了:不仅能克隆声音,还能用一句话"设计"出全新的声音,比如"20岁女生,温柔甜美,带点笑意"——然后AI就真的给你生成了这样一个声音。
更绝的是,它支持30种语言,输出48kHz录音棚级音质,而且完全免费开源,可商用。
说实话,我一开始也不信AI能做到这个程度。直到我用它克隆了自己的声音,然后让"AI版的我"用日语念了一段绕口令……那一刻我真的有点慌:这技术要是被坏人用来诈骗,普通人根本分辨不出来。
但技术本身是中性的。今天这篇文章,我会手把手教你怎么用VoxCPM2,同时也会聊聊它背后的风险和边界。
什么是VoxCPM2?
VoxCPM2是清华大学OpenBMB团队开源的AI语音合成系统,基于20亿参数的模型,在200万小时多语言语音数据上训练。
它最牛的地方在于:不需要传统的"分词器"(Tokenizer),直接在音频的潜在空间里生成连续的语音表示,所以合成出来的声音特别自然,没有那种"机器味儿"。
核心功能一览
30种语言支持:中文、英语、日语、韩语、法语、德语、西班牙语……甚至还支持四川话、粤语、东北话等中国方言 声音设计:不需要参考音频,只用一句话描述(比如"中年男性,低沉磁性,略带沙哑"),AI就能生成对应的声音 可控声音克隆:上传一段参考音频,克隆音色的同时,还能用指令调整语速、情绪、风格 终极克隆模式:提供参考音频+文本,AI会无缝续接,连呼吸、停顿、情绪波动都能完美复刻 48kHz高音质:直接输出录音棚级音质,不需要额外的升频工具 实时流式输出:RTF(实时率)低至0.3,在RTX 4090上甚至能到0.13,基本接近实时
安装教程(小白友好版)
第一步:准备环境
VoxCPM2需要Python 3.10或更高版本(但不能是3.13),以及PyTorch 2.5.0+和CUDA 12.0+。
如果你电脑没有NVIDIA显卡,也可以用CPU跑,只是速度会慢一些。
检查Python版本:
python --version
如果版本不对,建议用Anaconda创建一个新环境:
conda create -n voxcpm python=3.11
conda activate voxcpm
第二步:安装VoxCPM2
打开终端,一行命令搞定:
pip install voxcpm
安装过程可能需要几分钟,耐心等待。
第三步:下载模型
VoxCPM2的模型文件托管在Hugging Face和ModelScope上。如果你在国内,建议用ModelScope,速度更快。
方法一:自动下载(推荐)
第一次运行代码时,VoxCPM会自动从Hugging Face下载模型。如果网络不好,可能会失败。
方法二:手动下载(国内用户推荐)
先安装ModelScope:
pip install modelscope
然后用Python下载模型:
from modelscope import snapshot_download
snapshot_download("OpenBMB/VoxCPM2", local_dir='./pretrained_models/VoxCPM2')
下载完成后,模型会保存在./pretrained_models/VoxCPM2目录下。
实战:三种玩法
玩法一:声音设计(凭空造声音)
这是VoxCPM2最酷的功能。你不需要任何参考音频,只需要用自然语言描述你想要的声音,AI就能生成。
示例代码:
from voxcpm import VoxCPM
import soundfile as sf
# 加载模型
model = VoxCPM.from_pretrained(
"./pretrained_models/VoxCPM2", # 如果自动下载,改成 "openbmb/VoxCPM2"
load_denoiser=False,
)
# 声音设计:在文本开头用括号描述声音特征
wav = model.generate(
text="(20岁女生,温柔甜美,带点笑意)大家好,欢迎来到我的频道!",
cfg_value=2.0,
inference_timesteps=10,
)
# 保存音频
sf.write("voice_design.wav", wav, model.tts_model.sample_rate)
print("音频已保存:voice_design.wav")
参数说明:
text:要合成的文本。括号里是声音描述,括号外是实际内容cfg_value:控制生成质量,范围1.0-3.0,越高越贴近描述,但太高可能失真inference_timesteps:推理步数,越多质量越好,但速度越慢
你可以试试这些描述:
"(中年男性,低沉磁性,略带沙哑)..." "(小男孩,活泼调皮,语速稍快)..." "(老年女性,慈祥温和,语速缓慢)..."
玩法二:可控声音克隆
上传一段参考音频(比如你自己的录音),VoxCPM2会克隆音色,同时你还能用指令调整风格。
示例代码:
# 基础克隆
wav = model.generate(
text="这是用VoxCPM2克隆的声音。",
reference_wav_path="your_voice.wav", # 替换成你的音频文件路径
)
sf.write("clone.wav", wav, model.tts_model.sample_rate)
# 可控克隆:加上风格指令
wav = model.generate(
text="(语速稍快,欢快语气)这是带风格控制的克隆声音!",
reference_wav_path="your_voice.wav",
cfg_value=2.0,
inference_timesteps=10,
)
sf.write("controllable_clone.wav", wav, model.tts_model.sample_rate)
小技巧:
参考音频建议3-10秒,太短效果不好,太长也没必要 音频质量越高,克隆效果越好 如果克隆效果不理想,试试调整 cfg_value(1.5-2.5之间)
玩法三:终极克隆(最高保真度)
如果你想要最高保真度的克隆,需要同时提供参考音频和它的文本。AI会"续接"这段音频,连呼吸、停顿、情绪都能复刻。
示例代码:
wav = model.generate(
text="这是终极克隆模式的演示。",
prompt_wav_path="reference.wav", # 参考音频
prompt_text="这是参考音频的文本内容。", # 参考音频的准确文本
reference_wav_path="reference.wav", # 可选,进一步提升相似度
)
sf.write("ultimate_clone.wav", wav, model.tts_model.sample_rate)
注意:
prompt_text必须和prompt_wav_path的内容完全一致,否则效果会很差这个模式最适合做有声书、播客等需要高度一致性的场景
进阶技巧
1. 流式输出(实时生成)
如果你要做实时语音助手,可以用流式API:
import numpy as np
chunks = []
for chunk in model.generate_streaming(
text="流式输出让语音合成更快!",
):
chunks.append(chunk)
# 这里可以实时播放chunk
wav = np.concatenate(chunks)
sf.write("streaming.wav", wav, model.tts_model.sample_rate)
2. 命令行工具
VoxCPM2还提供了命令行工具,不用写代码也能用:
# 声音设计
voxcpm design \
--text "VoxCPM2真的太好用了!" \
--output out.wav
# 声音克隆
voxcpm clone \
--text "这是克隆的声音。" \
--reference-audio your_voice.wav \
--output out.wav
# 批量处理
voxcpm batch --input input.txt --output-dir outs
3. Web界面
如果你不想敲代码,可以启动Web界面:
python app.py --port 8808
然后在浏览器打开http://localhost:8808,就能看到一个可视化界面,点点鼠标就能生成语音。
性能和成本
我在RTX 3060(12GB显存)上测试了一下:
显存占用:约8GB 生成速度:10秒文本大约需要3-5秒(RTF约0.3-0.5) 音质:48kHz,接近录音棚级别
如果你有更好的显卡(比如RTX 4090),速度还能快一倍。
如果只有CPU,也能跑,但速度会慢10倍左右。
和其他工具对比
我之前用过ElevenLabs、Azure TTS、讯飞语音等商业服务,也试过CosyVoice、Fish Audio等开源项目。VoxCPM2的优势在于:
| 对比项 | VoxCPM2 | ElevenLabs | CosyVoice | Fish Audio |
|---|---|---|---|---|
| 开源免费 | ✅ | ❌ | ✅ | ✅ |
| 多语言支持 | 30种 | 29种 | 11种 | 30+ |
| 声音设计 | ✅ | ✅ | ❌ | ❌ |
| 可控克隆 | ✅ | 部分 | ❌ | ❌ |
| 音质 | 48kHz | 44.1kHz | 44.1kHz | 44.1kHz |
| 本地部署 | ✅ | ❌ | ✅ | ✅ |
| 商用授权 | Apache 2.0 | 付费 | Apache 2.0 | Apache 2.0 |
从性能测试来看,VoxCPM2在中英文场景下的WER(词错误率)和SIM(相似度)都达到了商业级水平,甚至在某些语言上超过了ElevenLabs。
适用场景
VoxCPM2特别适合这些场景:
有声书制作:克隆作者声音,批量生成章节 视频配音:多语言视频配音,省下配音演员的钱 播客/电台:生成虚拟主播,24小时不间断 游戏NPC:为游戏角色设计独特声音 无障碍阅读:为视障人士朗读文章 语言学习:生成标准发音的练习材料
风险和边界
说了这么多优点,我必须泼一盆冷水:这技术真的很危险。
VoxCPM2的克隆能力太强了,如果被用来诈骗、伪造证据、传播虚假信息,后果不堪设想。
几个真实案例:
2023年,有人用AI克隆声音诈骗,10分钟骗走430万 2024年,某明星的AI克隆声音被用来推广假药 2025年,有人用AI伪造录音,差点引发一场商业纠纷
所以,请务必遵守这些原则:
不要用于诈骗、伪造证据、冒充他人 生成的内容必须明确标注"AI生成" 不要克隆他人声音用于商业用途(除非获得授权) 不要生成违法、暴力、色情内容
VoxCPM2的开源协议是Apache 2.0,允许商用,但你要为自己的使用行为负责。
我的看法
VoxCPM2让我想起了2022年Stable Diffusion刚开源时的震撼:一个原本只有大公司才能玩得起的技术,突然变成了人人都能用的工具。
这是好事,也是坏事。
好的一面是,它降低了内容创作的门槛。以前做一个有声书,要找配音演员、录音棚、后期剪辑,成本至少几万块;现在一个人在家,几个小时就能搞定。
坏的一面是,它也降低了作恶的门槛。以前要伪造一个人的声音,需要专业团队和昂贵设备;现在只需要一台电脑和10秒钟的录音。
技术本身是中性的,关键在于怎么用。
我希望看到更多人用VoxCPM2做有价值的事情:帮视障人士"听"世界,让小语种内容被更多人理解,让独立创作者不再受限于预算。
同时,我也希望监管和技术能跟上:比如给AI生成的内容打上不可篡改的水印,比如建立声音版权保护机制,比如对恶意使用者追责。
最后,如果你决定试试VoxCPM2,记住一句话:能力越大,责任越大。
下载和资源
GitHub仓库:https://github.com/OpenBMB/VoxCPM[1] 官方文档:https://voxcpm.readthedocs.io/[2] 在线Demo:https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo[3] 模型下载(Hugging Face):https://huggingface.co/openbmb/VoxCPM2[4] 模型下载(ModelScope,国内推荐):https://modelscope.cn/models/OpenBMB/VoxCPM2[5]
写在最后:
这篇文章写了快4000字,我尽量用最白话的方式讲清楚了VoxCPM2的原理、用法和风险。
如果你觉得有用,欢迎分享给更多人。如果你有任何问题,欢迎在评论区留言,我会尽量回复。
最后,再次提醒:请负责任地使用AI技术。
我们正站在一个技术爆炸的时代,每个人都有机会成为创造者,但也要警惕成为作恶者。
共勉。
引用链接
[1]https://github.com/OpenBMB/VoxCPM
[2]https://voxcpm.readthedocs.io/
[3]https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
[4]https://huggingface.co/openbmb/VoxCPM2
[5]https://modelscope.cn/models/OpenBMB/VoxCPM2
夜雨聆风