
一款工具,搞定字幕翻译 + 语音克隆 + TTS配音
刷到一条爆款视频,想把字幕翻译成中文;或者找到一段超棒的英文演讲,想换成中文配音却苦于没有好声音——完成这些操作过去需要折腾好几个工具。
视频下载、音频分离、语音识别、机器翻译、TTS配音……每一步都可能踩坑。而现在,Voice-Pro 试图把这些能力全部整合在一个网页里。
它能做什么?
Voice-Pro 是一款 AI 驱动的语音识别、翻译和多语言配音网页应用。它把 YouTube 视频下载、音频分离、语音识别(STT)、翻译和文本转语音(TTS)这几大能力串联起来,一站式完成「视频 → 字幕 → 翻译 → 配音」的完整链路。
🎯 配音工作室 Dubbing Studio
整合 YouTube 下载、降噪、字幕提取、翻译、TTS 配音,适合内容创作者快速本地化海外视频。
✅ 一站式流程 / ✅ 支持100+语言翻译
🎯 Whisper 字幕生成
支持 Whisper、Faster-Whisper、Whisper-Timestamped、WhisperX 等多种引擎,覆盖 90+ 语言的字幕自动生成,词级时间戳对齐。
✅ 多种引擎可选 / ✅ 高精度 / ✅ 时间戳对齐
🎯 翻译引擎 Translation
集成 Deep-Translator,支持 100+ 语言互译,涵盖主流语言和许多小语种,支持 ASS/SSA/SRT 字幕格式。
✅ 语种丰富 / ✅ 多种翻译引擎支持
🎯 语音生成 Voice Generation
支持 Edge-TTS、kokoro 等快速 TTS,以及 F5-TTS、E2-TTS、CosyVoice 等语音克隆方案,并提供明星参考音色库(英/中/韩/日)。
✅ 克隆真实音色 / ✅ 多语言 / ✅ 参考音色预设
✦ ◆ ✦
核心引擎解析
Voice-Pro 并不是简单拼凑功能,它选择的都是各领域当前体验较好的开源方案。
语音识别引擎横向对比
Whisper(OpenAI原版)████████░░ 85%
Faster-Whisper(加速版)█████████░ 92%
WhisperX(时间戳+词级)████████░░ 88%
Whisper-Timestamped███████░░░░ 75%
Edge-TTS / Kokoro 速度快 ★★★★☆ 本地运行,无需网络,合成速度极快,适合批量生成场景。 | F5-TTS / CosyVoice 音色真 ★★★★★ 语音克隆方案,可以学习特定音色,适合追求自然度和表现力的场景。 |
系统要求与安装
运行 Voice-Pro 需要的硬件配置:
💻 支持系统:Windows 10/11(64位)、Linux、Mac
🎮 GPU:NVIDIA + CUDA 12.4,显存 4GB+(推荐 8GB+)
💾 存储空间:20GB+ 可用空间
🌐 网络连接(用于下载和处理)
1下载与克隆— 下载最新 Release 版本,或使用 git clone 克隆仓库
2首次配置— 运行 configure.bat(自动安装 git、ffmpeg、CUDA 环境)
3启动服务— 运行 start.bat,浏览器打开 Web 界面即可使用
4有更新时— 运行 update.bat 升级
💡 小技巧:如果遇到问题,删除 installer_files 文件夹,然后依次运行 configure.bat 和 start.bat 即可解决大多数安装问题。
✦ ◆ ✦
优缺点一览
✅ 优势
✅ 一站式完成「视频→字幕→翻译→配音」全流程
✅ 支持 100+ 语言翻译,90+ 语言语音识别
✅ 开源免费,代码透明,自托管无使用限制
✅ 语音克隆方案(F5-TTS/CosyVoice)效果逼真
✅ 提供明星参考音色库,降低克隆门槛
✅ 网页界面,无需命令行,入门友好
⚠️ 局限
⚠️ 需要本地 GPU(4GB+ 显存),纯 CPU 运行较慢
⚠️ 目前处于维护模式,新功能迭代放缓
⚠️ 依赖 yt-dlp 下载视频,需确保合法性
⚠️ 显存不够时需调低降噪等级或切换 int 计算类型
适合谁用?
01内容创作者:本地化视频,快速生成双语字幕和配音
02AI 语音应用开发者:快速测试不同 TTS / 语音克隆方案的效果差异
03翻译从业者:辅助翻译视频字幕,提升多语言内容处理效率
04科研人员:快速获取/翻译学术视频字幕,或测试语音合成效果
✦ ◆ ✦
与商业方案对比
传统 SaaS 平台 按分钟收费 Maestra / Kapwing / VEED.IO | Voice-Pro 完全免费 开源、自托管、无使用限制 |
ElevenLabs 等商业配音平台功能强大,但按量计费且价格不菲。Voice-Pro 允许在本地部署一套完全免费、自控的完整配音流水线。
结语
Voice-Pro 把当前开源语音 AI 领域几个最强的工具串联成了一个普通用户也能上手的工作流。如果需要本地化视频、测试各种 TTS 效果、或者快速生成多语言字幕,它值得一试。
项目目前处于维护模式,短期内不会有大幅功能更新,但现有功能已经相当完整。对于有 GPU 条件的内容创作者来说,这是一个高性价比的语音处理方案。
🔗 项目地址:github.com/abus-aikorea/voice-pro
📦 支持平台:Windows / Linux / Mac(有 GPU)
💰 开源免费,支持 100+ 语言翻译 + 90+ 语言语音识别
👤 AI 科技观测 | 专注 AI 工具测评与技术解读
夜雨聆风