AI数字人实时直播系统一语音驱动口型、多TTS引擎、RTMP推流自己制作

大家好，我是阿四。做直播一年多了，最头疼的事你们猜是什么？不是没内容，是我一个人实在播不动。每天坐三四小时，嗓子哑了，脸也僵了，关键是——没法同时做两个号。

上个月我试了一个本地部署的数字人方案，结果踩了不少坑。有的TTS延迟高，有的唇形对不上，甚至有一次推流出去，画面嘴巴不动，弹幕全在问“主播是不是网卡了”……特别尴尬。

就今天我找到了一个叫 LiveTalking 的开源项目。它支持 Wav2Lip 本地唇形驱动，配合 WebRTC 实时推流，延迟极低。最关键的是——TTS完全免费，用微软 EdgeTTS 接口，声音自然，不用花一分钱买API。

而且它可以在 GTX TITAN X 12G显卡上流畅运行，batch_size调到32，推理速度很快。我把自己一段1分钟正面视频上传，训练了一个专属数字人Avatar，现在只要输入文字，它就能实时说话、对口型。

# LiveTalking 实时数字人使用教程

> Wav2Lip 模型 · WebRTC 实时驱动 · 本地免费 · 最后更新 2026-06-03

---

## 🚀 快速开始（3 步）

### 1. 安装 Python 环境
系统已配好虚拟环境。如丢失，运行：

```bash
双击 一键启动直播.bat → 自动创建虚拟环境并安装依赖

2. 启动服务

双击项目目录下的 一键启动直播.bat，选择模式 1（WebRTC），首页自动打开。

3. 与数字人对话

首页输入文字，点发送 → 数字人实时说话。语音由 EdgeTTS 免费合成，唇形由 Wav2Lip 本地驱动。

💡 完整包备份：LiveTalking_完整包.zip（1.15 GB，含模型 + 代码），关机不会丢失。

📋 核心功能

功能	说明	费用
TTS 文字转语音	默认 EdgeTTS，微软免费接口	🟢 免费
Wav2Lip 唇形驱动	本地 GPU（GTX TITAN X 12GB）推理	🟢 免费
WebRTC 实时流	浏览器内实时渲染，无需推流工具	🟢 免费
Avatar 生成	上传你的视频，训练专属数字人	🟢 免费
LLM 智能对话	通义千问 qwen-plus（需 API Key）	🟠 需 Key

👤 生成自己的数字人形象

启动服务后访问 http://localhost:7860/avatar.html
选择模型 Wav2Lip，填写 Avatar ID（如 my_face）
上传一段你的视频（建议：正面、光线均匀、嘴唇清晰、1-3 分钟）
点击“提交生成任务”，等待完成
回到首页，刷新页面，在 Avatar 下拉框中选择你刚创建的 my_face

⚠️ 视频要求： 正面拍摄、光线均匀、无遮挡、嘴唇动作清晰可见。分辨率 720p 以上效果更好。

⚙️ 启动参数说明

参数	默认值	说明
`--model`	wav2lip	模型：wav2lip / musetalk / ultralight
`--avatar_id`	wav2lip256_avatar1	你的数字人目录名（见 data/avatars/）
`--transport`	webrtc	输出：webrtc / rtmp / virtualcam
`--listenport`	7860	网页访问端口
`--tts`	edgetts	TTS 引擎（edgetts 免费）
`--batch_size`	16（优化为 32）	推理批次，越大越快，吃显存
`--fps`	25	输出帧率

手动启动示例（高性能模式）

python app.py --model wav2lip --avatar_id wav2lip256_avatar1 --transport webrtc --listenport 7860 --batch_size 32

🔊 TTS 语音引擎切换

引擎	参数值	费用	说明
Edge TTS	`edgetts`	🟢 免费	默认，微软免费，质量好
GPT-SoVITS	`gpt-sovits`	🟢 免费	需本地部署 SoVITS 服务
CosyVoice	`cosyvoice`	🟢 免费	需本地部署 CosyVoice
FishTTS	`fishtts`	🟢 免费	需本地部署 FishTTS
腾讯云	`tencent`	🟠 需 Key	腾讯云 TTS API
豆包	`doubao`	🟠 需 Key	字节豆包 TTS API

切换 TTS 示例

python app.py --model wav2lip --transport webrtc --tts edgetts --REF_FILE "zh-CN-YunxiaNeural"

📡 RTMP 直播推流（抖音/B站/视频号）

在直播平台获取 RTMP 推流地址和串流密钥
运行 一键启动直播.bat，选择模式 2
粘贴完整的 RTMP 地址（含密钥）
在直播平台开始直播

手动推流

python app.py --model wav2lip --avatar_id wav2lip256_avatar1 --transport rtmp --push_url "rtmp://xxx.com/live/key"

❓ 常见问题

启动后一直显示“加载中”或卡住？

首次启动需预热模型（warm_up），GTX TITAN X 约需 30-60 秒。之后每次重启仅需几秒。

Avatar 生成任务卡在 40%？

通常是人脸检测阶段耗时较长，或视频中人脸不够清晰。建议用正面光照充足的视频重试。

如何更换默认数字人？

修改启动命令中的 --avatar_id，或通过网页 API 动态切换。

模型文件在哪？

models/wav2lip.pth（205MB）和 models/s3fd.pth（86MB）。已打包在完整包中。

关机后是否需要重新配置？

解压 LiveTalking_完整包.zip 到任意目录 → 运行 一键安装环境.bat 重建虚拟环境 → 启动。

📦 打包文件清单

文件	大小	说明
LiveTalking_完整包.zip	1.15 GB	项目代码 + 模型 + Avatar，不含虚拟环境
一键启动直播.bat	2 KB	图形化菜单启动（3 种模式）
一键安装环境.bat	—	重建 Python 虚拟环境 + 安装依赖
LiveTalking_使用教程.html	—	离线可读的完整教程

📌 总结

LiveTalking 是一套完全本地运行的实时数字人解决方案，支持：

✅ 免费 TTS（EdgeTTS）
✅ Wav2Lip 高精度唇形驱动
✅ WebRTC 实时浏览器交互
✅ 自定义 Avatar 训练
✅ RTMP 直播推流

适合直播、虚拟主播、数字人客服等场景。所有模型本地运行，保护隐私且无额外费用。

「260603期」链接：LiveTalking

https://pan.quark.cn/s/32fd2ae1ed78

现在我用这套实时数字人系统做三件事：

一是24小时直播带货，文字批量输入，数字人自动介绍商品；

二是短视频口播，写好文案一键生成，不用真人出镜；

三是虚拟客服，接入大模型API，可以自动回答用户问题。

如果你也想尝试，记得搜 LiveTalking 使用教程，或者 Wav2Lip 本地部署，网上有完整包，1.15GB，模型和代码都打包好了。