光听不会说怎么行?让 AI 助手开口说话,不再是个哑巴
光听不会说怎么行?让 AI 助手开口说话,不再是个哑巴

上篇教会 AI「听懂你说的话」,这篇教它「开口回答你」。
你是不是也有这样的困扰:
跟 AI 聊了半小时,手指敲键盘敲得发酸?想躺在床上问问明天的天气,却懒得爬起来打字?开车时想查个信息,手根本腾不出来?
别急,今天教你让 AI 助手真正开口说话——不是那种机械的”滴滴”声,而是接近真人的语音输出。
💡 看完这篇文章,你将获得:
-
• ✅ 3 种语音合成方案对比(本地/云端/付费) -
• ✅ 零成本本地 TTS 方案:piper 安装配置全流程 -
• ✅ 1.5 秒延迟的语音合成效果实测 -
• ✅ 与 OpenClaw 一键集成的脚本 -
• ✅ 本地方案 vs 云端方案的音频对比(可直接听)
一、为什么 AI 助手需要语音合成?
上篇我们讲了 ASR(语音识别)——让 AI 听懂你说的话。
但这只是对话的一半。真正的语音交互,需要双向语音:
你说话 → AI 听懂 → AI 思考 → AI 说话 → 你听懂 ↑ ↓ ASR TTS
TTS(Text-to-Speech,语音合成) 就是让 AI “开口说话”的技术。
没有 TTS,你只能盯着屏幕看文字回复;有了 TTS,你可以解放双眼,闭着眼睛听 AI 给你讲故事。
二、三种语音合成方案对比
市面上 TTS 方案很多,我帮你筛选了三种最实用的:
方案对比表
|
|
|
|
|
|
|---|---|---|---|---|
| piper(本地) |
|
|
|
|
| edge-tts(云端) |
|
|
|
|
| ElevenLabs(付费) |
|
|
|
|
我的推荐:piper 本地方案
为什么选 piper?
-
1. 零成本:完全免费,没有 API 调用费用 -
2. 零延迟:本地运行,不依赖网络 -
3. 隐私安全:语音数据不出本地 -
4. 够用就好:中文效果已经很自然了
ElevenLabs 确实效果最好,但每个月几十刀的订阅费……对于我们这种重度用户来说,piper 性价比完胜。
三、输出设备准备
在配置 TTS 之前,先准备好”嘴巴”——输出设备。
常见输出设备
|
|
|
|
|
|---|---|---|---|
| 蓝牙音箱 |
|
|
|
| USB 耳机 |
|
|
|
| 普通音箱 |
|
|
|
我的方案:USB 耳机 + 蓝牙音箱双备份
-
• 工作时用 USB 耳机(稳定) -
• 躺平时用蓝牙音箱(方便)
四、piper 安装配置(推荐方案)
4.1 下载 piper
piper 是一个开源的本地 TTS 引擎,支持多种语言。
# 下载最新版本(以 Linux ARM64 为例)cd ~/Downloadswget https://github.com/rhasspy/piper/releases/download/v1.2.0/piper_arm64.tar.gztar -xzf piper_arm64.tar.gzmv piper ~/.local/bin/
4.2 下载中文语音模型
piper 需要语音模型才能工作。中文推荐 zh_CN-huayan-medium:
# 创建模型目录mkdir -p ~/.local/share/piper/models# 下载中文模型(约 60MB)cd ~/.local/share/piper/modelswget https://huggingface.co/rhasspy/piper-voices/resolve/main/zh/zh_CN/huayan/medium/zh_CN-huayan-medium.onnxwget https://huggingface.co/rhasspy/piper-voices/resolve/main/zh/zh_CN/huayan/medium/zh_CN-huayan-medium.onnx.json
4.3 测试语音合成
# 基础测试echo "你好,我是你的 AI 助手波特。" | \ ~/.local/bin/piper/piper \ --model ~/.local/share/piper/models/zh_CN-huayan-medium.onnx \ --output_file test.wav# 播放测试pw-play test.wav
如果听到”你好,我是你的 AI 助手波特”,恭喜你,piper 配置成功!
五、edge-tts 备用方案
有时候网络好的时候,你也想用更自然的语音。这时候可以用 edge-tts——微软 Edge 浏览器的语音合成服务,完全免费。
5.1 安装 edge-tts
pip install edge-tts
5.2 测试中文语音
# 使用晓晓语音(推荐)edge-tts --text "你好,我是你的 AI 助手波特。" \ --voice zh-CN-XiaoxiaoNeural \ --write-media test-edge.mp3# 播放pw-play test-edge.mp3
5.3 中文语音推荐
|
|
|
|
|---|---|---|
zh-CN-XiaoxiaoNeural |
|
|
zh-CN-YunxiNeural |
|
|
zh-CN-YunyangNeural |
|
|
六、与 OpenClaw 集成
现在把 TTS 和 OpenClaw 串联起来。
6.1 封装 TTS 脚本
创建 ~/.openclaw/workspace/scripts/tts-local.sh:
#!/bin/bash# TTS 本地方案 - piper 优先,edge-tts 备用TEXT="$1"OUTPUT="${2:-/tmp/tts-output.wav}"# 优先使用 piper(本地)if command -v ~/.local/bin/piper/piper &> /dev/null; then echo "$TEXT" | \ ~/.local/bin/piper/piper \ --model ~/.local/share/piper/models/zh_CN-huayan-medium.onnx \ --output_file "$OUTPUT" && \ pw-play "$OUTPUT" exit 0fi# 备用:edge-tts(需要网络)if command -v edge-tts &> /dev/null; then edge-tts --text "$TEXT" \ --voice zh-CN-XiaoxiaoNeural \ --write-media /tmp/tts-edge.mp3 && \ pw-play /tmp/tts-edge.mp3 exit 0fiecho "TTS 引擎未安装,请安装 piper 或 edge-tts"exit 1
6.2 使用方式
# 赋予执行权限chmod +x ~/.openclaw/workspace/scripts/tts-local.sh# 测试~/.openclaw/workspace/scripts/tts-local.sh "今天天气不错,适合出去走走。"
6.3 OpenClaw 自动调用
在 OpenClaw 配置中,可以设置 AI 回复后自动调用 TTS:
-
1. 编辑 ~/.openclaw/config.yaml -
2. 添加 TTS 插件配置 -
3. AI 每次回复后,自动语音播报
七、ASR + TTS = 全本地语音对话闭环
还记得上篇的 ASR(语音识别)吗?
┌─────────────────────────────────────────────────┐│ 完整语音对话流程 │├─────────────────────────────────────────────────┤│ ││ 你说话 ──→ ASR ──→ AI 理解 ──→ AI 思考 ││ ↑ │ ││ │ ↓ ││ 你听懂 ←── TTS ←── AI 回答 ←─────────────┘ ││ │└─────────────────────────────────────────────────┘
现在你拥有了:
-
• ✅ ASR:本地语音识别(whisper.cpp) -
• ✅ TTS:本地语音合成(piper)
这意味着:
-
• 🎯 完全免费:没有 API 调用费用 -
• 🎯 完全本地:不依赖网络,数据不出本地 -
• 🎯 完全私密:对话内容只有你知道
八、听一听:本地方案 vs 云端方案
耳听为实,下面两段音频是同样的内容,用不同方案生成的:
本地方案(piper)
🎵 波特问候 – piper.wav(348KB)
这段音频用 piper + zh_CN-huayan-medium 模型生成延迟约 1.5 秒,完全本地运行
云端方案(edge-tts)
🎵 波特问候 – edge.mp3(54KB)
这段音频用 edge-tts + 晓晓语音生成延迟约 2-3 秒,需要网络
我的选择:日常使用 piper(够用 + 免费 + 快),需要更自然语音时切换 edge-tts。
九、常见问题解答
Q1:piper 中文效果够用吗?
答:对于日常对话、资讯播报完全够用。虽然不如 ElevenLabs 自然,但已经没有明显的机器感。
Q2:延迟 1.5 秒会不会太慢?
答:人类对话本身就有停顿,1.5 秒完全在可接受范围内。而且本地运行避免了网络波动导致的卡顿。
Q3:能用在自己的项目里吗?
答:piper 是开源的,可以商用。edge-tts 微软没有明确禁止,但建议个人使用。
Q4:树莓派能跑吗?
答:可以!piper 对硬件要求不高,树莓派 4B 跑起来没问题。
💬 互动时间
你现在用什么方式跟 AI 对话?
-
• [ ] A. 纯文字,打字输入 -
• [ ] B. 语音输入 + 文字输出 -
• [ ] C. 语音输入 + 语音输出(我也要!)
欢迎在评论区留言:
-
1. 你最希望 AI 助手在什么场景下”开口说话”? -
2. 对语音合成的音质有什么要求?自然?还是够用就行? -
3. 还有哪些 AI 助手功能你想了解?
觉得有用?点个「在看」让更多人看到 👇
下期预告:《OpenClaw 部署硬件选择指南——树莓派、旧电脑、Mac Mini,哪个更适合你?》
关注公众号,获取更多 AI 助手技巧!
夜雨聆风