光听不会说怎么行?让 AI 助手开口说话,不再是个哑巴

光听不会说怎么行？让 AI 助手开口说话，不再是个哑巴

上篇教会 AI「听懂你说的话」，这篇教它「开口回答你」。

你是不是也有这样的困扰：

跟 AI 聊了半小时，手指敲键盘敲得发酸？想躺在床上问问明天的天气，却懒得爬起来打字？开车时想查个信息，手根本腾不出来？

别急，今天教你让 AI 助手真正开口说话——不是那种机械的”滴滴”声，而是接近真人的语音输出。

💡 看完这篇文章，你将获得：

• ✅ 3 种语音合成方案对比（本地/云端/付费）
• ✅ 零成本本地 TTS 方案：piper 安装配置全流程
• ✅ 1.5 秒延迟的语音合成效果实测
• ✅ 与 OpenClaw 一键集成的脚本
• ✅ 本地方案 vs 云端方案的音频对比（可直接听）

一、为什么 AI 助手需要语音合成？

上篇我们讲了 ASR（语音识别）——让 AI 听懂你说的话。

但这只是对话的一半。真正的语音交互，需要双向语音：

你说话 → AI 听懂 → AI 思考 → AI 说话 → 你听懂   ↑                                      ↓  ASR                                    TTS

TTS（Text-to-Speech，语音合成） 就是让 AI “开口说话”的技术。

没有 TTS，你只能盯着屏幕看文字回复；有了 TTS，你可以解放双眼，闭着眼睛听 AI 给你讲故事。

二、三种语音合成方案对比

市面上 TTS 方案很多，我帮你筛选了三种最实用的：

方案对比表

方案	延迟	成本	音质	网络依赖
piper（本地）	~1.5秒	完全免费	良好	无
edge-tts（云端）	~2-3秒	免费	优秀	必须联网
ElevenLabs（付费）	~1秒	按量付费	极佳	必须联网

我的推荐：piper 本地方案

为什么选 piper？

1. 零成本：完全免费，没有 API 调用费用
2. 零延迟：本地运行，不依赖网络
3. 隐私安全：语音数据不出本地
4. 够用就好：中文效果已经很自然了

ElevenLabs 确实效果最好，但每个月几十刀的订阅费……对于我们这种重度用户来说，piper 性价比完胜。

三、输出设备准备

在配置 TTS 之前，先准备好”嘴巴”——输出设备。

常见输出设备

设备类型	优点	缺点	推荐场景
蓝牙音箱	便携、音质好	需配对、可能断连	客厅、卧室
USB 耳机	稳定、延迟低	有线束缚	电脑前工作
普通音箱	简单、便宜	占用音频口	固定位置使用

我的方案：USB 耳机 + 蓝牙音箱双备份

• 工作时用 USB 耳机（稳定）
• 躺平时用蓝牙音箱（方便）

四、piper 安装配置（推荐方案）

4.1 下载 piper

piper 是一个开源的本地 TTS 引擎，支持多种语言。

# 下载最新版本（以 Linux ARM64 为例）cd ~/Downloadswget https://github.com/rhasspy/piper/releases/download/v1.2.0/piper_arm64.tar.gztar -xzf piper_arm64.tar.gzmv piper ~/.local/bin/

4.2 下载中文语音模型

piper 需要语音模型才能工作。中文推荐 zh_CN-huayan-medium：

# 创建模型目录mkdir -p ~/.local/share/piper/models# 下载中文模型（约 60MB）cd ~/.local/share/piper/modelswget https://huggingface.co/rhasspy/piper-voices/resolve/main/zh/zh_CN/huayan/medium/zh_CN-huayan-medium.onnxwget https://huggingface.co/rhasspy/piper-voices/resolve/main/zh/zh_CN/huayan/medium/zh_CN-huayan-medium.onnx.json

4.3 测试语音合成

# 基础测试echo "你好，我是你的 AI 助手波特。" | \  ~/.local/bin/piper/piper \  --model ~/.local/share/piper/models/zh_CN-huayan-medium.onnx \  --output_file test.wav# 播放测试pw-play test.wav

如果听到”你好，我是你的 AI 助手波特”，恭喜你，piper 配置成功！

五、edge-tts 备用方案

有时候网络好的时候，你也想用更自然的语音。这时候可以用 edge-tts——微软 Edge 浏览器的语音合成服务，完全免费。

5.1 安装 edge-tts

pip install edge-tts

5.2 测试中文语音

# 使用晓晓语音（推荐）edge-tts --text "你好，我是你的 AI 助手波特。" \  --voice zh-CN-XiaoxiaoNeural \  --write-media test-edge.mp3# 播放pw-play test-edge.mp3

5.3 中文语音推荐

语音名称	特点	适用场景
`zh-CN-XiaoxiaoNeural`	温柔女声，自然度高	日常对话
`zh-CN-YunxiNeural`	阳光男声，活力感	资讯播报
`zh-CN-YunyangNeural`	沉稳男声，专业感	新闻朗读

六、与 OpenClaw 集成

现在把 TTS 和 OpenClaw 串联起来。

6.1 封装 TTS 脚本

创建 ~/.openclaw/workspace/scripts/tts-local.sh：

#!/bin/bash# TTS 本地方案 - piper 优先，edge-tts 备用TEXT="$1"OUTPUT="${2:-/tmp/tts-output.wav}"# 优先使用 piper（本地）if command -v ~/.local/bin/piper/piper &> /dev/null; then    echo "$TEXT" | \        ~/.local/bin/piper/piper \        --model ~/.local/share/piper/models/zh_CN-huayan-medium.onnx \        --output_file "$OUTPUT" && \    pw-play "$OUTPUT"    exit 0fi# 备用：edge-tts（需要网络）if command -v edge-tts &> /dev/null; then    edge-tts --text "$TEXT" \        --voice zh-CN-XiaoxiaoNeural \        --write-media /tmp/tts-edge.mp3 && \    pw-play /tmp/tts-edge.mp3    exit 0fiecho "TTS 引擎未安装，请安装 piper 或 edge-tts"exit 1

6.2 使用方式

# 赋予执行权限chmod +x ~/.openclaw/workspace/scripts/tts-local.sh# 测试~/.openclaw/workspace/scripts/tts-local.sh "今天天气不错，适合出去走走。"

6.3 OpenClaw 自动调用

在 OpenClaw 配置中，可以设置 AI 回复后自动调用 TTS：

1. 编辑 ~/.openclaw/config.yaml
2. 添加 TTS 插件配置
3. AI 每次回复后，自动语音播报

七、ASR + TTS = 全本地语音对话闭环

还记得上篇的 ASR（语音识别）吗？

┌─────────────────────────────────────────────────┐│              完整语音对话流程                      │├─────────────────────────────────────────────────┤│                                                 ││  你说话 ──→ ASR ──→ AI 理解 ──→ AI 思考         ││    ↑                                      │     ││    │                                      ↓     ││  你听懂 ←── TTS ←── AI 回答 ←─────────────┘     ││                                                 │└─────────────────────────────────────────────────┘

现在你拥有了：

• ✅ ASR：本地语音识别（whisper.cpp）
• ✅ TTS：本地语音合成（piper）

这意味着：

• 🎯 完全免费：没有 API 调用费用
• 🎯 完全本地：不依赖网络，数据不出本地
• 🎯 完全私密：对话内容只有你知道

八、听一听：本地方案 vs 云端方案

耳听为实，下面两段音频是同样的内容，用不同方案生成的：

本地方案（piper）

🎵 波特问候 – piper.wav（348KB）

这段音频用 piper + zh_CN-huayan-medium 模型生成延迟约 1.5 秒，完全本地运行

云端方案（edge-tts）

🎵 波特问候 – edge.mp3（54KB）

这段音频用 edge-tts + 晓晓语音生成延迟约 2-3 秒，需要网络

我的选择：日常使用 piper（够用 + 免费 + 快），需要更自然语音时切换 edge-tts。

九、常见问题解答

Q1：piper 中文效果够用吗？

答：对于日常对话、资讯播报完全够用。虽然不如 ElevenLabs 自然，但已经没有明显的机器感。

Q2：延迟 1.5 秒会不会太慢？

答：人类对话本身就有停顿，1.5 秒完全在可接受范围内。而且本地运行避免了网络波动导致的卡顿。

Q3：能用在自己的项目里吗？

答：piper 是开源的，可以商用。edge-tts 微软没有明确禁止，但建议个人使用。

Q4：树莓派能跑吗？

答：可以！piper 对硬件要求不高，树莓派 4B 跑起来没问题。

💬 互动时间

你现在用什么方式跟 AI 对话？

• [ ] A. 纯文字，打字输入
• [ ] B. 语音输入 + 文字输出
• [ ] C. 语音输入 + 语音输出（我也要！）

欢迎在评论区留言：

1. 你最希望 AI 助手在什么场景下”开口说话”？
2. 对语音合成的音质有什么要求？自然？还是够用就行？
3. 还有哪些 AI 助手功能你想了解？

觉得有用？点个「在看」让更多人看到 👇

下期预告：《OpenClaw 部署硬件选择指南——树莓派、旧电脑、Mac Mini，哪个更适合你？》

关注公众号，获取更多 AI 助手技巧！