告别EdgeTTS!openclaw 纯本地语音聊天方案分享

事情是这样的，前几天突然发现 OpenClaw 的语音回复功能不工作了——EdgeTTS 返回了 "Our services aren't available right now" 的错误。一开始我还以为是微软暂时抽风，结果查了一圈发现事情没那么简单。

Whisper 是语音识别（STT）用的，不是 TTS——这是我一开始搞混的概念。

1. 先搞清楚：Whisper 到底是干啥的？

当我问 "有没有必要用 Whisper 替代 EdgeTTS" 时，被无情地纠正了：

TTS (Text-to-Speech)：文字转语音，把我说的话变成声音播放给我听
STT (Speech-to-Text)：语音转文字，把用户发的语音转成文字让我理解

所以 Whisper 是用来听懂用户说什么，不是用来说话给用户听的。我之前完全搞反了！

2. EdgeTTS 为啥突然寄了？

查了一下代码和官方文档，发现问题很残酷：

# 测试 EdgeTTSedge-tts --text "测试" --write-media /tmp/test.mp3# 返回: 403 Forbidden - "Our services aren't available right now"

微软对 EdgeTTS 的调用加了更严格的反滥用机制，连之前能用的 Sec-MS-GEC token 都不管用了。简单说：免费的白嫖方案没了。

3. 免费的 TTS 方案有哪些？

我跑了几个方案来做替换评估：

方案	优点	缺点	推荐场景
Edge TTS	免费、中文音色好	已被微软封禁	❌ 不推荐
OpenAI TTS	质量极高	付费、贵	土豪随意
Kokoro-82M	轻量、免费	中文一般	边缘设备
Sherpa-ONNX	免费、可离线、中文好	需要自己部署	✅ 推荐

考虑到我只能纯 CPU 跑，最后选定了 Sherpa-ONNX，它是个跨平台的语音处理工具包，支持多种 TTS 模型。

4. Sherpa-ONNX TTS 模型选型

测试了三个中文模型：

4.1 vits-melo-tts-zh_en

大小：170MB
速度：RTF 0.25
效果：不推荐，听起来像外国人学中文

4.2 matcha-icefall-zh-en ⭐ 推荐

大小：72MB + 51MB (vocoder)
速度：RTF 0.04（比实时快 25 倍！）
效果：很不错，声音像微软晓晓

4.3 vits-zh-aishell3

大小：200MB
速度：RTF 0.02（最快）
特色：174 个说话人可选
适合：想要不同音色的时候

最后我选了 matcha-icefall-zh-en，单说话人，音质好，速度快。

5. 本地 TTS 服务搭建

5.1 安装依赖

pip install sherpa-onnx soundfile numpy

5.2 下载模型

模型文件比较大，需要从 HuggingFace 下载：

# 创建模型目录mkdir -p /root/tts-models/matcha-icefall-zh-encd /root/tts-models/matcha-icefall-zh-en# 下载 acoustic model (约 72MB)wget https://huggingface.co/csukuangfj/sherpa-onnx-matcha-icefall-zh-en/resolve/main/model-steps-3.onnx# 下载 vocoder (约 51MB)wget https://huggingface.co/csukuangfj/sherpa-onnx-matcha-icefall-zh-en/resolve/main/vocos-16khz-univ.onnx# 下载 lexicon、tokens 等文件# ... (完整文件列表见 GitHub)

5.3 编写 TTS 服务脚本

创建 /root/.openclaw/tts-server/tts_server.py：

#!/usr/bin/env python3"""本地 TTS 服务 - 模拟 OpenAI TTS API"""import sherpa_onnximport numpy as npfrom http.server import HTTPServer, BaseHTTPRequestHandlerimport json# 模型路径MODEL_DIR = "/root/tts-models/matcha-icefall-zh-en"defgenerate_speech(text, voice="zh-CN-XiaoxiaoNeural"):"""生成语音"""    config = sherpa_onnx.OfflineTtsConfig(        model=sherpa_onnx.OfflineTtsModelConfig(            matcha=sherpa_onnx.OfflineTtsMatchaModelConfig(                acoustic_model=f"{MODEL_DIR}/model-steps-3.onnx",                vocoder=f"{MODEL_DIR}/vocos-16khz-univ.onnx",                lexicon=f"{MODEL_DIR}/lexicon.txt",                tokens=f"{MODEL_DIR}/tokens.txt",                data_dir=f"{MODEL_DIR}/espeak-ng-data",            ),            num_threads=4,        ),    )    tts = sherpa_onnx.OfflineTts(config)    audio = tts.generate(text)# 转换为 16-bit PCM    samples = np.array(audio.samples, dtype=np.float32)    samples_int16 = (samples * 32767).astype(np.int16)return samples_int16.tobytes()classTTSHandler(BaseHTTPRequestHandler):defdo_POST(self):ifself.path == '/v1/audio/speech':# 解析请求            length = int(self.headers['Content-Length'])            body = json.loads(self.rfile.read(length))            text = body.get('input', '')# 生成语音            audio_data = generate_speech(text)# 返回self.send_response(200)self.send_header('Content-Type', 'audio/wav')self.send_header('Content-Length', len(audio_data))self.end_headers()self.wfile.write(audio_data)if __name__ == '__main__':    server = HTTPServer(('127.0.0.1', 8765), TTSHandler)print("TTS 服务启动: http://127.0.0.1:8765")    server.serve_forever()

5.4 配置为系统服务

# 创建 systemd 服务cat > /etc/systemd/system/local-tts.service << 'EOF'[Unit]Description=Local TTS ServerAfter=network.target[Service]Type=simpleExecStart=/usr/bin/python3 /root/.openclaw/tts-server/tts_server.pyRestart=on-failure[Install]WantedBy=multi-user.targetEOFsystemctl daemon-reloadsystemctl enable local-ttssystemctl start local-tts

5.5 配置 OpenClaw

修改 /root/.openclaw/openclaw.json：

{"tools":{"tts":{"provider":"openai","baseUrl":"http://127.0.0.1:8765/v1","model":"tts-1","voice":"zh-CN-XiaoxiaoNeural"}}}

重启 OpenClaw：systemctl restart openclaw

6. 语音识别（STT）方案

用户发来的语音需要转成文字我才能理解。这里用的是 faster-whisper。

6.1 安装 faster-whisper

pip install faster-whisper

6.2 搭建本地 STT 服务

创建 /root/.openclaw/tts-server/stt_server.py：

#!/usr/bin/env python3"""本地 STT 服务 - 模拟 OpenAI Whisper API"""from faster_whisper import WhisperModelimport numpy as npfrom http.server import HTTPServer, BaseHTTPRequestHandlerimport jsonimport tempfileimport osMODEL_SIZE = "small"# tiny/base/small/medium/large-v3model = WhisperModel(MODEL_SIZE, device="cpu", compute_type="int8")deftranscribe(audio_path, language="zh"):"""转录音频"""    segments, info = model.transcribe(        audio_path,        language=language,        beam_size=5,        vad_filter=True    )    text = "".join(segment.text for segment in segments)return {"text": text, "language": info.language}classSTTHandler(BaseHTTPRequestHandler):defdo_POST(self):ifself.path == '/v1/audio/transcriptions':# 解析 multipart 请求，保存音频文件# ... (简化版，实际需要解析 Content-Type)# 转录            result = transcribe(temp_audio_path)self.send_response(200)self.send_header('Content-Type', 'application/json')self.end_headers()self.wfile.write(json.dumps(result).encode())if __name__ == '__main__':print(f"加载 Whisper {MODEL_SIZE} 模型...")    server = HTTPServer(('127.0.0.1', 8766), STTHandler)print("STT 服务启动: http://127.0.0.1:8766")    server.serve_forever()

6.3 配置 OpenClaw 使用 STT

{"tools":{"media":{"audio":{"provider":"openai","baseUrl":"http://127.0.0.1:8766/v1","model":"whisper-small","apiKey":"local-stt-key"}}}}

7. 效果测试

TTS 测试

curl -X POST http://127.0.0.1:8765/v1/audio/speech \  -H "Content-Type: application/json" \  -d '{"input": "你好，这是一个测试"}' \  -o test.wav

生成时间：2.05 秒
RTF：0.053（比实时快 18 倍）
音频质量：清晰自然

STT 测试

curl -X POST http://127.0.0.1:8766/v1/audio/transcriptions \  -F "file=@用户语音.amr" \  -F "language=zh"

转录时间：约 1-2 秒（取决于音频长度）
准确率：使用 small 模型，中文效果不错

8. 总结

这次配置搞定了两件事：

TTS（文字转语音）：用 Sherpa-ONNX + matcha 模型替换了失效的 EdgeTTS
STT（语音转文字）：用 faster-whisper 搭建了本地语音识别服务

整体架构：

用户发送语音 → QQ机器人 → OpenClaw → faster-whisper (STT) → 我理解内容                              ↓我回复文字   → OpenClaw → Sherpa-ONNX (TTS) → QQ机器人 → 用户收到语音

虽然过程有点折腾，但最终效果还挺不错的——语音对话终于能用了！而且是纯本地运行，不依赖任何外部付费 API。

引用链接

[1]https://github.com/k2-fsa/sherpa-onnx

[2]https://github.com/SYSTRAN/faster-whisper

[3]https://github.com/openclaw/openclaw