想象一下:你在飞书上给你的 Agent 发了一条消息,它不仅回复了文字,还直接把回复读给你听——开车的时候、跑步的时候、眼睛忙的时候,文字不再是唯一选择。
这个场景,现在零门槛就能实现。
4月16日,OpenClaw 正式将 Google Gemini TTS 纳入bundled插件,成为继 ElevenLabs、OpenAI、Microsoft、MiniMax 之后的第五个语音合成选项。对于已经在用 OpenClaw 的用户来说,这意味着语音能力又多了一个免费、稳定、配置简单的入口。
这篇文章,我会讲清楚三件事:Gemini TTS 是什么、3步配置指南、以及它能用来做什么。
一、 Gemini TTS 是什么,为什么值得现在关注
OpenClaw 的语音合成能力其实早就有了。
目前支持的 TTS 提供商包括:
| 提供商 | 特点 |
|---|---|
| ElevenLabs | 声音自然度高,专业级 |
| OpenAI | GPT-4o-mini-tts,集成方便 |
| Microsoft Edge TTS | 不需要 API key,免费但无 SLA |
| MiniMax | 国内访问快 |
| Gemini TTS | 4月16日新加入,Google 官方支持 |
Gemini TTS 的核心优势在于两点:
第一,配置简单。 只要你有 Google API Key(Gemini 和 TTS 共用同一个 Key),就能直接启用。不需要额外注册账号,不需要折腾复杂的认证流程。
第二,多语言支持。 Gemini 模型的语音合成天然支持多语言切换,对于有多语言场景的 Agent 应用来说,一个配置就能覆盖,不需要分别对接不同服务。
对于国内用户来说,还有一个现实的好处:Gemini API 目前有免费额度,如果你已经有 Gemini Key,不需要额外付费就能用上 TTS。
二、3步配置实战
以下配置基于 OpenClaw 最新版(2026.4.16+),配置文件为 ~/.openclaw/openclaw.json(主配置文件)。
第一步:确认 OpenClaw 已更新
openclaw update确认版本在 2026.4.16 或更高。如果版本过低,Gemini TTS 选项不会出现在配置中。
第二步:配置 messages.tts
在 ~/.openclaw/openclaw.json 中加入以下配置:
{
"messages": {
"tts": {
"auto": "always",
"provider": "google",
"providers": {
"google": {
"apiKey": "你的GEMINI_API_KEY",
"model": "gemini-3.1-flash-tts-preview",
"voiceName": "Kore"
}
}
}
}
}关键字段说明:
- •
provider: "google":固定写法,对应 OpenClaw 内置的 Google TTS 提供商- •
model:Gemini TTS 模型,默认为gemini-3.1-flash-tts-preview- •
voiceName:音色名称,可选,默认为Kore(英文女声)- • 如果你已经在环境变量中设置了
GEMINI_API_KEY,apiKey字段可以省略,OpenClaw 会自动回退读取
auto: "always" 表示所有回复自动语音播报。如果只想在特定场景启用,可以改为 "on" 然后通过 /tts on 手动开启。
API Key 可以在 Google AI Studio 获取:https://aistudio.google.com/app/apikey
第三步:验证语音输出
重启 OpenClaw 后,给你的 Agent 发一条消息。如果配置正确,回复会同时附带语音。不同 channel(飞书、Telegram、Discord 等)的语音表现可能略有差异,取决于该 channel 是否支持音频消息。
如果发现没有声音,按以下顺序排查:
- 1. 确认
messages.tts.auto已设为"always"或手动开了/tts on - 2. 确认
provider拼写正确("google"不是"gemini") - 3. 确认 API Key 有效且额度未耗尽
- 4. 检查 Agent 对应 channel 是否支持音频消息
三、 Gemini TTS 能做什么
配置好之后,你可以用它做这些事:
1. 消息语音播报
最直接的使用场景。当你在开车、做饭、或者手上有其他事情时,Agent 的回复直接读给你听,不需要停下来盯着屏幕。这在飞书/Telegram 等移动场景下特别实用。
2. 语音交互
如果你的 Agent 设计支持语音输入(部分 channel 可以),加上 Gemini TTS 之后,就形成了完整的语音对话闭环——说一句话,Agent 用语音回答,像打电话一样。这是很多 AI 助手在探索的方向。
3. 音频内容生产
对于做内容的朋友,可以用 Agent 生成文字内容,再通过 TTS 转成语音,节省配音时间。比如生成一篇公众号文章摘要,用 TTS 朗读出来,作为音频版发布。
4. 无障碍场景
视觉障碍或阅读障碍用户,可以通过语音方式使用 Agent,降低使用门槛。这是 TTS 能力最有人文价值的应用方向之一。
四、 五大 TTS 横向对比:怎么选
如果你在犹豫选哪个 TTS 提供商,下面这张表可以帮你做判断:
| ElevenLabs | OpenAI | Gemini | Microsoft | MiniMax | |
|---|---|---|---|---|---|
| 费用 | 付费 | 付费 | 免费额度 | 免费 | 国内计费 |
| 声音自然度 | ★★★★★ | ★★★★ | ★★★☆ | ★★★ | ★★★☆ |
| 中文支持 | 良好 | 良好 | 良好 | 一般 | 良好 |
| 配置难度 | 低 | 低 | 低 | 最低(免 Key) | 低 |
| 适用场景 | 专业配音 | 通用对话 | 多语言/免费优先 | 轻度尝鲜 | 国内优先 |
结论:
- • 如果你追求声音质量,选 ElevenLabs
- • 如果你已经用 OpenAI 系列模型,选 OpenAI TTS
- • 如果你想免费、用最少的配置搞定,选 Gemini TTS(也就是本文的重点)
- • 如果你懒得配 API Key,只想快速测试,选 Microsoft Edge TTS(不需要任何 Key)
- • 如果你在国内、注重响应速度,选 MiniMax
对于大多数 OpenClaw 用户来说,如果已经有 Gemini Key,Gemini TTS 是性价比最高的选择。
五、常见问题与避坑指南
Q1:GEMINI_API_KEY 去哪获取?是否免费?
A:登录 Google AI Studio( https://aistudio.google.com/app/apikey ),点击 Create API Key 即可。Gemini 有免费额度,TTS 也在免费范围内。免费额度用完后才会开始计费。
Q2:配置后没有声音,怎么排查?
A:按这个顺序排查:① channel 是否支持音频消息(Telegram 支持,飞书图文消息可能有问题)② API Key 是否有效 ③ 重启 OpenClaw ④ 查看日志确认 TTS 是否被调用。
Q3:免费额度够不够用?
A:Gemini 免费额度较大,普通日常使用很难超限。如果你的 Agent 使用频率极高(比如每天几百条消息),建议关注用量面板。如果接近上限,提前切换到其他 Provider 作为备用。
Q4:声音风格能否定制?
A:Gemini TTS 目前不支持像 ElevenLabs 那样精细的 voice settings 调整(如 stability、style 等)。如果你对声音表现有较高要求,建议选 ElevenLabs。
结语
Gemini TTS 的意义不在于它比 ElevenLabs 声音更好,而在于它让 OpenClaw 的语音能力又多了一个零门槛的入口。
你已经有一个 Gemini Key?加两行配置,Agent 就能开口说话。
你还没有 Gemini Key?去 AI Studio 创建一个,整个过程不超过三分钟。
语音交互不是未来,它已经在 OpenClaw 里了。3步配置,建议现在就试试。
本文测试基于 OpenClaw 2026.4.16+,配置信息如有更新,请以官方文档为准。
夜雨聆风