OpenClaw 语音:从唤醒、理解生成到打电话与加入会议-夜雨聆风

OpenClaw 语音:从唤醒、理解生成到打电话与加入会议

2026 年 OpenClaw 把一个真实运行的语音 agent 摊开在 GitHub 上：6 个语音模块、13 家 TTS provider、完整电话路径、realtime + consult 双层实时架构。本期把它逐层拆开。

§ 0. 只看语音栈，不展开 IM 与编排

打开 OpenClaw 仓库，6 个跟语音有关的模块单独成栈，这篇只拆这一栈。IM 桥接、agent 编排、provider 路由这次不展开。

2026 Q1 做语音 agent，模型层已经不是瓶颈——OpenAI Realtime / Gemini Live 稳定给到亚秒级双工，gpt-4o-mini-tts / Gemini TTS 能通过 prompt 直接控音色和情绪。真正卡的是工程缝合层：S2S 模型的 barge-in 容易被咳嗽 / 附和词误触；长耗时 tool call 塞进 realtime session 会阻塞音频通道；PSTN 入口的 8 kHz μ-law 重采样要做到毫秒级、不能依赖 ffmpeg 启动；多端唤醒词要强一致、不能各端各存；13 家 TTS provider 能力不齐（voice clone、deterministic seed、native Opus），得在 channel 抽象层抹平。OpenClaw 这条仓库给的工程答案是 realtime + consult 双层 + Gateway 中枢 + provider capability advertising。开源里把这套都跑通的项目本来不多。

先看它能干嘛，再读代码。

§ 1. OpenClaw 语音能做什么

下面 8 件事都在 main 分支默认运行、release notes 可查。

1.1 替你接电话

绑定 Twilio / Telnyx / Plivo 之后，agent 真接 PSTN 电话：白名单决定谁能打进来，outbound 主动呼出做通知或多轮交流。Twilio 路径下 inbound 还可以直接挂 OpenAI Realtime API 或 Gemini Live API 做亚秒级双工对话；Telnyx / Plivo 当前走各自 provider-native 的 listening / TTS / webhook 流程。是 carrier 真发到电信网络的呼叫，不是合成场景。

真实用例：候选人电话筛面试；客户结果回访；你忙着不能接的来电它先问清楚再短信摘要给你；老人电话提醒服药。

1.2 进 Google Meet 当参会者

OpenClaw 2026-04-25 上线的新能力：用个人 Google 账号授权后，agent 作为参会者加入 Meet。它听全程发言、记笔记、按你给的指令插话、会后导出 transcript / 行动项 / 出席统计。

真实用例：你不在的会议它代你听；多语言会议里它做实时翻译；技术评审里它对着代码仓库给即时反馈。

1.3 在 Discord 语音频道里随叫随到

/vc 命令让 agent 加入服务器的语音频道，整个频道的人都能直接跟它语音聊——查文档、查时区、查赛事、做翻译，配合 OpenClaw 自己的工具链。

真实用例：游戏战队语音里随时问 wiki；多语言开源社区的实时翻译机器人；活动主持的 co-host。

1.4 持续语音对话，会被打断、会等思考、会自然填充

按一下进 Talk Mode，听-想-说循环：模型边听边想边说，被你打断会立刻停止当前播放、把”被打断”这件事记进下一轮 prompt；等待深度查询时它会自然说”嗯让我看看”——避免出现 5 秒无声等待。

真实用例：开车时的助理；做饭跟着菜谱讲解；睡前读书伴侣；运动时的播报教练。

1.5 任意渠道的语音消息都能听懂

微信 / Telegram / WhatsApp / Slack / Feishu / iMessage / QQ / Matrix / IRC / Mattermost / Nostr 等 20+ 渠道里发的语音消息和录音，自动转录后进 prompt。群里 @ 机器人的语音消息也能正确识别 mention，靠的是一段 preflight transcription——先做一次便宜转录确认是不是叫了我。

真实用例：跨多个工作群的统一语音问答；老人在家庭群发语音它能跟回；HR 群里候选人发语音简历它结构化处理。

1.6 跨设备喊一声，所有端都听得见

打开 macOS app、iOS app 同时挂着，对哪台喊”openclaw”哪台立刻进 listening 状态。唤醒词不是各端各存——iPhone 改成”computer”，Mac 立刻同步。

真实用例：家里多端协同（厨房 iPhone / 书房 Mac）；办公桌上离哪台麦克风近就用哪台；家人共享一台 Mac，按角色把唤醒词路由到不同 agent。

1.7 回复自动播报为渠道原生语音消息

13 家 TTS provider（OpenAI / ElevenLabs / Azure Speech / Google Gemini / Volcengine / MiniMax / Xiaomi MiMo / xAI / Inworld / Local CLI / Microsoft / OpenRouter / Vydra）任选。回复在 Feishu / WhatsApp / Telegram / Matrix 上自动变成渠道原生的语音消息（voice note），不是文件附件，而是带 PTT 标记、能在锁屏上预览波形的那种。

真实用例：voice-only 习惯的人无需切换打字；老人收到的回复直接能听；走路或开车时手机播给你听；同时还允许 LLM 在文本里塞 [[tts:voiceId=... emotion=...]] 当场切声音、调情绪。

1.8 一个人设，跨 13 家 provider 说出同一个声音

定义一个人设（persona，比如 alfred: dry, warm British butler narrator），可以同时绑定 Google Gemini TTS 与 OpenAI TTS 的音色（voice）、以及 ElevenLabs 的 voiceId + seed。provider 切换，人设不变——某天 ElevenLabs 故障切到 Azure Speech，听众感觉不到区别。

真实用例：长篇内容（小说连载、播客）保持音色统一；多模态生产线；品牌专属配音不依赖单一供应商。

这 8 件事难度差不少：浅的就是”听懂消息 + 朗读回复”，深的做到”加入会议 / 接电话 / 实时双工”。OpenClaw 从浅做到深用了 5 个月，§10.3 拿 release timeline 给你拆。

下面从实现层把这些能力逐个拆开。

§ 2. 六模块全景

先把地图摆出来。把 OpenClaw 的语音相关代码 / 文档摊开，会出现六个模块，职责完全不重叠：

模块	输入	输出	核心职责	关键路径
Voice Wake	麦克风 + global trigger list	触发会话	多节点共享唤醒词、路由到 agent	`docs/nodes/voicewake.md`
Talk Mode	持续麦克风	TTS 回放	听-想-说状态机 + barge-in	`docs/nodes/talk.md`
Audio Understanding	inbound 语音消息 / 文件	转录文本 + `{{Transcript}}` 模板变量	多 provider fallback STT	`docs/nodes/audio.md`
TTS	reply 文本	音频文件 / voice note / PCM	13 provider + persona + model directive	`docs/tools/tts.md`
Realtime Voice	双工音频	双工音频 + tool calls	低延迟语音对话 + agent_consult 工具	`src/realtime-voice/*`
Voice Call	电话语音流	电话语音流	Twilio/Telnyx/Plivo 集成、μ-law 编解码	`docs/plugins/voice-call.md`

整体大图：

Policy	幕后 agent 能力
`safe-read-only`	只允许 `read`、`web_search`、`web_fetch`、`x_search`、`memory_search`、`memory_get`
`owner`	不额外限制 consult 后台 agent 的工具白名单（`toolsAllow=undefined`）；owner-only 工具仍由正常 agent 权限判定
`none`	不暴露 consult，只跑 realtime 自己

路径	普通配置	极致配置	决定瓶颈
Talk Mode（经典 pipeline）	1.5–3.5 s	1–1.5 s（Semantic VAD + Groq/Cerebras）	silence window + LLM TTFT
Realtime 双工（无工具）	300–700 ms	200–400 ms	realtime 模型本身
Realtime + agent_consult（有工具）	第一句 < 500 ms，工具结果再 1–5 s	第一句 < 300 ms，工具结果再 500 ms–2 s（带 prompt cache）	幕后 agent 工具链 + 幕后 agent 首 token
Voice Call streaming 模式	2–4 s	1.5 s	运营商 RTT + STT
Voice Call realtime 模式	500 ms–1 s	400–700 ms	运营商 RTT

时间	版本	里程碑	能力跃迁
2025-11-26	v1.1.0	Inbound 语音消息可选转录	0 → “听懂消息”
2025-12-02	v1.3.0	WhatsApp Web 发 PTT / video / image	加上”用语音回”
2025-12-19	v2.0.0-beta1	macOS / iOS Voice Wake（Apple Speech 端上）	“喊一声它就来”
2026-01-03	v2.0.0-beta5	Talk Mode ：持续对话 + barge-in + ElevenLabs TTS	“听懂 + 播报” → 持续双向对话
2026-01-11	v2026.1.11	Voice Call plugin （Twilio）上线	接 PSTN 电话网络
2026-01-15	v2026.1.14	+ Plivo provider	carrier 多元化
2026-02-21	v2026.2.21	Discord `/vc` 语音频道 + 自动加入	进入语音群组
2026-04-25	v2026.4.24	Realtime voice + `openclaw_agent_consult` （OpenAI Realtime API + Gemini Live API）	亚秒级双工 + 工具链外挂
2026-04-25	v2026.4.24	Google Meet plugin （agent 作为参会者）	加入会议
2026-04-26	v2026.4.25	TTS personas 系统 + 13 provider 矩阵成型 + per-agent / per-channel / per-account override	输出层完全成熟

需求	现状（2026 Q2）	说明
首包（TTFA）< 300 ms	理想链路下可达，强依赖网络 / VAD / 直连	OpenClaw 把这个数字当默认期望，下不来就不能做”打断式对话”。注意度量口径——TTFA 是用户说完到首帧可听音频，不是文本 TTFT
稳定 function call	文本 LLM 已成基建，Realtime / Live API 仍弱（OpenAI 当前模型页对 `gpt-realtime` 标注 `Structured Outputs: No`）	function calling 在 Realtime / Live API 上已可用，但结构化约束、schema adherence 和跨轮稳定性仍普遍弱于文本 LLM。consult 类设计因此依然有现实价值——`agent_consult` 把”输出结构化”委托给文本 LLM，绕过 S2S 模型这一短板
语义级智能打断（Semantic Barge-in）	新痛点	痛点不再是”能不能打断”，而是”会不会误打断”。咳嗽、背景噪音、附和词（”嗯”、”对”）应该被识别为非打断信号；目前很多模型一听到声音就强行终止生成
可中断后状态可恢复	都能做，但恢复一致性参差	用户 barge 之后，下一轮 prompt 必须能感知”上次被打断”——OpenClaw 把 interruption timestamp 写进 prompt，这个 hint 必须能被模型理解
细粒度声音控制	gpt-4o-mini-tts / Volcengine Seed Speech 已支持 emotion/style	OpenClaw 的 `[[tts:...]]` directive 设计依赖于”模型能在文本里嵌入声音指令”——这一层未来会变成 SSML 的现代版
persona-prompt 标准化	各家自定义	OpenClaw 自己做了 provider-neutral prompt 字段映射，但这是工程兜底；理想是有一份 cross-provider persona spec
deterministic seed	ElevenLabs / Volcengine 支持	OpenClaw 的 persona 配置里给 `seed: 42` 让批量内容声音一致——这种 use case 会越来越多，不能再当奢侈功能
native voice note codec	Opus 是事实标准	文档里专门处理了 Feishu / WhatsApp / Telegram 的 PTT codec 区别；模型层多支持几种 native output 能省掉 ffmpeg 转码这一段延迟
think-while-speak	部分 live API 已支持在语音会话中结合 tool use 与 thinking	真正的 non-blocking heavy-tool 执行仍主要依赖应用层异步编排；consult 双层的价值在于把阻塞性工作移出音频主环路

需求	难度	说明
speakable output	中等	不能用 markdown / 列表 / 引用块。推理结果要直接朗读。RLHF 要专门训这种”口播体”
brevity 约束	简单	但实操上 LLM 经常啰嗦，prompt 加了也不够，需要输出长度的 hard cap
结构化思考但口播表达	难	内部用 chain-of-thought，输出却要白话——这件事现在 GPT-5 / Claude Opus 4 都做不到稳定
结合实时工具结果再总结	已可用	OpenClaw 幕后 agent 跑完 web_search 后会把结果摘进答案——这是 agent 标配
think_level 可控	已可用	OpenClaw 把 `thinkLevel = "high"` 写死给 consult，要求 LLM 支持显式推理预算
session continuity	困难	realtime 模型和幕后 agent 共享 sessionKey，意味着 LLM 要能跨工具调用维持上下文——长 context + 廉价 KV cache 是基础设施需求
超长记忆冷启动延迟	新痛点	voice 场景下要带几万字的用户 profile / 跨 session 历史，要求 ≤ 300 ms 完成 prefill。KV cache 跨 session 复用 + 命中率优化是新瓶颈
幕后 agent 首 token ≤ 500 ms	中等偏严	prompt cache 全面普及之后，幕后首 token > 1 s realtime 模型的”我在查”会显得生硬；2026 年应该把目标从原来的 1 s 拉到 500 ms

§ 0. 只看语音栈，不展开 IM 与编排

§ 1. OpenClaw 语音能做什么

1.1 替你接电话

1.2 进 Google Meet 当参会者

1.3 在 Discord 语音频道里随叫随到

1.4 持续语音对话，会被打断、会等思考、会自然填充

1.5 任意渠道的语音消息都能听懂

1.6 跨设备喊一声，所有端都听得见

1.7 回复自动播报为渠道原生语音消息

1.8 一个人设，跨 13 家 provider 说出同一个声音

§ 2. 六模块全景

§ 3. Gateway 中枢：唯一的真相源

§ 4. 输入路径：Audio Understanding 的 fallback 链

§ 5. 状态机：Talk Mode 的 Listening → Thinking → Speaking

5.1 模型主动控制声音的 JSON 指令

5.2 macOS 的 push-to-talk 和 wake-word 共存

5.3 silenceTimeoutMs 不是一个数

5.4 Android 的前台服务

§ 6. agent_consult 机制：让 realtime 模型调用完整 agent

§ 7. 输出层：13 provider TTS + Persona + Directive

7.1 Provider 矩阵

7.2 Persona 解析顺序

7.3 模型可控的 TTS Directive

7.4 解析优先级

§ 8. 电话路径：μ-law 8 kHz 与重采样

§ 9. 延迟估计：每段时间花在哪

9.1 经典 STT → LLM → TTS pipeline（Talk Mode 默认）

9.2 Realtime + consult 双层

9.3 电话路径

9.4 总结

§ 10. 趋势分析：语音能力下一步要什么

10.1 consult 双层会被广泛复制

10.2 Gateway 中枢会成为商业护城河

10.3 工程参考：OpenClaw 语音能力的 5 个月演化

10.4 开源 LLM-based ASR / TTS 跟上了 cloud API，社区接入是滞后项

§ 11. 对模型能力的进一步要求

11.1 对 speech-to-speech 实时模型（S2S Model / Realtime API）的要求

11.2 对 LLM（幕后 agent）的要求

11.3 对延迟的工程要求总结

§ 12. 结语