AI 助手在会议里不再抢话:OpenClaw v2026.5.4 实时语音优化
Google Meet · 实时语音 · Twilio · 回声消除 · v2026.5.4 ——
OpenClaw 在本版中,把会议电话场景下 AI 助手的听与说体验
拉到了一条更顺滑的线上。
从终端走到语音的通用 AI 助手
OpenClaw 是一个个人 AI 助手,跨平台、全渠道。
你可以在自己的设备上运行它,通过 Telegram、Slack、Discord、
WhatsApp、微信、QQ 等近 30 个聊天界面与它交互,
也可以直接唤出内置浏览器画布(Canvas)控制操作。
它的技术形态是 TypeScript 网关 + 插件体系,
支持 OpenAI、Anthropic、DeepSeek、Gemini 等多种模型后端,
并能通过扩展接入代码编辑器(Codex 插件)、记忆系统、自动化脚本和外部工具。
项目在 GitHub 上已获 36.8 万星标,
自 2025 年 11 月立项以来迭代极其密集。
v2026.5.4 是 5 月 5 日发布的常规更新,
覆盖范围从实时语音功能到性能基线优化均有触达。
AI 进会议:听得清还得说得出
当你让 OpenClaw 加入一场 Google Meet 会议时,
它需要同时处理两件事:听懂别人的发言,
以及在被呼唤时自然回应。
此前,通过 Chrome 浏览器接入 Meet(Chrome 传输层)
已经可以做到实时语音收发,走的是 Gemini 实时语音模型。
但 Twilio 拨号入会方案存在一个短板——
Twilio 的音频管道在实时语音模式下,
仍保留了不必要的 TwiML 指令回退逻辑,
导致在对话高峰期出现音频碎片或延迟。
另一个更细微的问题是长时间对话中,参与者的语音会叠加,
OpenClaw 可能在人类说完之前就开始回应
(或者更糟,在自身回放语音时又把输入误认为是人类说话),
造成对话节奏混乱。
对于需要 7×24 小时值守的会议接入场景,
这些不稳定因素意味着运营者不得不反复检查连接状态,
甚至手动重置会话进程。
本版怎么改的:三项关键优化
v2026.5.4 在 Google Meet + Twilio 路径上集中解决了三个问题,
每个都对应一条可感知的变化。
节拍可控的音频流。 Twilio 传入的音频不再一股脑塞进 Gemini,
而是通过一个主动 pacing 层,以稳定的速率送入实时语音桥接。
这避免了因为文本生成追赶不上音频累积速率而出现的间歇性卡顿。
用户能感知的是:长时间对话中,AI 不再抢话或忽快忽慢。
背压感知缓冲。 当 Gemini 实时模型处理速度暂时
低于音频输入速率时,缓冲层会主动推回压力信号,
让 Twilio 端的音频采集降速,而不是无限堆积内存。
这让长时间会议不至于半小时后因内存积压而导致资源紧张。
对于运行在树莓派或低配 VPS 上的用户,这个改进尤为关键。
抢话队列清除。 当 OpenClaw 正在说话时用户突然插话,
旧的回复生成队列会被即时清空,
Twilio 输出立即切换为收听模式。
配合移除的 TwiML 回退路径,抢话场景下的响应时间
从数百毫秒降到了几乎瞬发,对话节奏更接近真人交谈。
除此之外,本版还有几个值得一提的配合改动。
realtime.introMessage: "" 配置项可以让 Google Meet
加入会议时保持静音,适合需要被动旁听的场景。
语音通话后端链路新增了 provider voice/model 覆盖日志,
确保对话日志中显示的 TTS 引擎与实际发声引擎一致,
这对多引擎配置的用户是一个实用的调试辅助。
分层缓冲下的实时音频设计
语音实时交互的核心矛盾是:
音频的实时性与语言模型的推理延迟天生不同步。
OpenClaw 的解决方案以分层缓冲和解耦为核心。
在传输层,Chrome 传输走本地 SoX 管道
(PCM 16 格式 24 kHz),Twilio 传输走电话级的 mu-law 8 kHz。
两种来源的音频在到达实时桥接前,
统一经解码函数转换为 PCM 16,
再通过 Gemini 实时接口收发。
这种对称转换让助手既能听清双向通话,
也能向不带电话编码的 Chrome 端输出清晰语音。
背压控制的实现细节在 voice-call-gateway.ts 中:
Twilio 流媒体接入后,经过一个有限容量的音频队列
(默认边界由 maxAudioQueueBytes 参数控制),
超过阈值时网关主动关闭超载流,
而非任由音频在 WebSocket 背压后继续堆积。
配合 bargeInEnabled 标识,当检测到用户语音输入打开,
当前生成进度会被标记为应当打断,
系统在下一个合成边界即刻切换方向。
释放还覆盖了插件生态层面的改进。
插件加载器优先走原生快速路径(Native Fast Path),
避免冷启动时反复扫描插件元数据;
Gateway 启动不再导入非必需的模块
(如测试辅助代码、TypeBox 工具方法),
降低内存占用与启动时间。
插件更新新增了 ClawHub 与 npm 之间的平滑切换逻辑,
外部安装的插件在包源切换时不再残留旧的绑定路径。
如果你运行在 VPS 上,cron show 现在会直接显示
策略阻断的具体原因,而非沉默地报告绿色成功结果。
诊断面板加入了浏览器 Long Animation Frame 监控,
Dashboard 渲染慢的根因从「直觉觉得慢」
变成了「日志里有证据」。
版本涉及 146 个文件变更、100 余个修复项。
这些改动在设计上并非追求零延迟——
在真实的电话会议场景中,300–500 ms 端到端延迟在可接受范围,
稳定性与自然交互节奏远比极限低延迟重要。
v2026.5.4 的选择偏向后者:
宁可牺牲毫秒级原始吞吐,也要保证 30 分钟以上的会议
中每一轮对话都能稳定收束。
夜雨聆风