乐于分享
好东西不私藏

OpenClaw 2026.5.4 发布!Google Meet 语音+Codex 音频转录,我的日常 AI 助手又进化了

OpenClaw 2026.5.4 发布!Google Meet 语音+Codex 音频转录,我的日常 AI 助手又进化了

OpenClaw 2026.5.4 发布!Google Meet 语音+Codex 音频转录,我的日常 AI 助手又进化了

作者:小胡

先说结论:这次的更新,Google Meet 语音桥接是最大亮点,直接把 OpenClaw 从”文字助手”升级成了”能开会的全栈助手”。

作为一个每天都在用 OpenClaw 的运维人,我从它还是个小众项目就开始用了。说实话,这次 2026.5.4 的更新让我有点意外——不是那种花里胡哨的新功能,而是实打实解决了几个我用起来一直不太爽的地方。

Google Meet 语音:终于不用只看文字了

这次更新的核心是 Google Meet/Voice Call 实时语音桥接

官方描述很长,我翻译成人话就是:

以前 OpenClaw 只能在聊天窗口打字回复。现在它可以直接加入 Google Meet 会议,用 Gemini 实时语音模型跟你对话,支持打断、无延迟、不卡顿。

具体来说:

Twilio 拨入集成:通过 Twilio 拨号接入 Meet 会议

Gemini 实时语音桥接:用 Gemini 的实时语音模型处理音频

分块音频流:paced audio streaming,说话节奏自然,不像机器人念稿

背压缓冲:backpressure-aware buffering,网络抖动时不会丢音频

打断功能:barge-in queue clearing,说话时被打断能立即响应

无需 TwiML 回退:realtime speech 期间不依赖 TwiML,延迟更低

说实话,这个功能我期待很久了。

以前我想让 AI 帮我开会,只能把会议纪要复制粘贴给它分析。现在它可以直接”旁听”会议,实时参与讨论。对于运维团队来说,这意味着:

故障复盘会议:OpenClaw 可以实时记录、分析、给出建议

需求评审:直接在会议中记录需求,会后自动生成文档

日常站会:自动记录每个人的进度,生成站会纪要

Codex 音频转录:OpenAI 全家桶无缝衔接

这次更新的第二个重点是 OpenAI Codex 音频转录路由

简单来说:当你的 Codex 聊天模型收到音频输入时,OpenClaw 现在会自动把音频路由到 OpenAI 的语音转录 API,而不是把模型 ID 发给音频转录接口(之前会报错)。

这个改动看起来小,但实际影响很大。

为什么重要?

假设你在用 Codex 做代码审查,突然想录一段语音说明问题。以前你可能得:

1先把语音转成文字

2再把文字发给 Codex

3等待回复

现在只需要直接发语音,OpenClaw 自动帮你转录 → 发送给 Codex → 返回结果。

少了一个步骤,但体验提升了一个级别。

性能优化:插件冷启动扫描终于没了

这个更新对我这种”重度用户”来说最实用。

问题背景

OpenClaw 每次执行 agent 任务时,都会扫描插件元数据(plugin metadata)。如果你的插件很多(我有十几个),每次扫描都要花好几秒——这就是所谓的”冷启动”问题。

2026.5.4 的解决方案

这次更新做了两件事:

1工作区作用域的插件元数据快照:BTW、compaction、embedded-run model generation、PDF model setup 等场景,复用当前工作区的插件元数据快照,不再每次都重新扫描。

2无作用域模型目录复用:unscoped model catalog 和 manifest-contract readers 也可以复用当前工作区兼容的插件元数据快照,避免在热控制路径上重复扫描。

实际效果是什么?

我的感受:以前发一条消息要等 3-5 秒才有响应,现在基本是秒回。尤其是连续对话时,速度提升非常明显。

Windows 绑定修复

这个更新修了一个 Windows 上的坑:

默认网关监听器现在只绑定到 127.0.0.1,而不是 ::1(IPv6),避免 libuv 的双栈行为导致 localhost HTTP 请求卡死。

如果你在用 Windows 部署 OpenClaw,这个修复可能会让你少掉几根头发。

插件安装提示优化

当你配置了 plugins.entries 或 plugins.allow 引用了一个官方外部插件,但没有安装时,OpenClaw 现在会给出正确的安装提示:

text
openclaw plugins install <spec>

而不是像以前一样告诉你”移除这个配置”。这个改进很贴心——它假设你是”想装但忘了装”,而不是”配错了”。

QQ 群聊 Bug 修复

这个修复针对中国用户特别重要:

QQ c2c 会话 ID(如 c2c:10D4F7C2…)包含冒号,之前会导致 bundled-plugin 的 dirName 校验崩溃。现在跳过了包含冒号的会话存储条目。

如果你在用 QQ 通道接入 OpenClaw,这个修复应该能让你少遇到一些莫名其妙的崩溃。

依赖更新

这次更新还刷新了一堆依赖包:

Pi 0.73.0

ACPX adapters

OpenAI SDK

Anthropic SDK

Slack SDK

TypeScript native preview

同时保持了 Bedrock 运行时安装程序的 pin 版本,避免 Windows ARM Node 24 npm resolver 失败的问题。

配置/插件自动启用优化

当自动白名单配置一个通道时,OpenClaw 现在优先使用声明插件的 manifest ID,而不是内置通道别名。

这意味着 WeCom/Yuanbao 等别名可以正确解析到已安装的插件 ID。

Secrets 安全修复

secrets apply 现在会保留 auth-profile 的 keyRef 和 tokenRef 字段,确保 SecretRef 元数据在 scrubbing 后仍然存在,而不会保留明文值。

这是一个安全层面的改进,对生产环境部署很重要。

我的使用感受

作为一个从早期版本就开始用的老用户,这次更新给我最大的感受是:

OpenClaw 正在从”能用的 AI 助手”变成”好用的 AI 助手”。

Google Meet 语音桥接让它突破了文字限制,Codex 音频转录让它和 OpenAI 生态无缝衔接,性能优化让日常使用更流畅。

特别是插件性能优化,之前我发一条消息要等好几秒,现在基本是秒回。对于每天要和它交互几十次的我来说,这个提升真的很大。

升级建议

如果你已经安装了 OpenClaw,建议尽快升级到 2026.5.4:

bash
npm update -g openclaw# 或者openclaw update

升级后记得重启网关:

bash
openclaw gateway restart
特别注意

Windows 用户:这个版本修复了 localhost 绑定问题,强烈建议升级

QQ 通道用户:修复了 c2c 会话 ID 崩溃问题

重度插件用户:性能优化会让你的体验明显提升

Google Meet 用户:新功能需要配置 Twilio 和 Gemini 语音模型

最后

OpenClaw 的更新频率一直很高(几乎每周都有新版本),但这次 2026.5.4 是真的解决了一批实际使用中的痛点。

如果你还没用过 OpenClaw,建议试试。它不是那种”听起来很酷但用不起来”的工具,而是每天都能帮你省时间的实战型助手。

🎁 粉丝福利

小胡给大家准备了运维人专属资料包,关注即可免费领取:

📦 Claude Code 完整技能清单

🛠️ 运维人必备的 AI 工具配置模板

📝 OpenClaw 从入门到实战教程

领取方式:

1扫描下方二维码,关注公众号「运维也AI

2后台回复关键词「粉丝福利

3即可免费领取全部资料

小胡:资料会持续更新,关注后第一时间获取最新 AI 运维干货!

小胡:关注后还可以发送「下载求助」,帮你找各种软件、工具、教程的资源!

有用就点个在看,有问题留言。觉得这篇文章对你有帮助,也欢迎转发给需要的朋友。