真人声、真会议:OpenClaw v2026.4.24 让你的 AI 助手能听会讲也能开会
Google Meet · Realtime 语音 · 浏览器自动化 · 插件编排 —— OpenClaw 在 4 月 25 日发布的 v2026.4.24 版本,把一个人工智能助手的交互能力从文字对话扩展到了语音实时通话和线上会议参与。
从文字通道到声音通道——OpenClaw 的定位
OpenClaw 是一个运行在你自有设备上的个人 AI 助手网关。它不做中心化平台,而是充当用户在 WhatsApp、Telegram、Slack、Discord、微信等 25+ 渠道之间的 AI 会话路由层:你在任意渠道发出消息,Gateway 将消息交给 AI 模型处理,再将回复投回原渠道。它支持本地部署(macOS、Linux、Windows WSL2),拥有 36 万 Star 和 7.4 万 Fork,是目前用户数最多的自托管 AI 助手项目之一。
架构上,OpenClaw 由四层组成:Gateway 负责路由与会话管理,Channels 层负责各通讯协议转换,Agents 层运行 AI 推理流程,Extensions 系统则通过插件机制扩展能力。截至目前,官方仓库内置了 120+ 个插件目录,覆盖模型提供商(OpenAI、Anthropic、DeepSeek、Google 等)、通讯后端、浏览器自动化、MCP 服务等。此次 v2026.4.24 的更新体量尤其庞大——Release 包含 50+ 个变更项和 100+ 个补丁,其中三项最引人注目:Google Meet 以插件形式进入 OpenClaw,DeepSeek V4 系列模型成为开箱默认,以及 Realtime 语音回环可以使电话和会议中的语音查询秒级获得全 Agent 的工具化应答。
AI 助手只能回文字消息?线上会议里的真实卡点
自托管 AI 助手一直有一个尴尬的缺失:它能在 Telegram 群里回答你的问题,却对一场正在进行中的 Google Meet 会议毫无感知;它能通过 WhatsApp 语音消息听懂你说的话,却无法在你打给它的电话中执行一个浏览器指令或搜索记忆库。
这不是功能迭代的优先级问题,而是技术边界的问题。文字消息的交互模式天然是「用户发—AI 回」的轮询制,单一模型推理足以处理。但一旦进入实时语音场景(电话、会议),AI 就需要同时处理音频流、理解上下文、执行工具调用,并在对话的自然停顿中完成这些操作,然后以语音回放结果。旧的 OpenClaw 架构中,Talk 模式(macOS/iOS 端语音对话)使用的是本地语法识别和文本到语音,无法调用 Agent 的工具链——也就是说当你问 Talk “帮我查一下上周五的会议记录”,它只能承认做不到。
线上会议的自动化参与则更复杂。AI 需要登录 Google 账号、通过 OAuth 认证、用浏览器打开 Meet 链接、处理麦克风权限弹窗、实时转录会议内容,还能在需要时发言。这些步骤中的任何一环都可能卡住——尤其是 Chrome 弹窗拦截和 OAuth 令牌过期。
与此同时,模型层面的升级也在制造新的用户期望。DeepSeek V4 Flash 是当前性价比最高的推理模型之一,但用户如果手动配置模型,需要寻找提供商代码、配置 API Key、修改模型列表——对新手不够友好。
v2026.4.24 正是针对这三条线同时下刀:让 AI 既能听、又能说、还能参加你的会议。
三路并发:语音、会议、模型配齐
Google Meet 插件:不再只是记录员
OpenClaw 的 Google Meet 插件是一个完整参与者,而非旁观者。它使用个人 Google 账号 OAuth 完成认证,支持两种实时传输方式——Chrome 浏览器内参与和 Twilio 电话桥接。安装后可以通过 CLI 或 Agent 指令直接创建会议、加入已有会议。
具体能力包括:会议实时转录与智能笔记导出、参与者名单记录、发言时间线、录音归档。googlemeet doctor --oauth 命令可以诊断 OAuth 和浏览器状态问题,recover-tab 命令能让 AI 检查当前已打开的 Meet 标签页并接管,避免重复打开新窗口。
对于运行在 Parallels 虚拟机等节点上的 Chrome,插件支持配对节点识别和恢复,可以标注为 chrome-node 并通过专用传输层连接。会议创建默认直接加入,也支持仅生成 URL 不加入的模式。
Realtime 语音:深度 Agent 咨询回环
Talk(macOS/iOS 语音对话)、Voice Call(电话)和 Google Meet 中的语音,现在可以共享同一个实时语音回环。核心机制是 openclaw_agent_consult——当实时语音会话中的需求超出简单问答时,语音流会通过 Gateway 的 WebSocket 端点将上下文交给完整的 OpenClaw Agent。Agent 可以执行工具调用(搜索记忆、浏览器自动化、查询日历等),再将结果合成语音返回。
Voice Call 插件新增了 voicecall setup 和 voicecall smoke 命令。前者引导用户完成 Twilio/Telnyx 提供商配置,后者在拨出真实电话前先做端到端模拟测试,确认音频链路和 Agent 回环正常。电话场景中,多人发言识别和会议转写输出的结构化笔记也一并落地。
后端语音引擎方面,新增了 Google Gemini Live 实时语音提供商和 Gradium TTS 提供商(语音笔记+电话输出),丰富了模型选择。
DeepSeek V4 Flash/V4 Pro:开箱即用的新推理选项
DeepSeek V4 Flash 和 V4 Pro 被加入 OpenClaw 的 bundled 模型目录。V4 Flash 成为新的 Onboarding 默认模型(替换之前的默认选型)。这意味着新用户首次运行 openclaw onboard 时,不再需要手动配置模型提供商,直接就能使用 DeepSeek V4 Flash 进行对话。
对于已在使用 DeepSeek V3 或早期版本的老用户,本次更新修复了 think/replay 行为——当开启 DeepSeek V4 thinking 模式时,跟随轮次中的 reasoning_content 字段能被正确保留,不会触发提供商 400 校验错误。这意味着在 V4 模型间切换会话模型时不会异常中断。
浏览器自动化和基础设施:稳定性的隐形提升
这一版在浏览器自动化方面做了大量治理:新增 viewport 坐标点击(openclaw browser click-coords),60s 默认 action timeout,支持按 profile 覆盖 headless 模式,更可靠的多标签页复用和恢复。browser-automation bundled skill 被加入官方技能集,包含多步快照、稳定标签引用、陈旧引用恢复、手动拦截循环等通用模式,减少了用户自己编写浏览器自动化提示词的负担。
模型和插件的基础设施也有显著瘦身:静态模型目录取代每次启动时的注册表枚举,openclaw models list 启动速度明显提升;插件从 manifests 中直接读取提供商元数据和模型行,无需加载运行时。插件依赖修复机制被增强,在全局安装或打包环境下,首次启动后的 npm 依赖同步不会再造成虚假的长时间挂起。
实时语音回环的技术架构:Gateway Realtime Brain 与 Gemini Live
支持实时语音的架构变化集中在 Gateway 层新增的 VoiceClaw 子系统。在 v2026.4.24 中,Gateway 暴露了一个经过 owner-auth 鉴权的 WebSocket 端点(realtime brain),后端对接 Google Gemini Live 实时模型。
这个架构的核心设计是按需委派:普通语音交互(如签到、简单问答)直接在 Gemini Live 上完成,延迟最低;当用户请求涉及工具调用(查数据库、搜索文件、浏览器操作)时,Gemini Live 通过 function-calling 触发 openclaw_agent_consult 握手,将上下文传递给完整的 OpenClaw Agent 执行推理和工具链。Agent 返回的结果再通过 TTS 合成语音输出。
这种分层设计的优势是:高频简单场景保持低延迟,复杂查询不丢失工具化能力。GateWay 作为中介层管理 WebSocket 连接生命周期、鉴权和会话路由,插件层(Google Meet、Voice Call、Talk)各自持有自己的传输实现,但共享同一个 agent_consult 握手协议。
在传输层面,Google Meet 插件支持 Chrome 浏览器 proxy 和 Twilio 两种模式。Chrome 模式通过 Playwright 控制 Chromium 打开真实 Meet 页面,使用 CDP 协议捕获音频流,核心好处是保持原生会议体验(能看到参会者、共享屏幕内容等)。Twilio 模式走 PSTN 电话桥接,适用于纯音频接入场景。
插件配置架构在这一版也做了清理:插件 manifests 通过 modelCatalog 合约声明自身的模型行和别名,无需加载插件运行时就能让 openclaw models list 展示完整提供商列表。setup.providers[].authMethods 使插件可以在不加载 setup runtime 的情况下提供认证选项,这对首次设置流程的快速启动至关重要。
值得一提的是,OTEL 诊断支持在这一版也大范围落地——模型调用、工具执行、Run 生命周期事件都被发射为 OpenTelemetry spans,可以通过标准 OTEL collector 接入可观测性基础设施。对于生产部署 OpenClaw 的团队,这意味着不再需要从日志中正则抓取性能数据。
与此配合的安全修复覆盖了认证、鉴权、沙箱、代理和媒体路径等多个维度。browser.request Gateway 方法现在要求 operator.admin 权限。MCP loopback 路径应用了 owner-only 工具策略,非 owner 的 bearer 调用者无法再查看或调用 cron、gateway、nodes 等管理工具。浏览器 SSRF 策略被传递到沙箱浏览器桥接,策略变更时自动刷新缓存。媒体引用管理也做了收敛,media://inbound/<id> 在输入、读写、预览各路径上被一致对待,防止因引用方式不一导致的安全缺口。
Release 的全景回顾
综合来看,v2026.4.24 是 OpenClaw 在”AI 从文字走向声音”方向上的一个分水岭。前三个版本分别侧重于 Active Memory 长期记忆、插件基础设施落地、诊断与 MCP 治理,而这一版把积攒的语音和实时通信能力集中暴露给了用户。配合 DeepSeek V4 的默认化,新用户的开箱体验和高级用户的可观测性需求都得到了兼顾。
如果你的 OpenClaw 已经运行,openclaw update 即可升级;如果尚未使用,这是开始体验的最佳时机——你只需要一个终端和一次 openclaw onboard。
夜雨聆风