乐于分享
好东西不私藏

OpenClaw 2026.4.22:xAI 全模态接入与 Voice Call 流式转录

OpenClaw 2026.4.22:xAI 全模态接入与 Voice Call 流式转录

xAI · Voice Call · 流式转录 · TUI 本地模式 —— openclaw/openclaw 在本版将多模态能力扩展到图像生成、语音合成与实时语音转写,同时让终端用户首次可以无网关运行本地会话。


项目定位:个人 AI 助手的网关中枢

OpenClaw 是一个面向个人用户的开源 AI 助手网关,核心定位是「让 AI 在你自己的设备上运行,并通过你已经在用的渠道回复你」。项目采用 TypeScript/Node.js 构建,GitHub 星标数 36.2 万,是 AI 助手/网关类别中关注度最高的项目之一。

架构上,OpenClaw 采用「网关(Gateway) + 多运行时」设计。Gateway 作为控制平面管理会话、渠道、工具和事件;实际 AI 推理则通过多种运行时完成,包括默认的 Pi embedded、Codex harness、ACPX 以及 Claude CLI。这种抽象层设计让用户可以在不同后端之间无缝切换,而无需改动上层配置。

渠道支持是 OpenClaw 的核心竞争力。v2026.4.22 支持 WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、IRC、Microsoft Teams、Matrix、Feishu、LINE 等 20 余种消息渠道。用户只需配置一次,即可在所有常用通讯工具中与同一个 AI 助手对话。

场景演进:从文本到全模态的缺口

在 v2026.4.22 之前,OpenClaw 的核心交互形态是文本。用户发送文字,AI 回复文字。虽然已支持基础的图像理解和 TTS,但完整的「图像生成 -> 语音对话 -> 实时转录」闭环始终缺失。

这一缺口在两类场景中尤为明显:

• 创意工作流:用户希望直接通过对话让 AI 生成图像,而非切换到 Midjourney 或 DALL-E 的独立界面

• 语音交互:移动端用户希望通过语音与 AI 对话,并获得语音回复,而非始终依赖键盘输入

此外,开发者和终端用户长期面临一个痛点:每次测试或轻量使用都必须启动完整的 Gateway 服务。对于本地调试或离线场景,这种「重网关」模式显得过于笨重。

本版能力:xAI 全模态与 TUI 本地模式

v2026.4.22 的核心更新可以归纳为三个维度:模态扩展、语音增强、本地轻量。

xAI 全模态接入

本版新增对 xAI 的完整支持,涵盖: – 图像生成grok-imagine-image 和 grok-imagine-image-pro 模型,支持参考图编辑 – 文本转语音:6 种 xAI 原生语音,支持 MP3/WAV/PCM/G.711 格式 – 语音转文本grok-stt 音频转录 – 实时转录:Voice Call 场景下的流式语音转文字

这意味着 OpenClaw 用户现在可以通过同一套配置,调用 xAI 的完整多模态能力。

Voice Call 流式转录扩展

除 xAI 外,Voice Call 的实时转录能力扩展到: – Deepgram – ElevenLabs(同时支持 Scribe v2 批量音频转录) – Mistral

加上已有的 OpenAI 实时转录路径,OpenClaw 现在覆盖了主流语音服务提供商,用户可根据成本和质量需求灵活选择。

TUI 本地嵌入式模式

这是本版对终端用户最直观的改进。新增的本地嵌入式模式允许在不启动 Gateway 的情况下运行终端聊天会话,同时保留插件审批门控。对于本地调试、离线环境或资源受限设备,这一模式显著降低了使用门槛。

其他值得关注的变更

• 自动插件安装:首次配置时自动安装缺失的提供商和渠道插件,减少手动干预

• /models add 命令:支持从聊天界面直接注册新模型,无需重启网关

• 轨迹导出:默认开启本地轨迹捕获,支持 /export-trajectory 导出脱敏会话记录用于调试

实现要点:模块化与协议抽象

OpenClaw 能够在本版实现全模态扩展,得益于其底层的协议抽象设计。

多运行时统一层:xAI、OpenAI、Deepgram 等不同提供商的 API 形态各异,OpenClaw 通过内部的标准化接口屏蔽差异。以语音转录为例,无论底层调用的是 xAI 的 grok-stt 还是 Deepgram 的 listen API,上层渠道代码看到的都是统一的 realtime-transcription 接口。

MCP 协议集成:工具调用层面,OpenClaw 深度集成了 MCP(Model Context Protocol)。本版更新中,图像生成、TTS、STT 等能力均以 MCP 工具的形式暴露给 Agent,保持了与现有工具生态的一致性。

Plugin SDK 的演进:本版在 Plugin SDK 层面新增了实时转录的 WebSocket 传输共享层和批量转录表单助手,减少了各提供商插件的重复代码,同时保留了代理捕获、重连、音频队列等关键行为。

安全方面,v2026.4.22 包含大量修复,涉及 Android 配对安全、Discord 权限控制、QQBot 命令授权、MCP 工具可见性等。OpenClaw 作为连接真实消息表面的网关,对输入验证和权限隔离的持续关注是其架构成熟度的重要体现。