OpenClaw 2026.4.22:xAI 全模态接入与 Voice Call 流式转录
xAI · Voice Call · 流式转录 · TUI 本地模式 —— openclaw/openclaw 在本版将多模态能力扩展到图像生成、语音合成与实时语音转写,同时让终端用户首次可以无网关运行本地会话。
项目定位:个人 AI 助手的网关中枢
OpenClaw 是一个面向个人用户的开源 AI 助手网关,核心定位是「让 AI 在你自己的设备上运行,并通过你已经在用的渠道回复你」。项目采用 TypeScript/Node.js 构建,GitHub 星标数 36.2 万,是 AI 助手/网关类别中关注度最高的项目之一。
架构上,OpenClaw 采用「网关(Gateway) + 多运行时」设计。Gateway 作为控制平面管理会话、渠道、工具和事件;实际 AI 推理则通过多种运行时完成,包括默认的 Pi embedded、Codex harness、ACPX 以及 Claude CLI。这种抽象层设计让用户可以在不同后端之间无缝切换,而无需改动上层配置。
渠道支持是 OpenClaw 的核心竞争力。v2026.4.22 支持 WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、IRC、Microsoft Teams、Matrix、Feishu、LINE 等 20 余种消息渠道。用户只需配置一次,即可在所有常用通讯工具中与同一个 AI 助手对话。
场景演进:从文本到全模态的缺口
在 v2026.4.22 之前,OpenClaw 的核心交互形态是文本。用户发送文字,AI 回复文字。虽然已支持基础的图像理解和 TTS,但完整的「图像生成 -> 语音对话 -> 实时转录」闭环始终缺失。
这一缺口在两类场景中尤为明显:
• 创意工作流:用户希望直接通过对话让 AI 生成图像,而非切换到 Midjourney 或 DALL-E 的独立界面
• 语音交互:移动端用户希望通过语音与 AI 对话,并获得语音回复,而非始终依赖键盘输入
此外,开发者和终端用户长期面临一个痛点:每次测试或轻量使用都必须启动完整的 Gateway 服务。对于本地调试或离线场景,这种「重网关」模式显得过于笨重。
本版能力:xAI 全模态与 TUI 本地模式
v2026.4.22 的核心更新可以归纳为三个维度:模态扩展、语音增强、本地轻量。
xAI 全模态接入
本版新增对 xAI 的完整支持,涵盖: – 图像生成:grok-imagine-image 和 grok-imagine-image-pro 模型,支持参考图编辑 – 文本转语音:6 种 xAI 原生语音,支持 MP3/WAV/PCM/G.711 格式 – 语音转文本:grok-stt 音频转录 – 实时转录:Voice Call 场景下的流式语音转文字
这意味着 OpenClaw 用户现在可以通过同一套配置,调用 xAI 的完整多模态能力。
Voice Call 流式转录扩展
除 xAI 外,Voice Call 的实时转录能力扩展到: – Deepgram – ElevenLabs(同时支持 Scribe v2 批量音频转录) – Mistral
加上已有的 OpenAI 实时转录路径,OpenClaw 现在覆盖了主流语音服务提供商,用户可根据成本和质量需求灵活选择。
TUI 本地嵌入式模式
这是本版对终端用户最直观的改进。新增的本地嵌入式模式允许在不启动 Gateway 的情况下运行终端聊天会话,同时保留插件审批门控。对于本地调试、离线环境或资源受限设备,这一模式显著降低了使用门槛。
其他值得关注的变更
• 自动插件安装:首次配置时自动安装缺失的提供商和渠道插件,减少手动干预
• /models add 命令:支持从聊天界面直接注册新模型,无需重启网关
• 轨迹导出:默认开启本地轨迹捕获,支持 /export-trajectory 导出脱敏会话记录用于调试
实现要点:模块化与协议抽象
OpenClaw 能够在本版实现全模态扩展,得益于其底层的协议抽象设计。
多运行时统一层:xAI、OpenAI、Deepgram 等不同提供商的 API 形态各异,OpenClaw 通过内部的标准化接口屏蔽差异。以语音转录为例,无论底层调用的是 xAI 的 grok-stt 还是 Deepgram 的 listen API,上层渠道代码看到的都是统一的 realtime-transcription 接口。
MCP 协议集成:工具调用层面,OpenClaw 深度集成了 MCP(Model Context Protocol)。本版更新中,图像生成、TTS、STT 等能力均以 MCP 工具的形式暴露给 Agent,保持了与现有工具生态的一致性。
Plugin SDK 的演进:本版在 Plugin SDK 层面新增了实时转录的 WebSocket 传输共享层和批量转录表单助手,减少了各提供商插件的重复代码,同时保留了代理捕获、重连、音频队列等关键行为。
安全方面,v2026.4.22 包含大量修复,涉及 Android 配对安全、Discord 权限控制、QQBot 命令授权、MCP 工具可见性等。OpenClaw 作为连接真实消息表面的网关,对输入验证和权限隔离的持续关注是其架构成熟度的重要体现。
夜雨聆风