帕吉观察 | OpenClaw v2026.5.5 ~ 5.12 全量盘点-夜雨聆风

帕吉观察 | OpenClaw v2026.5.5 ~ 5.12 全量盘点

作者:帕吉
公众号:码神说

上一期帕吉观察覆盖到了 v2026.5.4,本期横跨 v2026.5.5 ~ v2026.5.12(含 beta.8),五个正式版 + 一轮密集 beta 迭代。关键词三个字:稳、通、快–再加一个字:拆。文件传输让 Agent 的手够到了远端设备,流式进度让所有聊天渠道看到 Agent 在忙什么,Discord 语音拥有了实战级诊断能力,而最新的 beta 则开始拆解巨型依赖–Bedrock、Slack、Vertex 从核心包中外置化。信息量不小,帕吉逐一拆解。

⚡ TL;DR 速览

主题	一句话概括
📁 文件传输	Agent 可以跨设备读写文件了(白名单 + 审批)
📊 流式进度	全渠道实时显示 Agent 正在干什么
🗣️ 语音诊断	Discord 语音从”能用”升级到”好用”
📦 依赖外置化	Bedrock/Vertex/Slack 从核心包拆出,按需安装
🛡️ 安全收紧	设备配对审批、凭证解析收窄、沙箱覆盖 Windows
⚡ Gateway	Telegram 轮询独立线程、LLM 超时自动 fallback
🤖 ACP Fallback	主后端挂了自动切备用,用户无感
💬 渠道修复	飞书/Telegram/Discord/WhatsApp 等 10+ 渠道集中修复

📁 一、文件传输插件:Agent 的手终于够到了远端设备

(v2026.5.5 正式发布,原 v2026.5.3 开始引入)

之前 OpenClaw 的 Agent 只能操作自己所在服务器的文件。如果你有一台配对的 Mac 或 Windows,Agent 想读你桌面上的 PDF?做不到。想把生成的图片写到你的 Downloads 目录?也做不到。

现在可以了。

file-transfer 插件

新增的 file-transfer 插件提供了四个工具:

工具	功能
📥 `file_fetch`	从配对设备下载文件到 Agent 侧
📂 `dir_list`	列出配对设备上某个目录的内容
📦 `dir_fetch`	批量下载目录(带过滤条件)
📤 `file_write`	把 Agent 侧的文件写到配对设备

安全设计

这个功能的安全模型设计得很谨慎:

• 默认全关 – 必须在配置里显式声明每个节点允许访问哪些路径
• 单文件 16MB 上限 – 防止 Agent 一口气搬运大文件
• 符号链接默认拒绝 – followSymlinks 需要手动 opt-in,防止路径穿越
• 操作员审批 – 每次文件操作都需要通过审批流程

举个实际场景:你可以配置 Agent 只允许读 Mac 上 ~/Documents/reports/ 目录的 PDF 文件。Agent 能帮你分析报告,但碰不到你的照片、密钥或其他私人文件。

📊 二、流式进度模式:Agent 在干啥,一目了然

(v2026.5.5 正式发布)

以前 Agent 执行复杂任务时,用户看到的是漫长的”正在输入…”然后突然蹦出一大段结果。中间发生了什么?不知道。

streaming.mode: “progress”

新增的统一流式进度模式改变了这一点:

• 自动状态标签 – Agent 执行工具时,聊天窗口实时显示简短的状态词(🔍 搜索中、📝 编辑中、🤔 思考中…)
• 全渠道覆盖 – Discord、Telegram、Matrix、Slack、Microsoft Teams 统一支持
• 可定制 – streaming.progress.label、streaming.progress.maxLines、streaming.progress.toolProgress 都能单独配

这个功能的体验提升是即时可感的–你不再觉得 Agent 消失了,而是能看到它正在忙什么。就像外卖软件的实时配送轨迹,技术上不复杂,但体验差距巨大。

🗣️ 三、Discord 语音诊断:从”能用”到”好用”

(v2026.5.7 ~ v2026.5.12)

Discord 语音功能在之前几个版本已经基本可用了,但”能用”和”好用”之间差了一堆细节。这几个版本集中火力打磨:

语音诊断面板(v2026.5.10)

新增了实时语音诊断能力:

• 说话人轮次追踪 – 谁在说话、说了多久、什么时候停的
• 播放重置检测 – Agent 的音频回放有没有被打断或重置
• Barge-in 检测 – 用户打断 Agent 时的行为追踪
• 音频截断分析 – Agent 的回答有没有被截尾

语音采集优化(v2026.5.7)

• 静默宽限期延长到 2.5 秒 – 之前用户说话中间稍微停顿,Agent 就以为说完了开始回答。现在多等了一会,不再抢话
• voice.captureSilenceGraceMs 可自定义 – 嘈杂环境可以调更长

语音风格指令(v2026.5.10)

新增 talk.realtime.instructions 配置项 – 可以追加自定义的语音风格指令(语速、语气、用词偏好),同时保留 OpenClaw 内置的 agent-consult 引导。

Realtime 错误处理(v2026.5.12-beta)

• OpenAI Realtime 的启动认证失败现在被视为致命错误–不再无限重试同一个坏通道
• 重复的 realtime 错误日志被合并,不刷屏
• autoJoin 在凭证失效时停止重试,等凭证修好再说

Opus 编解码优化

• 默认使用纯 JS 的 opusscript 解码器 – 避免编译 native addon 的漫长等待
• 需要极致性能?提供 opt-in 的 native @discordjs/opus 安装脚本

🔧 四、/steer 命令:运行中直接插嘴

(v2026.5.5 正式发布)

之前要在 Agent 执行中修改方向,只能等它执行完或者取消重来。现在有了 /steer:

/steer 别用那个API了,换成本地的

消息直接注入到当前运行中的 Agent,不用等当前轮结束,也不会开启新轮次。如果 Agent 当前空闲,/steer 不会触发新对话。

📦 五、依赖外置化:核心瘦身大动作

(v2026.5.12-beta)🆕

这是 v2026.5.12-beta 的重头戏。OpenClaw 开始把重量级依赖从核心包中拆出去:

外置的 Provider

包	说明
Amazon Bedrock	AWS SDK 依赖链不再跟着核心安装
Bedrock Mantle	同上
Anthropic Vertex	Google Cloud 依赖链独立

外置的插件

包	说明
Slack	runtime 依赖链只在安装 Slack 插件时拉取
OpenShell Sandbox	沙箱运行时独立安装

为什么这件事重要?

之前不管你用不用 Bedrock,安装 OpenClaw 就得拉一堆 AWS SDK。不用 Slack 也得装 Slack 的依赖。这导致:

• 安装体积膨胀
• 依赖冲突风险高
• 更新时容易被无关包拖慢

外置化后,你用什么装什么。核心包只保留最小运行时。这是 OpenClaw 走向插件化架构的关键一步–从上期的”渠道插件外置”,到这期的”Provider 和基础设施插件外置”,整个架构在变得越来越模块化。

🛡️ 六、安全加固:审批、配对、权限全面收紧

(v2026.5.5 ~ v2026.5.12)

这几个版本在安全层面做了大量收紧,尤其 v2026.5.12-beta 引入了多项设备配对审批强化:

设备配对需要审批(v2026.5.12-beta)🆕

• Setup-code 配对需要审批 – 新设备用 setup code 配对时,不再自动通过
• 浏览器设备配对需要显式确认 – Browser 控制权限必须配对后才开放
• Control UI 代理访问需要先配对 – 不能绕过配对直接获取代理级访问
• 可信代理源验证加固 – 防止伪造代理来源绕过安全检查
• 待审配对命令/权限隐藏 – 配对未批准前,不暴露可用命令和权限

Node 配对权限刷新

配对状态变更时,实时刷新已批准的设备列表–之前改了配对状态要重启 Gateway 才生效。

原生命令所有者强制(v2026.5.7)

原生命令处理器(如 /new、/steer)现在强制检查所有者权限。之前某些场景下非所有者也能触发。

Active Memory 管理权限(v2026.5.7)

全局记忆开关(启用/禁用 Active Memory)需要 admin scope 才能操作。

技能工具授权钩子(v2026.5.7)

inline skill tool 的分发要过 before-tool-call 授权钩子。

Telegram 发送者白名单增强(v2026.5.7)

accessGroup:* 白名单现在在 DM、群聊、原生命令、回调授权四个层面都生效。

Codex 审批记忆(v2026.5.7)

Codex 模式下的 allow-always 决策可以在会话内记忆–同样的命令不用反复审批。

Windows 安全补丁(v2026.5.12-beta)🆕

沙箱隔离现在覆盖 Windows 的 USERPROFILE 路径–之前如果 HOME 和 USERPROFILE 不一致,.codex、.openclaw、.ssh 等敏感目录可能逃逸出沙箱。

Session Transcript 脱敏(v2026.5.12-beta)🆕

所有写入 transcript JSONL 的路径(CLI turns、Gateway 注入、transcript 镜像、工具结果)统一走中心化的 redaction 行为–之前不同路径的脱敏规则不一致。

⚡ 七、Gateway 性能与稳定性

(v2026.5.3 ~ v2026.5.12)

启动瘦身(v2026.5.3)

• 插件/运行时发现延迟加载 – Gateway 就绪信号发出前,不加载不必要的模块
• Cron、Schema、Shutdown 延迟初始化 – 需要时才加载
• 模型元数据延迟 – 模型目录在首次查询时加载

Usage 缓存(v2026.5.3)

usage.cost 和 sessions.usage 走持久化缓存 – 大规模使用视图不用全量扫描。

上下文引擎修复(v2026.5.7)

缓存的上下文视图在源历史缩短或组装失败时自动失效。

事件循环监控(v2026.5.5)

不再在快速连续的健康采样中误报”事件循环降级”。

Telegram 轮询隔离(v2026.5.12-beta)🆕

Telegram Bot API 的轮询现在在独立 worker 线程中运行,带持久化本地缓冲–主事件循环卡顿时,消息采集不受影响。这解决了长期困扰的”主线程繁忙导致 Telegram 消息丢失”问题。

LLM 空闲看门狗升级(v2026.5.12-beta)🆕

模型流式响应超时后,不再让 Agent 轮次卡死–自动通过 profile rotation 和配置的模型 fallback 恢复,让对话继续流转。

子 Agent 进程内派发(v2026.5.12-beta)🆕

同进程的 subagent 完成交接直接走进程内分发器,不再绕 Gateway RPC 回环–减少一次网络往返。

Config 并发写入保护(v2026.5.12-beta)🆕

配置文件的语义修改走中心化序列化+重试–并发命令修改配置时不再互相覆盖。

冷启动诊断抑制(v2026.5.12-beta)🆕

启动宽限窗口内不再触发虚假的 liveness 告警。

🤖 八、ACP Fallback:运行时容灾

(v2026.5.12-beta)🆕

新增 acp.fallbacks 配置–当主 ACP 运行时后端不可用时,在产生任何输出之前自动切换到备用后端。

举个例子:你的默认 Codex 后端如果因为 OAuth 过期或服务端故障挂了,OpenClaw 会自动切到配置的 Claude Code 或 Pi 后端继续工作–用户感知不到中断。

这是 OpenClaw 在”高可用”方向的一个重要进步。

💬 九、渠道修复大扫除

(v2026.5.5 ~ v2026.5.12)

渠道	修复内容
💬 飞书	话题消息 session 路由修复;入站媒体大小限制,防止超大文件撑爆内存
💬 Telegram	轮询看门狗改进(仅从 `getUpdates` 判断存活);DM 静默回复修复;album 缓冲窗口可配置;轮询移到独立 worker 线程 🆕;`requireMention` 模式下群内未提及的媒体消息不再触发下载失败回复 🆕;cron 推送保留 HTML 格式 🆕
💬 Discord	心跳 ACK 超时修复;`/steer` 走授权流程;reasoning 进度实时显示;Realtime 认证失败致命化 🆕
💬 WhatsApp	LID 地址路由修复;MEDIA 指令不再重复发送;入站媒体大小限制 🆕
💬 Slack	Socket Mode 重连日志结构化;空进度草稿不创建;外置化为独立插件 🆕
💬 LINE	`dmPolicy: "open"` 无白名单时直接拒绝;入站媒体大小限制 🆕
💬 Mattermost	流式进度配置生效
💬 Teams	流式进度工具行修复
💬 iMessage	粘贴 URL 时 Apple link-preview 附件不再产生幻影媒体上下文 🆕
💬 WeCom	官方插件更新到 `@wecom/wecom-openclaw-plugin@2026.5.7`,修复已有安装的升级路径 🆕

🖥️ 十、Control UI / WebChat

(v2026.5.3 ~ v2026.5.12)

• Session 表格显示 Agent Runtime – 支持按 runtime 筛选
• Checkpoint 折叠展示 – compaction 次数用紧凑的 N Checkpoint(s) 显示
• 重复发送防抖 – 快速连续提交不再创建多个并行 dispatch
• 聊天历史修复 – assistant 进度文本不再消失
•

自动滚动模式选择器

🆕 – 三种模式可选:

• 默认的”接近底部时跟随”
• “始终跟随流式输出”
• “手动滚动 + New messages 按钮”

• Gateway 协议 v4 🆕 – 流式 chat deltaText/replace 帧直接推送,SDK 客户端不再需要本地 diff

🤖 十一、模型与 Provider 兼容性

(v2026.5.5 ~ v2026.5.12)

xAI Grok 修复(v2026.5.5 ~ v2026.5.10)

• 不再发送 OpenAI 风格的 reasoning 参数
• /think low|medium|high 通过 native Responses payload 传递

GitHub Copilot 修复(v2026.5.12-beta)🆕

• OAuth token 交换修复 – 图片理解请求正确拿到 Copilot API token
• Gemini 图片描述走 Chat Completions 路由

Anthropic

• Claude CLI 会话旋转后从 OpenClaw transcript 历史重新播种–防止”对话失忆” 🆕
• anthropic/claude-haiku-4-5 进入 API-key agent 默认白名单
• 自定义兼容 Provider 声明 supportsReasoningEffort: false 时正确剥离 thinking 块

OpenAI 兼容性

• reasoning 字段清理 – 重播历史时剥离 assistant reasoning 块
• compat.strictMessageKeys – 严格 Provider 只保留 role + content
• JSON 流式响应处理修复

DeepSeek / OpenRouter

DeepSeek V4 的 thinking levels(含 xhigh、max)通过 OpenRouter 正确暴露。

Provider 认证安全(v2026.5.12-beta)🆕

不再从宽泛的 ^[A-Z_][A-Z0-9_]*$ 环境变量推断 Provider 凭证–只通过结构化的 secrets.providers[id] / secrets.defaults 解析。防止无关环境变量被误当成 API Key。

🔌 十二、插件体系持续加固

(v2026.5.3 ~ v2026.5.12)

安装与更新

• 安装账本恢复 – plugins/installs.json 损坏时从 npm root 自动恢复
• peer 链接维护 – 安装/卸载一个插件后自动修复其他插件的 SDK 链接
• beta 通道对齐 – beta 版上的官方插件跟随 beta 通道更新
• 第三方 peer 依赖保护 🆕 – 后续插件安装不再意外干掉已装插件的 peer 依赖
• 卸载时清理 peer 依赖 🆕 – 被删插件的独占 peer 依赖同步清理
• 安装时代码扫描范围收窄 🆕 – 只扫插件自己的入口文件,不再对大型第三方依赖树误报

工具注册

• 核心工具名称冲突检测
• wildcard allowlist 修复
• 冷加载补全
• Array 参数 items schema 自动补全 🆕 – 插件工具缺少 items 定义时自动加宽松 schema,防止 OpenAI 验证报错

超时与钩子

• plugins.entries.<id>.hooks.timeoutMs – 可配置插件钩子超时

技能上传安装(v2026.5.10 beta)

skills.install.allowUploadedArchives – 允许可信客户端上传 zip 技能包安装。

帮助命令优化(v2026.5.12-beta)🆕

plugins 相关的帮助命令走轻量路径,不再触发完整的 registry 发现流程。

🔧 十三、CLI 与运维改进

(v2026.5.3 ~ v2026.5.12)

命令行改进

• openclaw channels list 重构 – 清晰的安装/配置/启用状态
• cron list --json / cron show --json 增加 status 字段
• config unset array[index] 修复
• config set / config patch 即使值等于默认值也正确持久化
• CLI 表格样式修复 🆕 – 多行 cell 的续行保留颜色

Doctor 改进

• 心跳污染的 main session 自动修复
• 遗留 cron payload.model 修复
• 旧 streaming.progress 配置迁移
• Codex OAuth 路由保护

安装器修复(v2026.5.12-beta)🆕

• --version 对 git 安装生效
• 从 checked-in lockfile 安装,避开 pnpm minimum-release-age 限制

会话管理

• 会话清理回收孤立文件
• /new 和 /reset 后技能缓存自动清除
• 会话翻转自动创建新 transcript
• Agent 间消息 🆕 – 目标 Agent 未启动时,sessions_send 自动创建其 main session

网络代理支持

• tools.web.fetch.useTrustedEnvProxy – 代理环境下 web_fetch 走 HTTP 代理
• 信任 Surge/Clash/sing-box fake-IP DNS

OAuth 锁文件恢复(v2026.5.12-beta)🆕

崩溃导致的 auth-profiles.json 文件锁自动回收–不再需要手动清理。

🧸 帕吉的深度观察

依赖外置化 = 真正的插件化

上期的主题是”渠道插件外置化”–Discord、Telegram 等渠道从核心包中拆出。这期更进一步:Provider 也开始外置化了。Bedrock 的 AWS SDK、Vertex 的 Google Cloud SDK、Slack 的运行时依赖–这些重量级包不再跟着核心走。

这件事的意义超越了”装包快一点”。它标志着 OpenClaw 的架构哲学完成了从”大而全的单体”到”小核心 + 按需插件”的转身。用户不再为不用的功能付出安装时间和磁盘空间。

ACP Fallback = Agent 容灾思维

acp.fallbacks 是个不起眼但意义重大的功能。它意味着 OpenClaw 开始用基础设施的思维方式来思考 Agent 运行时–主路挂了有备路,用户不该感知到底层的故障。

这在行业里很少见。大多数 Agent 框架还停留在”模型挂了就报错”的阶段。OpenClaw 开始做运行时级别的容灾切换,方向是对的。

安全收紧 = 信任模型在成熟

这几个版本在安全上做了大量工作,核心思路是:默认不信任,显式授予权限。设备配对要审批、文件访问要白名单、环境变量不再被宽泛匹配为凭证、沙箱覆盖 Windows 路径……每一个修复背后都有一个潜在的攻击面。

尤其是 Provider 认证安全那个修复–之前如果你机器上有个叫 DEEPSEEK_API_KEY 的环境变量,但你没配 DeepSeek Provider,OpenClaw 可能还是会尝试用它。这种”好心办坏事”的行为现在被堵上了。

Telegram 轮询隔离 = 终于解决了一个老问题

把 Telegram 轮询移到独立 worker 是个正确但不显眼的改动。之前的问题是:如果 Agent 处理一条消息时卡住了(比如模型响应慢),主线程被占满,Telegram 的 getUpdates 长轮询也会跟着超时–然后 Bot 看起来就像离线了。

现在轮询在自己的线程里跑,还有本地持久化缓冲。即使主线程完全卡住,消息也不会丢。

给读者的建议

1. 如果你的 OpenClaw 安装体积很大，等 v2026.5.12 正式版出来后重装一次。 外置化后核心包会小很多。

2. 如果你用 ACP（Codex/Claude Code），配一下 acp.fallbacks。 一个后端挂了还有后路，用户无感切换。

3. 如果你在用 Telegram，升级到 v2026.5.12+。 轮询隔离彻底解决了“Bot 看起来离线”的老毛病。

4. 跑一次 openclaw doctor --fix。 每次大版本升级前的好习惯，自动清理遗留配置问题。

版本链接：

• OpenClaw v2026.5.5
• OpenClaw v2026.5.7
• OpenClaw v2026.5.10
• OpenClaw v2026.5.12-beta.8

下周见，我是帕吉，码神说的胖橘猫观察员。拆包拆出新世界，下期继续盘 🐱