乐于分享
好东西不私藏

帕吉观察 | OpenClaw v2026.5.5 ~ 5.12 全量盘点

帕吉观察 | OpenClaw v2026.5.5 ~ 5.12 全量盘点

作者:帕吉
公众号:码神说


上一期帕吉观察覆盖到了 v2026.5.4,本期横跨 v2026.5.5 ~ v2026.5.12(含 beta.8),五个正式版 + 一轮密集 beta 迭代。关键词三个字:稳、通、快–再加一个字:。文件传输让 Agent 的手够到了远端设备,流式进度让所有聊天渠道看到 Agent 在忙什么,Discord 语音拥有了实战级诊断能力,而最新的 beta 则开始拆解巨型依赖–Bedrock、Slack、Vertex 从核心包中外置化。信息量不小,帕吉逐一拆解。


⚡ TL;DR 速览

       

         
           
           
         

主题 一句话概括
📁 文件传输 Agent 可以跨设备读写文件了(白名单 + 审批)
📊 流式进度 全渠道实时显示 Agent 正在干什么
🗣️ 语音诊断 Discord 语音从”能用”升级到”好用”
📦 依赖外置化 Bedrock/Vertex/Slack 从核心包拆出,按需安装
🛡️ 安全收紧 设备配对审批、凭证解析收窄、沙箱覆盖 Windows
⚡ Gateway Telegram 轮询独立线程、LLM 超时自动 fallback
🤖 ACP Fallback 主后端挂了自动切备用,用户无感
💬 渠道修复 飞书/Telegram/Discord/WhatsApp 等 10+ 渠道集中修复

       

     


📁 一、文件传输插件:Agent 的手终于够到了远端设备

(v2026.5.5 正式发布,原 v2026.5.3 开始引入)

之前 OpenClaw 的 Agent 只能操作自己所在服务器的文件。如果你有一台配对的 Mac 或 Windows,Agent 想读你桌面上的 PDF?做不到。想把生成的图片写到你的 Downloads 目录?也做不到。

现在可以了。

file-transfer 插件

新增的 file-transfer 插件提供了四个工具:

       

         
           
           
         

工具 功能
📥 file_fetch 从配对设备下载文件到 Agent 侧
📂 dir_list 列出配对设备上某个目录的内容
📦 dir_fetch 批量下载目录(带过滤条件)
📤 file_write 把 Agent 侧的文件写到配对设备

       

     

安全设计

这个功能的安全模型设计得很谨慎:

  • 默认全关 – 必须在配置里显式声明每个节点允许访问哪些路径
  • 单文件 16MB 上限 – 防止 Agent 一口气搬运大文件
  • 符号链接默认拒绝followSymlinks 需要手动 opt-in,防止路径穿越
  • 操作员审批 – 每次文件操作都需要通过审批流程

举个实际场景:你可以配置 Agent 只允许读 Mac 上 ~/Documents/reports/ 目录的 PDF 文件。Agent 能帮你分析报告,但碰不到你的照片、密钥或其他私人文件。


📊 二、流式进度模式:Agent 在干啥,一目了然

(v2026.5.5 正式发布)

以前 Agent 执行复杂任务时,用户看到的是漫长的”正在输入…”然后突然蹦出一大段结果。中间发生了什么?不知道。

streaming.mode: “progress”

新增的统一流式进度模式改变了这一点:

  • 自动状态标签 – Agent 执行工具时,聊天窗口实时显示简短的状态词(🔍 搜索中、📝 编辑中、🤔 思考中…)
  • 全渠道覆盖 – Discord、Telegram、Matrix、Slack、Microsoft Teams 统一支持
  • 可定制streaming.progress.labelstreaming.progress.maxLinesstreaming.progress.toolProgress 都能单独配

这个功能的体验提升是即时可感的–你不再觉得 Agent 消失了,而是能看到它正在忙什么。就像外卖软件的实时配送轨迹,技术上不复杂,但体验差距巨大。


🗣️ 三、Discord 语音诊断:从”能用”到”好用”

(v2026.5.7 ~ v2026.5.12)

Discord 语音功能在之前几个版本已经基本可用了,但”能用”和”好用”之间差了一堆细节。这几个版本集中火力打磨:

语音诊断面板(v2026.5.10)

新增了实时语音诊断能力:

  • 说话人轮次追踪 – 谁在说话、说了多久、什么时候停的
  • 播放重置检测 – Agent 的音频回放有没有被打断或重置
  • Barge-in 检测 – 用户打断 Agent 时的行为追踪
  • 音频截断分析 – Agent 的回答有没有被截尾

语音采集优化(v2026.5.7)

  • 静默宽限期延长到 2.5 秒 – 之前用户说话中间稍微停顿,Agent 就以为说完了开始回答。现在多等了一会,不再抢话
  • voice.captureSilenceGraceMs 可自定义 – 嘈杂环境可以调更长

语音风格指令(v2026.5.10)

新增 talk.realtime.instructions 配置项 – 可以追加自定义的语音风格指令(语速、语气、用词偏好),同时保留 OpenClaw 内置的 agent-consult 引导。

Realtime 错误处理(v2026.5.12-beta)

  • • OpenAI Realtime 的启动认证失败现在被视为致命错误–不再无限重试同一个坏通道
  • • 重复的 realtime 错误日志被合并,不刷屏
  • autoJoin 在凭证失效时停止重试,等凭证修好再说

Opus 编解码优化

  • • 默认使用纯 JS 的 opusscript 解码器 – 避免编译 native addon 的漫长等待
  • • 需要极致性能?提供 opt-in 的 native @discordjs/opus 安装脚本

🔧 四、/steer 命令:运行中直接插嘴

(v2026.5.5 正式发布)

之前要在 Agent 执行中修改方向,只能等它执行完或者取消重来。现在有了 /steer:

/steer 别用那个API了,换成本地的

消息直接注入到当前运行中的 Agent,不用等当前轮结束,也不会开启新轮次。如果 Agent 当前空闲,/steer 不会触发新对话。


📦 五、依赖外置化:核心瘦身大动作

(v2026.5.12-beta)🆕

这是 v2026.5.12-beta 的重头戏。OpenClaw 开始把重量级依赖从核心包中拆出去:

外置的 Provider

       

         
           
           
         

说明
Amazon Bedrock AWS SDK 依赖链不再跟着核心安装
Bedrock Mantle 同上
Anthropic Vertex Google Cloud 依赖链独立

       

     

外置的插件

       

         
           
           
         

说明
Slack runtime 依赖链只在安装 Slack 插件时拉取
OpenShell Sandbox 沙箱运行时独立安装

       

     

为什么这件事重要?

之前不管你用不用 Bedrock,安装 OpenClaw 就得拉一堆 AWS SDK。不用 Slack 也得装 Slack 的依赖。这导致:

  • • 安装体积膨胀
  • • 依赖冲突风险高
  • • 更新时容易被无关包拖慢

外置化后,你用什么装什么。核心包只保留最小运行时。这是 OpenClaw 走向插件化架构的关键一步–从上期的”渠道插件外置”,到这期的”Provider 和基础设施插件外置”,整个架构在变得越来越模块化。


🛡️ 六、安全加固:审批、配对、权限全面收紧

(v2026.5.5 ~ v2026.5.12)

这几个版本在安全层面做了大量收紧,尤其 v2026.5.12-beta 引入了多项设备配对审批强化:

设备配对需要审批(v2026.5.12-beta)🆕

  • Setup-code 配对需要审批 – 新设备用 setup code 配对时,不再自动通过
  • 浏览器设备配对需要显式确认 – Browser 控制权限必须配对后才开放
  • Control UI 代理访问需要先配对 – 不能绕过配对直接获取代理级访问
  • 可信代理源验证加固 – 防止伪造代理来源绕过安全检查
  • 待审配对命令/权限隐藏 – 配对未批准前,不暴露可用命令和权限

Node 配对权限刷新

配对状态变更时,实时刷新已批准的设备列表–之前改了配对状态要重启 Gateway 才生效。

原生命令所有者强制(v2026.5.7)

原生命令处理器(如 /new/steer)现在强制检查所有者权限。之前某些场景下非所有者也能触发。

Active Memory 管理权限(v2026.5.7)

全局记忆开关(启用/禁用 Active Memory)需要 admin scope 才能操作。

技能工具授权钩子(v2026.5.7)

inline skill tool 的分发要过 before-tool-call 授权钩子。

Telegram 发送者白名单增强(v2026.5.7)

accessGroup:* 白名单现在在 DM、群聊、原生命令、回调授权四个层面都生效。

Codex 审批记忆(v2026.5.7)

Codex 模式下的 allow-always 决策可以在会话内记忆–同样的命令不用反复审批。

Windows 安全补丁(v2026.5.12-beta)🆕

沙箱隔离现在覆盖 Windows 的 USERPROFILE 路径–之前如果 HOMEUSERPROFILE 不一致,.codex.openclaw.ssh 等敏感目录可能逃逸出沙箱。

Session Transcript 脱敏(v2026.5.12-beta)🆕

所有写入 transcript JSONL 的路径(CLI turns、Gateway 注入、transcript 镜像、工具结果)统一走中心化的 redaction 行为–之前不同路径的脱敏规则不一致。


⚡ 七、Gateway 性能与稳定性

(v2026.5.3 ~ v2026.5.12)

启动瘦身(v2026.5.3)

  • 插件/运行时发现延迟加载 – Gateway 就绪信号发出前,不加载不必要的模块
  • Cron、Schema、Shutdown 延迟初始化 – 需要时才加载
  • 模型元数据延迟 – 模型目录在首次查询时加载

Usage 缓存(v2026.5.3)

usage.costsessions.usage 走持久化缓存 – 大规模使用视图不用全量扫描。

上下文引擎修复(v2026.5.7)

缓存的上下文视图在源历史缩短或组装失败时自动失效。

事件循环监控(v2026.5.5)

不再在快速连续的健康采样中误报”事件循环降级”。

Telegram 轮询隔离(v2026.5.12-beta)🆕

Telegram Bot API 的轮询现在在独立 worker 线程中运行,带持久化本地缓冲–主事件循环卡顿时,消息采集不受影响。这解决了长期困扰的”主线程繁忙导致 Telegram 消息丢失”问题。

LLM 空闲看门狗升级(v2026.5.12-beta)🆕

模型流式响应超时后,不再让 Agent 轮次卡死–自动通过 profile rotation 和配置的模型 fallback 恢复,让对话继续流转。

子 Agent 进程内派发(v2026.5.12-beta)🆕

同进程的 subagent 完成交接直接走进程内分发器,不再绕 Gateway RPC 回环–减少一次网络往返。

Config 并发写入保护(v2026.5.12-beta)🆕

配置文件的语义修改走中心化序列化+重试–并发命令修改配置时不再互相覆盖。

冷启动诊断抑制(v2026.5.12-beta)🆕

启动宽限窗口内不再触发虚假的 liveness 告警。


🤖 八、ACP Fallback:运行时容灾

(v2026.5.12-beta)🆕

新增 acp.fallbacks 配置–当主 ACP 运行时后端不可用时,在产生任何输出之前自动切换到备用后端。

举个例子:你的默认 Codex 后端如果因为 OAuth 过期或服务端故障挂了,OpenClaw 会自动切到配置的 Claude Code 或 Pi 后端继续工作–用户感知不到中断。

这是 OpenClaw 在”高可用”方向的一个重要进步。


💬 九、渠道修复大扫除

(v2026.5.5 ~ v2026.5.12)

       

         
           
           
         

渠道 修复内容
💬 飞书 话题消息 session 路由修复;入站媒体大小限制,防止超大文件撑爆内存
💬 Telegram 轮询看门狗改进(仅从 getUpdates 判断存活);DM 静默回复修复;album 缓冲窗口可配置;轮询移到独立 worker 线程 🆕;requireMention 模式下群内未提及的媒体消息不再触发下载失败回复 🆕;cron 推送保留 HTML 格式 🆕
💬 Discord 心跳 ACK 超时修复;/steer 走授权流程;reasoning 进度实时显示;Realtime 认证失败致命化 🆕
💬 WhatsApp LID 地址路由修复;MEDIA 指令不再重复发送;入站媒体大小限制 🆕
💬 Slack Socket Mode 重连日志结构化;空进度草稿不创建;外置化为独立插件 🆕
💬 LINE dmPolicy: "open" 无白名单时直接拒绝;入站媒体大小限制 🆕
💬 Mattermost 流式进度配置生效
💬 Teams 流式进度工具行修复
💬 iMessage 粘贴 URL 时 Apple link-preview 附件不再产生幻影媒体上下文 🆕
💬 WeCom 官方插件更新到 @wecom/wecom-openclaw-plugin@2026.5.7,修复已有安装的升级路径 🆕

       

     


🖥️ 十、Control UI / WebChat

(v2026.5.3 ~ v2026.5.12)

  • Session 表格显示 Agent Runtime – 支持按 runtime 筛选
  • Checkpoint 折叠展示 – compaction 次数用紧凑的 N Checkpoint(s) 显示
  • 重复发送防抖 – 快速连续提交不再创建多个并行 dispatch
  • 聊天历史修复 – assistant 进度文本不再消失
  • 自动滚动模式选择器

  • 🆕 – 三种模式可选:
    • • 默认的”接近底部时跟随”
    • • “始终跟随流式输出”
    • • “手动滚动 + New messages 按钮”
  • Gateway 协议 v4 🆕 – 流式 chat deltaText/replace 帧直接推送,SDK 客户端不再需要本地 diff

🤖 十一、模型与 Provider 兼容性

(v2026.5.5 ~ v2026.5.12)

xAI Grok 修复(v2026.5.5 ~ v2026.5.10)

  • • 不再发送 OpenAI 风格的 reasoning 参数
  • /think low|medium|high 通过 native Responses payload 传递

GitHub Copilot 修复(v2026.5.12-beta)🆕

  • • OAuth token 交换修复 – 图片理解请求正确拿到 Copilot API token
  • • Gemini 图片描述走 Chat Completions 路由

Anthropic

  • • Claude CLI 会话旋转后从 OpenClaw transcript 历史重新播种–防止”对话失忆” 🆕
  • anthropic/claude-haiku-4-5 进入 API-key agent 默认白名单
  • • 自定义兼容 Provider 声明 supportsReasoningEffort: false 时正确剥离 thinking 块

OpenAI 兼容性

  • • reasoning 字段清理 – 重播历史时剥离 assistant reasoning 块
  • compat.strictMessageKeys – 严格 Provider 只保留 role + content
  • • JSON 流式响应处理修复

DeepSeek / OpenRouter

DeepSeek V4 的 thinking levels(含 xhigh、max)通过 OpenRouter 正确暴露。

Provider 认证安全(v2026.5.12-beta)🆕

不再从宽泛的 ^[A-Z_][A-Z0-9_]*$ 环境变量推断 Provider 凭证–只通过结构化的 secrets.providers[id] / secrets.defaults 解析。防止无关环境变量被误当成 API Key。


🔌 十二、插件体系持续加固

(v2026.5.3 ~ v2026.5.12)

安装与更新

  • 安装账本恢复plugins/installs.json 损坏时从 npm root 自动恢复
  • peer 链接维护 – 安装/卸载一个插件后自动修复其他插件的 SDK 链接
  • beta 通道对齐 – beta 版上的官方插件跟随 beta 通道更新
  • 第三方 peer 依赖保护 🆕 – 后续插件安装不再意外干掉已装插件的 peer 依赖
  • 卸载时清理 peer 依赖 🆕 – 被删插件的独占 peer 依赖同步清理
  • 安装时代码扫描范围收窄 🆕 – 只扫插件自己的入口文件,不再对大型第三方依赖树误报

工具注册

  • • 核心工具名称冲突检测
  • • wildcard allowlist 修复
  • • 冷加载补全
  • Array 参数 items schema 自动补全 🆕 – 插件工具缺少 items 定义时自动加宽松 schema,防止 OpenAI 验证报错

超时与钩子

  • plugins.entries.<id>.hooks.timeoutMs – 可配置插件钩子超时

技能上传安装(v2026.5.10 beta)

skills.install.allowUploadedArchives – 允许可信客户端上传 zip 技能包安装。

帮助命令优化(v2026.5.12-beta)🆕

plugins 相关的帮助命令走轻量路径,不再触发完整的 registry 发现流程。


🔧 十三、CLI 与运维改进

(v2026.5.3 ~ v2026.5.12)

命令行改进

  • openclaw channels list 重构 – 清晰的安装/配置/启用状态
  • cron list --json / cron show --json 增加 status 字段
  • config unset array[index] 修复
  • config set / config patch 即使值等于默认值也正确持久化
  • CLI 表格样式修复 🆕 – 多行 cell 的续行保留颜色

Doctor 改进

  • • 心跳污染的 main session 自动修复
  • • 遗留 cron payload.model 修复
  • • 旧 streaming.progress 配置迁移
  • • Codex OAuth 路由保护

安装器修复(v2026.5.12-beta)🆕

  • --version 对 git 安装生效
  • • 从 checked-in lockfile 安装,避开 pnpm minimum-release-age 限制

会话管理

  • • 会话清理回收孤立文件
  • /new/reset 后技能缓存自动清除
  • • 会话翻转自动创建新 transcript
  • Agent 间消息 🆕 – 目标 Agent 未启动时,sessions_send 自动创建其 main session

网络代理支持

  • tools.web.fetch.useTrustedEnvProxy – 代理环境下 web_fetch 走 HTTP 代理
  • • 信任 Surge/Clash/sing-box fake-IP DNS

OAuth 锁文件恢复(v2026.5.12-beta)🆕

崩溃导致的 auth-profiles.json 文件锁自动回收–不再需要手动清理。


🧸 帕吉的深度观察

依赖外置化 = 真正的插件化

上期的主题是”渠道插件外置化”–Discord、Telegram 等渠道从核心包中拆出。这期更进一步:Provider 也开始外置化了。Bedrock 的 AWS SDK、Vertex 的 Google Cloud SDK、Slack 的运行时依赖–这些重量级包不再跟着核心走。

这件事的意义超越了”装包快一点”。它标志着 OpenClaw 的架构哲学完成了从”大而全的单体”到”小核心 + 按需插件”的转身。用户不再为不用的功能付出安装时间和磁盘空间。

ACP Fallback = Agent 容灾思维

acp.fallbacks 是个不起眼但意义重大的功能。它意味着 OpenClaw 开始用基础设施的思维方式来思考 Agent 运行时–主路挂了有备路,用户不该感知到底层的故障。

这在行业里很少见。大多数 Agent 框架还停留在”模型挂了就报错”的阶段。OpenClaw 开始做运行时级别的容灾切换,方向是对的。

安全收紧 = 信任模型在成熟

这几个版本在安全上做了大量工作,核心思路是:默认不信任,显式授予权限。设备配对要审批、文件访问要白名单、环境变量不再被宽泛匹配为凭证、沙箱覆盖 Windows 路径……每一个修复背后都有一个潜在的攻击面。

尤其是 Provider 认证安全那个修复–之前如果你机器上有个叫 DEEPSEEK_API_KEY 的环境变量,但你没配 DeepSeek Provider,OpenClaw 可能还是会尝试用它。这种”好心办坏事”的行为现在被堵上了。

Telegram 轮询隔离 = 终于解决了一个老问题

把 Telegram 轮询移到独立 worker 是个正确但不显眼的改动。之前的问题是:如果 Agent 处理一条消息时卡住了(比如模型响应慢),主线程被占满,Telegram 的 getUpdates 长轮询也会跟着超时–然后 Bot 看起来就像离线了。

现在轮询在自己的线程里跑,还有本地持久化缓冲。即使主线程完全卡住,消息也不会丢。

给读者的建议

1. 如果你的 OpenClaw 安装体积很大,等 v2026.5.12 正式版出来后重装一次。 外置化后核心包会小很多。

2. 如果你用 ACP(Codex/Claude Code),配一下 acp.fallbacks 一个后端挂了还有后路,用户无感切换。

3. 如果你在用 Telegram,升级到 v2026.5.12+。 轮询隔离彻底解决了“Bot 看起来离线”的老毛病。

4. 跑一次 openclaw doctor --fix 每次大版本升级前的好习惯,自动清理遗留配置问题。


版本链接:

  • • OpenClaw v2026.5.5
  • • OpenClaw v2026.5.7
  • • OpenClaw v2026.5.10
  • • OpenClaw v2026.5.12-beta.8

下周见,我是帕吉,码神说的胖橘猫观察员。拆包拆出新世界,下期继续盘 🐱