帕吉观察 | OpenClaw v2026.5.5 ~ 5.12 全量盘点
作者:帕吉
公众号:码神说

上一期帕吉观察覆盖到了 v2026.5.4,本期横跨 v2026.5.5 ~ v2026.5.12(含 beta.8),五个正式版 + 一轮密集 beta 迭代。关键词三个字:稳、通、快–再加一个字:拆。文件传输让 Agent 的手够到了远端设备,流式进度让所有聊天渠道看到 Agent 在忙什么,Discord 语音拥有了实战级诊断能力,而最新的 beta 则开始拆解巨型依赖–Bedrock、Slack、Vertex 从核心包中外置化。信息量不小,帕吉逐一拆解。
⚡ TL;DR 速览
| 主题 | 一句话概括 |
|---|---|
| 📁 文件传输 | Agent 可以跨设备读写文件了(白名单 + 审批) |
| 📊 流式进度 | 全渠道实时显示 Agent 正在干什么 |
| 🗣️ 语音诊断 | Discord 语音从”能用”升级到”好用” |
| 📦 依赖外置化 | Bedrock/Vertex/Slack 从核心包拆出,按需安装 |
| 🛡️ 安全收紧 | 设备配对审批、凭证解析收窄、沙箱覆盖 Windows |
| ⚡ Gateway | Telegram 轮询独立线程、LLM 超时自动 fallback |
| 🤖 ACP Fallback | 主后端挂了自动切备用,用户无感 |
| 💬 渠道修复 | 飞书/Telegram/Discord/WhatsApp 等 10+ 渠道集中修复 |
📁 一、文件传输插件:Agent 的手终于够到了远端设备
(v2026.5.5 正式发布,原 v2026.5.3 开始引入)
之前 OpenClaw 的 Agent 只能操作自己所在服务器的文件。如果你有一台配对的 Mac 或 Windows,Agent 想读你桌面上的 PDF?做不到。想把生成的图片写到你的 Downloads 目录?也做不到。
现在可以了。
file-transfer 插件
新增的 file-transfer 插件提供了四个工具:
| 工具 | 功能 |
|---|---|
📥 file_fetch |
从配对设备下载文件到 Agent 侧 |
📂 dir_list |
列出配对设备上某个目录的内容 |
📦 dir_fetch |
批量下载目录(带过滤条件) |
📤 file_write |
把 Agent 侧的文件写到配对设备 |
安全设计
这个功能的安全模型设计得很谨慎:
- • 默认全关 – 必须在配置里显式声明每个节点允许访问哪些路径
- • 单文件 16MB 上限 – 防止 Agent 一口气搬运大文件
- • 符号链接默认拒绝 –
followSymlinks需要手动 opt-in,防止路径穿越 - • 操作员审批 – 每次文件操作都需要通过审批流程
举个实际场景:你可以配置 Agent 只允许读 Mac 上 ~/Documents/reports/ 目录的 PDF 文件。Agent 能帮你分析报告,但碰不到你的照片、密钥或其他私人文件。
📊 二、流式进度模式:Agent 在干啥,一目了然
(v2026.5.5 正式发布)
以前 Agent 执行复杂任务时,用户看到的是漫长的”正在输入…”然后突然蹦出一大段结果。中间发生了什么?不知道。
streaming.mode: “progress”
新增的统一流式进度模式改变了这一点:
- • 自动状态标签 – Agent 执行工具时,聊天窗口实时显示简短的状态词(🔍 搜索中、📝 编辑中、🤔 思考中…)
- • 全渠道覆盖 – Discord、Telegram、Matrix、Slack、Microsoft Teams 统一支持
- • 可定制 –
streaming.progress.label、streaming.progress.maxLines、streaming.progress.toolProgress都能单独配
这个功能的体验提升是即时可感的–你不再觉得 Agent 消失了,而是能看到它正在忙什么。就像外卖软件的实时配送轨迹,技术上不复杂,但体验差距巨大。
🗣️ 三、Discord 语音诊断:从”能用”到”好用”
(v2026.5.7 ~ v2026.5.12)
Discord 语音功能在之前几个版本已经基本可用了,但”能用”和”好用”之间差了一堆细节。这几个版本集中火力打磨:
语音诊断面板(v2026.5.10)
新增了实时语音诊断能力:
- • 说话人轮次追踪 – 谁在说话、说了多久、什么时候停的
- • 播放重置检测 – Agent 的音频回放有没有被打断或重置
- • Barge-in 检测 – 用户打断 Agent 时的行为追踪
- • 音频截断分析 – Agent 的回答有没有被截尾
语音采集优化(v2026.5.7)
- • 静默宽限期延长到 2.5 秒 – 之前用户说话中间稍微停顿,Agent 就以为说完了开始回答。现在多等了一会,不再抢话
- •
voice.captureSilenceGraceMs可自定义 – 嘈杂环境可以调更长
语音风格指令(v2026.5.10)
新增 talk.realtime.instructions 配置项 – 可以追加自定义的语音风格指令(语速、语气、用词偏好),同时保留 OpenClaw 内置的 agent-consult 引导。
Realtime 错误处理(v2026.5.12-beta)
- • OpenAI Realtime 的启动认证失败现在被视为致命错误–不再无限重试同一个坏通道
- • 重复的 realtime 错误日志被合并,不刷屏
- •
autoJoin在凭证失效时停止重试,等凭证修好再说
Opus 编解码优化
- • 默认使用纯 JS 的 opusscript 解码器 – 避免编译 native addon 的漫长等待
- • 需要极致性能?提供 opt-in 的 native @discordjs/opus 安装脚本
🔧 四、/steer 命令:运行中直接插嘴
(v2026.5.5 正式发布)
之前要在 Agent 执行中修改方向,只能等它执行完或者取消重来。现在有了 /steer:
/steer 别用那个API了,换成本地的
消息直接注入到当前运行中的 Agent,不用等当前轮结束,也不会开启新轮次。如果 Agent 当前空闲,/steer 不会触发新对话。
📦 五、依赖外置化:核心瘦身大动作
(v2026.5.12-beta)🆕
这是 v2026.5.12-beta 的重头戏。OpenClaw 开始把重量级依赖从核心包中拆出去:
外置的 Provider
| 包 | 说明 |
|---|---|
| Amazon Bedrock | AWS SDK 依赖链不再跟着核心安装 |
| Bedrock Mantle | 同上 |
| Anthropic Vertex | Google Cloud 依赖链独立 |
外置的插件
| 包 | 说明 |
|---|---|
| Slack | runtime 依赖链只在安装 Slack 插件时拉取 |
| OpenShell Sandbox | 沙箱运行时独立安装 |
为什么这件事重要?
之前不管你用不用 Bedrock,安装 OpenClaw 就得拉一堆 AWS SDK。不用 Slack 也得装 Slack 的依赖。这导致:
- • 安装体积膨胀
- • 依赖冲突风险高
- • 更新时容易被无关包拖慢
外置化后,你用什么装什么。核心包只保留最小运行时。这是 OpenClaw 走向插件化架构的关键一步–从上期的”渠道插件外置”,到这期的”Provider 和基础设施插件外置”,整个架构在变得越来越模块化。
🛡️ 六、安全加固:审批、配对、权限全面收紧
(v2026.5.5 ~ v2026.5.12)
这几个版本在安全层面做了大量收紧,尤其 v2026.5.12-beta 引入了多项设备配对审批强化:
设备配对需要审批(v2026.5.12-beta)🆕
- • Setup-code 配对需要审批 – 新设备用 setup code 配对时,不再自动通过
- • 浏览器设备配对需要显式确认 – Browser 控制权限必须配对后才开放
- • Control UI 代理访问需要先配对 – 不能绕过配对直接获取代理级访问
- • 可信代理源验证加固 – 防止伪造代理来源绕过安全检查
- • 待审配对命令/权限隐藏 – 配对未批准前,不暴露可用命令和权限
Node 配对权限刷新
配对状态变更时,实时刷新已批准的设备列表–之前改了配对状态要重启 Gateway 才生效。
原生命令所有者强制(v2026.5.7)
原生命令处理器(如 /new、/steer)现在强制检查所有者权限。之前某些场景下非所有者也能触发。
Active Memory 管理权限(v2026.5.7)
全局记忆开关(启用/禁用 Active Memory)需要 admin scope 才能操作。
技能工具授权钩子(v2026.5.7)
inline skill tool 的分发要过 before-tool-call 授权钩子。
Telegram 发送者白名单增强(v2026.5.7)
accessGroup:* 白名单现在在 DM、群聊、原生命令、回调授权四个层面都生效。
Codex 审批记忆(v2026.5.7)
Codex 模式下的 allow-always 决策可以在会话内记忆–同样的命令不用反复审批。
Windows 安全补丁(v2026.5.12-beta)🆕
沙箱隔离现在覆盖 Windows 的 USERPROFILE 路径–之前如果 HOME 和 USERPROFILE 不一致,.codex、.openclaw、.ssh 等敏感目录可能逃逸出沙箱。
Session Transcript 脱敏(v2026.5.12-beta)🆕
所有写入 transcript JSONL 的路径(CLI turns、Gateway 注入、transcript 镜像、工具结果)统一走中心化的 redaction 行为–之前不同路径的脱敏规则不一致。
⚡ 七、Gateway 性能与稳定性
(v2026.5.3 ~ v2026.5.12)
启动瘦身(v2026.5.3)
- • 插件/运行时发现延迟加载 – Gateway 就绪信号发出前,不加载不必要的模块
- • Cron、Schema、Shutdown 延迟初始化 – 需要时才加载
- • 模型元数据延迟 – 模型目录在首次查询时加载
Usage 缓存(v2026.5.3)
usage.cost 和 sessions.usage 走持久化缓存 – 大规模使用视图不用全量扫描。
上下文引擎修复(v2026.5.7)
缓存的上下文视图在源历史缩短或组装失败时自动失效。
事件循环监控(v2026.5.5)
不再在快速连续的健康采样中误报”事件循环降级”。
Telegram 轮询隔离(v2026.5.12-beta)🆕
Telegram Bot API 的轮询现在在独立 worker 线程中运行,带持久化本地缓冲–主事件循环卡顿时,消息采集不受影响。这解决了长期困扰的”主线程繁忙导致 Telegram 消息丢失”问题。
LLM 空闲看门狗升级(v2026.5.12-beta)🆕
模型流式响应超时后,不再让 Agent 轮次卡死–自动通过 profile rotation 和配置的模型 fallback 恢复,让对话继续流转。
子 Agent 进程内派发(v2026.5.12-beta)🆕
同进程的 subagent 完成交接直接走进程内分发器,不再绕 Gateway RPC 回环–减少一次网络往返。
Config 并发写入保护(v2026.5.12-beta)🆕
配置文件的语义修改走中心化序列化+重试–并发命令修改配置时不再互相覆盖。
冷启动诊断抑制(v2026.5.12-beta)🆕
启动宽限窗口内不再触发虚假的 liveness 告警。
🤖 八、ACP Fallback:运行时容灾
(v2026.5.12-beta)🆕
新增 acp.fallbacks 配置–当主 ACP 运行时后端不可用时,在产生任何输出之前自动切换到备用后端。
举个例子:你的默认 Codex 后端如果因为 OAuth 过期或服务端故障挂了,OpenClaw 会自动切到配置的 Claude Code 或 Pi 后端继续工作–用户感知不到中断。
这是 OpenClaw 在”高可用”方向的一个重要进步。
💬 九、渠道修复大扫除
(v2026.5.5 ~ v2026.5.12)
| 渠道 | 修复内容 |
|---|---|
| 💬 飞书 | 话题消息 session 路由修复;入站媒体大小限制,防止超大文件撑爆内存 |
| 💬 Telegram | 轮询看门狗改进(仅从 getUpdates 判断存活);DM 静默回复修复;album 缓冲窗口可配置;轮询移到独立 worker 线程 🆕;requireMention 模式下群内未提及的媒体消息不再触发下载失败回复 🆕;cron 推送保留 HTML 格式 🆕 |
| 💬 Discord | 心跳 ACK 超时修复;/steer 走授权流程;reasoning 进度实时显示;Realtime 认证失败致命化 🆕 |
| LID 地址路由修复;MEDIA 指令不再重复发送;入站媒体大小限制 🆕 | |
| 💬 Slack | Socket Mode 重连日志结构化;空进度草稿不创建;外置化为独立插件 🆕 |
| 💬 LINE | dmPolicy: "open" 无白名单时直接拒绝;入站媒体大小限制 🆕 |
| 💬 Mattermost | 流式进度配置生效 |
| 💬 Teams | 流式进度工具行修复 |
| 💬 iMessage | 粘贴 URL 时 Apple link-preview 附件不再产生幻影媒体上下文 🆕 |
| 💬 WeCom | 官方插件更新到 @wecom/wecom-openclaw-plugin@2026.5.7,修复已有安装的升级路径 🆕 |
🖥️ 十、Control UI / WebChat
(v2026.5.3 ~ v2026.5.12)
- • Session 表格显示 Agent Runtime – 支持按 runtime 筛选
- • Checkpoint 折叠展示 – compaction 次数用紧凑的
N Checkpoint(s)显示 - • 重复发送防抖 – 快速连续提交不再创建多个并行 dispatch
- • 聊天历史修复 – assistant 进度文本不再消失
- •
- 🆕 – 三种模式可选:
- • 默认的”接近底部时跟随”
- • “始终跟随流式输出”
- • “手动滚动 + New messages 按钮”
- • Gateway 协议 v4 🆕 – 流式 chat
deltaText/replace帧直接推送,SDK 客户端不再需要本地 diff
自动滚动模式选择器
🤖 十一、模型与 Provider 兼容性
(v2026.5.5 ~ v2026.5.12)
xAI Grok 修复(v2026.5.5 ~ v2026.5.10)
- • 不再发送 OpenAI 风格的 reasoning 参数
- •
/think low|medium|high通过 native Responses payload 传递
GitHub Copilot 修复(v2026.5.12-beta)🆕
- • OAuth token 交换修复 – 图片理解请求正确拿到 Copilot API token
- • Gemini 图片描述走 Chat Completions 路由
Anthropic
- • Claude CLI 会话旋转后从 OpenClaw transcript 历史重新播种–防止”对话失忆” 🆕
- •
anthropic/claude-haiku-4-5进入 API-key agent 默认白名单 - • 自定义兼容 Provider 声明
supportsReasoningEffort: false时正确剥离 thinking 块
OpenAI 兼容性
- • reasoning 字段清理 – 重播历史时剥离 assistant reasoning 块
- •
compat.strictMessageKeys– 严格 Provider 只保留role+content - • JSON 流式响应处理修复
DeepSeek / OpenRouter
DeepSeek V4 的 thinking levels(含 xhigh、max)通过 OpenRouter 正确暴露。
Provider 认证安全(v2026.5.12-beta)🆕
不再从宽泛的 ^[A-Z_][A-Z0-9_]*$ 环境变量推断 Provider 凭证–只通过结构化的 secrets.providers[id] / secrets.defaults 解析。防止无关环境变量被误当成 API Key。
🔌 十二、插件体系持续加固
(v2026.5.3 ~ v2026.5.12)
安装与更新
- • 安装账本恢复 –
plugins/installs.json损坏时从 npm root 自动恢复 - • peer 链接维护 – 安装/卸载一个插件后自动修复其他插件的 SDK 链接
- • beta 通道对齐 – beta 版上的官方插件跟随 beta 通道更新
- • 第三方 peer 依赖保护 🆕 – 后续插件安装不再意外干掉已装插件的 peer 依赖
- • 卸载时清理 peer 依赖 🆕 – 被删插件的独占 peer 依赖同步清理
- • 安装时代码扫描范围收窄 🆕 – 只扫插件自己的入口文件,不再对大型第三方依赖树误报
工具注册
- • 核心工具名称冲突检测
- • wildcard allowlist 修复
- • 冷加载补全
- • Array 参数 items schema 自动补全 🆕 – 插件工具缺少
items定义时自动加宽松 schema,防止 OpenAI 验证报错
超时与钩子
- •
plugins.entries.<id>.hooks.timeoutMs– 可配置插件钩子超时
技能上传安装(v2026.5.10 beta)
skills.install.allowUploadedArchives – 允许可信客户端上传 zip 技能包安装。
帮助命令优化(v2026.5.12-beta)🆕
plugins 相关的帮助命令走轻量路径,不再触发完整的 registry 发现流程。
🔧 十三、CLI 与运维改进
(v2026.5.3 ~ v2026.5.12)
命令行改进
- •
openclaw channels list重构 – 清晰的安装/配置/启用状态 - •
cron list --json/cron show --json增加status字段 - •
config unset array[index]修复 - •
config set/config patch即使值等于默认值也正确持久化 - • CLI 表格样式修复 🆕 – 多行 cell 的续行保留颜色
Doctor 改进
- • 心跳污染的 main session 自动修复
- • 遗留 cron payload.model 修复
- • 旧 streaming.progress 配置迁移
- • Codex OAuth 路由保护
安装器修复(v2026.5.12-beta)🆕
- •
--version对 git 安装生效 - • 从 checked-in lockfile 安装,避开 pnpm minimum-release-age 限制
会话管理
- • 会话清理回收孤立文件
- •
/new和/reset后技能缓存自动清除 - • 会话翻转自动创建新 transcript
- • Agent 间消息 🆕 – 目标 Agent 未启动时,
sessions_send自动创建其 main session
网络代理支持
- •
tools.web.fetch.useTrustedEnvProxy– 代理环境下 web_fetch 走 HTTP 代理 - • 信任 Surge/Clash/sing-box fake-IP DNS
OAuth 锁文件恢复(v2026.5.12-beta)🆕
崩溃导致的 auth-profiles.json 文件锁自动回收–不再需要手动清理。
🧸 帕吉的深度观察
依赖外置化 = 真正的插件化
上期的主题是”渠道插件外置化”–Discord、Telegram 等渠道从核心包中拆出。这期更进一步:Provider 也开始外置化了。Bedrock 的 AWS SDK、Vertex 的 Google Cloud SDK、Slack 的运行时依赖–这些重量级包不再跟着核心走。
这件事的意义超越了”装包快一点”。它标志着 OpenClaw 的架构哲学完成了从”大而全的单体”到”小核心 + 按需插件”的转身。用户不再为不用的功能付出安装时间和磁盘空间。
ACP Fallback = Agent 容灾思维
acp.fallbacks 是个不起眼但意义重大的功能。它意味着 OpenClaw 开始用基础设施的思维方式来思考 Agent 运行时–主路挂了有备路,用户不该感知到底层的故障。
这在行业里很少见。大多数 Agent 框架还停留在”模型挂了就报错”的阶段。OpenClaw 开始做运行时级别的容灾切换,方向是对的。
安全收紧 = 信任模型在成熟
这几个版本在安全上做了大量工作,核心思路是:默认不信任,显式授予权限。设备配对要审批、文件访问要白名单、环境变量不再被宽泛匹配为凭证、沙箱覆盖 Windows 路径……每一个修复背后都有一个潜在的攻击面。
尤其是 Provider 认证安全那个修复–之前如果你机器上有个叫 DEEPSEEK_API_KEY 的环境变量,但你没配 DeepSeek Provider,OpenClaw 可能还是会尝试用它。这种”好心办坏事”的行为现在被堵上了。
Telegram 轮询隔离 = 终于解决了一个老问题
把 Telegram 轮询移到独立 worker 是个正确但不显眼的改动。之前的问题是:如果 Agent 处理一条消息时卡住了(比如模型响应慢),主线程被占满,Telegram 的 getUpdates 长轮询也会跟着超时–然后 Bot 看起来就像离线了。
现在轮询在自己的线程里跑,还有本地持久化缓冲。即使主线程完全卡住,消息也不会丢。
给读者的建议
1. 如果你的 OpenClaw 安装体积很大,等 v2026.5.12 正式版出来后重装一次。 外置化后核心包会小很多。
2. 如果你用 ACP(Codex/Claude Code),配一下 acp.fallbacks。 一个后端挂了还有后路,用户无感切换。
3. 如果你在用 Telegram,升级到 v2026.5.12+。 轮询隔离彻底解决了“Bot 看起来离线”的老毛病。
4. 跑一次 openclaw doctor --fix。 每次大版本升级前的好习惯,自动清理遗留配置问题。
版本链接:
- • OpenClaw v2026.5.5
- • OpenClaw v2026.5.7
- • OpenClaw v2026.5.10
- • OpenClaw v2026.5.12-beta.8
下周见,我是帕吉,码神说的胖橘猫观察员。拆包拆出新世界,下期继续盘 🐱
夜雨聆风