乐于分享
好东西不私藏

OpenClaw & Hermes 同日更新:GPT-5.5 和 gpt-image-2

OpenClaw & Hermes 同日更新:GPT-5.5 和 gpt-image-2

昨天 OpenAI 刚发布 GPT-5.5,今天两个平台就都跟上了。

不光是 GPT-5.5,这次 v2026.4.23 还有一件事值得单独说:目前公认最强、最火的生图模型 gpt-image-2,这回也同步接进来了——而且两家接的方式还不一样。

Hermes 这次是真大版本

先说 Hermes,因为量更大。

这次版本号是 v0.11.0,距离上次 v0.9.0 合并了 1556 个 commits、761 个 PR。官方自己给这个版本起了个副标题:「The Interface release」。说白了,这是一次从界面到底层架构的整体翻新,不只是加功能。

全新的 TUI

hermes --tui 现在是一个基于 React/Ink 重写的全新终端界面,背后跑的是 Python JSON-RPC。

新东西挺多:状态栏里会显示 git 分支、每轮的耗时计时器、子代理启动的可视化面板。还有个我喜欢的细节——支持 OSC-52 剪贴板协议,SSH 远程用的时候也能正常复制内容。

Transport 层架构重构 + AWS Bedrock

这是这次工程量最重的部分。原来 run_agent.py 里的格式转换和 HTTP 请求逻辑,现在被抽成了独立的 agent/transports/ 层,四个 Transport 各管各的:Anthropic、OpenAI 兼容、Responses API、Bedrock。

AWS Bedrock 是建在这套新架构上原生支持的,走 Converse API。

GPT-5.5 通过 Codex OAuth 接入

和 OpenClaw 一样,Hermes 也是走 Codex OAuth 跑 GPT-5.5,不需要额外的 API key。模型选择器现在支持动态发现,OpenAI 后续发布的新模型理论上会自动出现在列表里。

gpt-image-2

Hermes 通过新的 openai-codex 图像生成插件,也是走 Codex OAuth,免 API key。

使用方式:

终端:hermes tools 选择:Reconfigure an existing tool’s provider or API key 选择:Image Generation 选择:(*) OpenAI (Codex auth) [free] — gpt-image-2

另外这次图像生成工具整体扩容了——xAI 的 grok-imagine-image 也进来了,Recraft 升到了 V4 Pro。

五条新推理路径

NVIDIA NIM、Arcee AI、Step Plan、谷歌 Gemini CLI OAuth、Vercel ai-gateway,一次性加了五个。Gemini 也改成走原生 AI Studio API,性能比之前好一些。

Kimi K2.6 同时接进了 OpenRouter、Nous Portal、原生 Kimi 和 HuggingFace,MiMo v2.5-pro 也上了。

/steer:运行中给 agent 改方向

这个功能我觉得很实用。运行中的 agent 跑偏了,之前只能硬停重来。现在可以输入 /steer <提示>,它会在当前 tool call 结束后注入这条方向调整,不打断整个任务。

不破坏提示缓存,不中断当前轮,只是悄悄插进去一条备注。

插件接口大扩展

这次插件能做的事多了很多。可以注册斜杠命令、直接调用工具、拦截 tool 执行(veto)、改写 tool 返回结果、改写终端输出、挂接图像生成后端、在仪表板添加自定义 Tab。

第 17 个接入平台:QQBot

QQ 官方 API v2 的原生适配,扫码配置、流式输出、群聊和私信都做了权限分离。

还顺带升级了钉钉(AI Cards 流式、emoji 反应、扫码授权)和 WhatsApp(原生语音消息)。飞书现在能在文档评论里智能回复了。

仪表板现在有中文了

Web 控制台加了中英文语言切换,仪表板插件系统开放了,第三方可以加自定义 Tab。还有实时主题切换,支持热切换不用刷页面。


OpenClaw:这次安全修了个够

OpenClaw 这次更新量也不小,但最显眼的是安全修复的密度——一口气处理了十几个不同维度的安全问题,有点像是在统一还债。

gpt-image-2 不再需要 OPENAI_API_KEY

这是我测试之后最想告诉大家的一个点。

之前用 gpt-image-2 必须要有自己的 OpenAI API key,现在不需要了。通过 Codex OAuth 认证就能跑,走的是同一套路由逻辑。OpenRouter 那边也同步支持了图像生成。

图像生成工具现在还支持传额外参数:背景、压缩率、内容审核提示,以及每次调用单独设超时时间(timeoutMs)——之前 Gemini 生图慢的时候老超时,这下能单独拉长了。

还修了一个之前困扰不少人的问题:图像附件配给纯文本模型(比如不支持视觉的模型)时,原来会被直接丢掉,现在会转成媒体引用保留下来,交给配置的图像工具处理。

GPT-5.5 终于可以正常接入了

OpenClaw 内部有个叫 Pi 的依赖包,专门管模型目录——哪些模型可用、各自的参数是什么,都靠它维护。这次更新把 Pi 升到了 0.70.0,GPT-5.5 的模型信息直接从 Pi 的上游同步,不用 OpenClaw 自己单独维护一份。

另外修了一个实际会踩到的坑:Codex 有时候在扫描可用模型时会漏掉 openai-codex/gpt-5.5 这一条。之前漏掉就完了,cron 定时任务和子代理一跑就报「Unknown model」。现在加了兜底逻辑,漏掉了会自动补回来,任务不会因此中断。

密集的安全加固

这次安全相关的改动特别集中,一起列一下:

Android 端现在只允许回环(loopback)的明文网关连接,私有局域网的 ws:// 默认失败,除非启用 TLS。移动端配对也只允许私有 IP 或回环地址,.local 和无点主机名不再被当作安全端点。

Teams 的 Bot Framework 共享令牌现在必须包含配置的 Teams App ID,堵上了跨 bot 的 token 重放漏洞。Discord 的原生斜杠命令频道策略不再绕过 owner/member 限制。QQBot 的 /bot-approve 接口加了框架鉴权。

MCP 工具桥里,cron 等 owner-only 工具现在对非 owner 的 MCP 调用方不可见,关掉了一条权限提升路径。

插件的 setup-api 查找逻辑也收紧了,不会再回退到启动目录,防止工作区内的 extensions/<plugin>/setup-api.* 在 provider 配置时被执行。

Webhook 的 SecretRef 现在每次请求都重新解析,openclaw secrets reload 之后立刻生效,不用重启网关。

代理配置热更新(config.apply/config.patch)改成了白名单模式——只有特定的提示词、模型、mention 等字段可以被 agent 修改,之前的黑名单方式太容易漏掉新加的敏感 key。

Memory dreaming 从心跳解耦

这个改动解决了一个长期存在的问题:dreaming(记忆整理)任务之前绑在心跳上,如果 heartbeat 关了,dreaming 也跟着停。现在它作为独立的轻量 agent 轮次运行,心跳状态不影响它。

openclaw doctor --fix 会自动把老的 dreaming cron 配置迁移成新格式。

Slack 和 Telegram 的修复

Slack 群组里,agent 的”Working…”进度信息之前会泄漏到频道里,现在只在 DM 里显示。Telegram 的 Markdown 图片语法(![...](...) 格式)之前发到群组时会退化成纯文本 URL,现在能正确解析成媒体消息了。


两家横向对比

这次更新有一个共同点:两家都在 GPT-5.5 发布后一天内接入,速度差不多,看来都对这次的GPT-5.5和gpt-image-2很上心。

OpenClaw 把 gpt-image-2 的 Codex OAuth 路由做得很细——auth 路由、multipart 上传、fallback 逻辑都专门处理了,还修了好几个具体的生图 bug。Hermes 推了 openai-codex 图像生成插件。

工程重心也不同。这个版本 Hermes 明显是在做架构层的事——Transport 重构、TUI 重写,这些是为后续扩展打基础的动作。OpenClaw 这次则把精力大量压在安全加固上,十几个漏洞一起补,有点像是做了一次系统性的安全审查。

我两个都更新到了最新版本,目前使用没遇到问题。