乐于分享
好东西不私藏

OpenClaw v2026.4.27:桌面控制、新推理提供商与 GPU 沙箱——Agent 能力边界扩展

OpenClaw v2026.4.27:桌面控制、新推理提供商与 GPU 沙箱——Agent 能力边界扩展

桌面控制 · DeepInfra · GPU 沙箱 · v2026.4.27 ——
openclaw/openclaw 在本版将 Agent 的能力边界从「对话与工具调用」
扩展到桌面操控、更多推理源和本地 GPU 计算,为「个人 AI 助理」
提供了更完整的自主行动层。

项目定位:自部署的 AI 助理层

OpenClaw 是一个运行在用户自己设备上的个人 AI 助理网关。
它不依赖云服务商的计算节点——Gateway 只负责编排,
AI 能力来自你配置的模型提供商(OpenAI、Anthropic、本地 Ollama 等)。

项目支持 30+ 消息渠道(Telegram、Discord、微信、WhatsApp、iMessage 等),
通过插件体系接入模型推理、记忆存储、MCP 工具和第三方服务。
截至 2026 年 4 月,仓库已获 36.6 万 star,社区贡献者持续活跃。

OpenClaw 的架构核心是「编排而非运行」:Gateway 本身不执行模型推理,
不持有用户数据副本,只是把消息路由到正确的模型、工具和记忆系统。
这种轻量控制面的设计,使得功能扩展一直围绕「Agent 还能做什么」展开,
过去几个版本已经加入了多 Agent 协作、记忆持久化、MCP 工具市场等能力。
v2026.4.27 则集中在三个方向上:桌面操控、更多推理源、沙箱 GPU 计算。

旧版痛点:Agent 的行动半径有限

在此之前,OpenClaw Agent 虽然可以调用工具、搜索记忆、向渠道发消息,
但在实际使用中仍有三类常见的「边界墙」。

桌面控制需要额外工具链。 如果用户希望 Agent 帮自己操作本地软件
(例如填写表单、截图分析、自动化测试),过去需要自行搭建 Playwright
或 Selenium 环境,或者在 macOS 上配置 Peekaboo 桥接。
过程中涉及权限授权、MCP 服务器注册和工具链调试,
对非技术用户来说门槛很高,且 Agent 本身没有开箱即用的「桌面端」。

模型提供商选择不够广。 社区的模型提供商插件虽然每年增长,
但一些用户需要「一个 API Key 覆盖多个开源模型」的轻量化方案——
特别是需要同时跑推理、图片生成、语音合成和向量嵌入的场景。
过去用户可能需要配置多组提供商凭证,才能在不同任务之间切换。

沙箱环境缺少 GPU 支持。 在 Docker 沙箱中运行 Agent 代码时,
本地 GPU 资源默认不可达。这意味着运行本地模型微调、图像处理
或科学计算类任务时,Agent 要么绕开沙箱,要么性能大幅下降。

这三个限制的共同点:Agent 有「听到」和「说到」的能力,
但在「看到」「触达」「算到」的维度上仍有明显缺口。
v2026.4.27 正好在这三个缺口上各补了一刀。

新能力:从配置到用法

本版更新覆盖了从终端命令到配置项的多个层面,以下是三个核心能力的用法要点。

桌面控制:Codex Computer Use 集成。
新增 /codex computer-use status 和 install 命令,
可在 Codex 模式 Agent 启动前检测、安装并启用 Codex 原生的 Computer Use
MCP 插件。在 codex 插件配置中添加 computerUse.autoInstall: true
Agent 就会在每次 Codex 模式会话前自动检查 MCP 服务器是否就绪。
配置项支持指定 marketplace 源、超时时间和插件名称,
并内置了 macOS 市场路径的自动发现(/Applications/Codex.app/...)。

DeepInfra 成为内置提供商。
新增 deepinfra 插件,支持聊天推理、图片生成/编辑、
媒体理解、语音合成(TTS)、视频生成和向量嵌入。
用户只需配置一个 DEEPINFRA_API_KEY,通过 openclaw onboard 向导
或配置文件 models.providers.deepinfra.apiKey 启用。
模型目录通过插件 manifest 的 modelCatalog 声明,
Gateway 启动时不额外加载,减少冷启动时间。

沙箱 Docker GPU 直通。
在 sandbox 配置中新增 sandbox.docker.gpus 选项。
设为 all 或指定 GPU UUID 后,Docker 沙箱容器会带上 --gpus 参数,
使容器内的 Agent 代码可以直接访问宿主机 GPU。
对于本地跑模型推理、图像处理等任务,不再需要绕过沙箱或牺牲隔离性。

此外,本版还新增了出站代理路由proxy.enabled + proxy.proxyUrl),
支持企业环境下通过 HTTP 正向代理外连 AI 服务;
以及 QQBot 和腾讯元宝 渠道的原生支持,
进一步扩展了国内消息平台的覆盖。

原理简析:编排层如何支撑新能力

这三项能力虽然面向不同场景,但在实现层面都对应着 OpenClaw
插件体系的一次成熟应用。

Codex Computer Use 的集成不走网关代理。
OpenClaw 只做「检查->安装->就绪确认」的编排工作:
通过 Codex app-server API 查询插件状态,调用 marketplace 发现接口,
确认 MCP 服务器已暴露工具后即把控制权交还给 Codex 原生运行。
Gateway 不代理 MCP 调用,不接管权限决策,
也不感知桌面控制的工具调用细节。这种「编排不代理」的边界,
使得 OpenClaw 可以在保持安全隔离的前提下,为 Agent 提供桌面入口。

DeepInfra 插件使用了新的 manifest 式元数据声明。
插件不再需要在运行时动态构建模型列表,
而是通过 modelCatalog 字段在插件 manifest 中声明支持的模型行。
Gateway 在启动时只缓存这些声明,不逐模型发起 API 探测。
这降低了插件加载对 Gateway 启动速度的影响,
也让提供商可维护的模型清单能够通过 ClawHub 更新来追加。

沙箱 GPU 直通利用 Docker 已有的设备挂载能力。
OpenClaw 在生成 sandbox merge 配置时,将 gpus 字段合并到
Docker 容器的创建参数中。在宿主 Docker 支持 --gpus 的前提下,
该配置不会破坏已有的沙箱隔离策略——Agent 代码仍在容器内运行,
只是多了 GPU 设备节点。这是最小侵入设计的一个典型:
通过暴露已有的平台能力,而不是在编排层重复实现硬件调度。

三个方向的共同逻辑是:OpenClaw 不自己「做」桌面、不自己「跑」模型、
不自己「管理」GPU 调度——它只负责在 Agent 需要的时候,
把已经存在的这些能力安全地编排进来。