OpenAI 悄悄重写 Agents SDK:生产级 Agent 底座来了,LangChain 们还怎么活?

关注霍格沃兹测试学院公众号，回复「资料」, 领取人工智能测试开发技术合集

900 页保险单 100% 提取，一半 PR 出自 Agent。你还在手动调 LangChain 吗？

很多人已经开始感觉到不对劲了。

三个月前，GPT-5.4 带着原生 computer use 登场，模型能直接操作电脑了。但开发者很快发现一个问题：模型能点能敲，可 Agent 到底跑在哪台机器上？怎么保证它不乱删文件？怎么让它跑几个小时不断线？

这些基建问题，还是得自己东拼西凑。

今晚，OpenAI 把这个缺口堵上了。

不是小修小补，是把整个 Agents SDK 从底层重写了一遍。原生 harness、原生沙盒、Codex 同款文件系统工具，外加七家沙盒厂商一键接入。

一句话：OpenAI 把 Agent 的「运行环境」和「大脑」彻底解耦，然后把基建层直接铺到了所有人脚下。

这篇文章，我们从工程视角拆三件事：

这次到底改了什么
为什么说 LangChain 们无处可躲
你现在应该怎么做

一、现象：GPT-5.4 能操作电脑了，但 Agent 没地方跑二、本质变化：OpenAI 把「基建」和「算力」拆开了三、核心机制拆解：harness + 沙盒 + Manifest四、典型案例：900 页保单 100% 提取，一半 PR 来自 Agent五、工程落地启示：你的 Agent 架构该升级了六、趋势判断：第三方框架往哪走

一、现象：GPT-5.4 能操作电脑了，但 Agent 没地方跑

3 月初，GPT-5.4 带着原生 computer use 发布。模型能看屏幕、移动鼠标、点击输入，跟人一样操作电脑。

开发者当时就炸了。

但炸完之后是尴尬。模型是能操作电脑了，可 Agent 跑在哪台电脑上？用自己笔记本？那跑几小时的任务怎么办？用云服务器？环境怎么配？权限怎么隔离？跑崩了从哪恢复？

这些问题，OpenAI 当时一个都没解决。

开发者只能自己拼：LangChain 管流程、Docker 管隔离、Redis 管状态、再加一堆回调脚本。一套下来，还没写业务逻辑，基建已经堆了上千行。

这不是个例。过去一年，几乎所有做长周期 Agent 的团队都在重复造同一个轮子：一个能稳定运行几小时、几天、甚至几周的 Agent 运行时。

今晚，OpenAI 把这个轮子直接塞进了 SDK。

二、本质变化：OpenAI 把「基建」和「算力」拆开了

这次升级，核心就两件事。

第一件：给 Agent 配了一个完整的运行框架——harness。

配置化记忆、感知沙盒编排、文件系统工具（Codex 同款）、通过 MCP 调外部工具、通过 skills 渐进式披露信息、通过 AGENTS.md 自定义指令、用 shell 执行代码、用 apply_patch 编辑文件。

这套清单，熟悉 Claude Code 和 Cursor 的开发者一看就懂。OpenAI 把自家 Codex 过去一年踩过的坑、积累的最佳实践，全部产品化塞进了 SDK。

第二件：把 harness 和 compute 彻底分离。

harness 跑在你的可信基建里，负责模型调用、工具路由、审批流、状态追踪、暂停恢复。

compute 是一个独立的沙盒，专门负责读写文件、跑命令、装依赖、吐产物。

两层之间接口标准化。API key 和敏感凭证压根不会进入沙盒。沙盒里既没有密钥，也没有任何敏感数据。甚至可以断开网络，零对外流量。

这不是安全加固。这是架构范式的迁移。

以前，Agent = 模型 + 提示词 + 工具调用。现在，Agent = harness（控制流） + sandbox（执行环境） + 模型。

本质是：OpenAI 不再只卖模型推理，开始卖 Agent 的生产级运行底座。

三、核心机制拆解：harness + 沙盒 + Manifest

这次发布，技术上有三个点值得深挖。

1. Manifest：一份配置清单，解耦所有沙盒供应商

Manifest 描述 Agent 工作区的完整配置：要挂载哪些本地文件、从哪个云存储拉数据、产物写到哪里。AWS S3、GCS、Azure Blob、Cloudflare R2 全覆盖。

关键是，Manifest 和具体沙盒供应商解耦。今天用 E2B 写的 Agent，明天想换 Modal 跑，不改代码，只改一行配置。

官方给了最小示例，让一个 Agent 跑进本地沙盒，挂载财报目录，对比两年的财务指标，核心代码不到 20 行。

agent = SandboxAgent(    name="Dataroom Analyst",    model="gpt-5.4",    instructions="Answer using only files in data/. Cite source filenames.",    default_manifest=Manifest(entries={"data": LocalDir(src=dataroom)}),)

20 行代码，完成一个能读文件、能分析、能引用来源的 Agent。以前用 LangChain 写，至少 100 行起。

2. 快照与状态恢复：掉线续命

长跑任务最怕什么？沙盒容器挂了，所有进度丢失，从头再来。

这次 SDK 原生支持快照和状态恢复。Agent 跑到一半，整个状态序列化保存。沙盒崩了，从最近检查点恢复，继续跑。

这不是 checkpoint 回调，是原生内建。

3. 多沙盒并行 + 子 Agent 隔离：分身作战

一个任务拆成十个子任务，十个子任务分别跑在十个独立沙盒里，互不干扰。每个子 Agent 有自己的隔离环境，主 Agent 负责协调和汇总。

扩展性问题，原生解决。

Agent 第一次有了「掉线续命」和「分身作战」的能力。

四、典型案例：900 页保单 100% 提取，一半 PR 来自 Agent

数字比观点更有说服力。

案例一：900 页保险理赔记录，100% 提取

FurtherAI CTO 披露，他们的 Agent 啃下了一份 900 多页的保险理赔记录，提取成功率 100%。保险业的人知道，这是业内最难啃的文档之一，以前跑到某一页崩掉是常态。

案例二：公司一半 PR 出自 Agent

Modal 技术团队成员透露，Ramp 已经用 Modal 跑了一支后台编码 Agent 大军，公司超过一半的 PR 都是这些 Agent 自己创建的。Stripe 也在今年早些时候披露，内部 AI Agent 每周产出超过 1000 个 PR。

两家公司的共同点：在拿到成熟 Agent 基建之后，业务团队的生产力出现了断层式跃迁。

案例三：代码量减少 6 倍

Tomoro AI 研发工程师给出了硬数字：相同能力的 Agent，这次需要的代码量比以前少了 6 倍。

案例四：发票对账，第一轮就跑通

Box 开发者关系负责人传了一份业务数据，配上 bash/python 作为工具，让 Agent 在沙盒里跑了一整套发票对账业务流程。第一轮试水就全跑通了。

这些案例说明一件事：以前只有头部公司才能攒出来的 Agent 基建，现在变成了 SDK 里开箱即用的默认配置。

人工智能技术学习交流群

伙伴们，对AI测试、大模型评测、质量保障感兴趣吗？我们建了一个 「人工智能测试开发交流群」，专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索，都欢迎扫码加入，一起抱团成长！期待与你交流！👇

五、工程落地启示：你的 Agent 架构该升级了

如果你现在还在用 LangChain 或自己手写 Agent 框架，这次发布应该让你重新思考三件事。

启示一：不要自己造 harness 轮子

harness 的核心是控制流、状态管理、工具路由、暂停恢复。这些逻辑非常通用，OpenAI 已经给出了官方实现。自己写的版本，大概率没有官方稳定，也没有官方迭代快。

除非你有极其特殊的编排需求，否则直接基于 OpenAI Agents SDK 往上搭业务。

启示二：沙盒选型变成配置问题

以前，选沙盒意味着改代码。换了沙盒供应商，工具调用层要重写。现在，Manifest 一层抽象，沙盒选型变成改一行配置。

建议：本地开发用 UnixLocalSandboxClient，测试用 E2B，生产环境按数据位置选 Modal 或 Runloop。哪家便宜、哪家离数据近，就切到哪家。

启示三：长跑任务必须用快照

很多人做 Agent 演示时跑几分钟没问题，一到生产跑几个小时就崩。原因是没有状态恢复能力。

新 SDK 原生支持快照，建议从第一天就把 checkpoint 机制用起来。不是等出了问题再加，是架构上就依赖它。

下面这张图概括了新的 Agent 架构：

核心变化：Harness 管脑子，Sandbox 管手脚。中间用 Manifest 解耦。

六、趋势判断：第三方框架往哪走

这次发布，对 Agent 生态的冲击才刚刚显露。

LangChain、LangGraph、CrewAI、AutoGen 这些第三方框架，过去一年靠什么活着？靠补齐 OpenAI 原生 SDK 不够「生产可用」的那块空白。编排、记忆管理、护栏、追踪、多 Agent 协作，这些都是第三方的主战场。

现在，OpenAI 一次性把这些主战场全接管了。

harness 原生支持编排和暂停恢复，Manifest 原生支持工具和沙盒管理，快照原生支持状态持久化。

第三方框架的空间，被压缩到两个方向：

往上走：垂直场景的 Agent 编排（比如只做客服 Agent、只做编码 Agent）
往下走：专用沙盒、专用工具、专用存储

夹在中间做通用 Agent 框架的，地板已经被 OpenAI 自己踩实了。

另外，OpenAI 口中的「兼容所有沙盒服务商」，本身就是在把沙盒供应商纳入自己的生态位。今天还是合作伙伴，明天可能就是「组件供应商」。

当然，目前还不完美。新能力首发只上了 Python，TypeScript 还在排队。SDK 版本号仍然停留在 0.Y.Z。

但方向已经非常清晰了。

GPT-5.4 带着原生 computer use 登台，Agents SDK 给它配齐了真正的运行环境。下一步缺的，只是更多开发者把业务逻辑搭在这个基建之上。