关注 霍格沃兹测试学院公众号,回复「资料」, 领取人工智能测试开发技术合集
900 页保险单 100% 提取,一半 PR 出自 Agent。你还在手动调 LangChain 吗?
很多人已经开始感觉到不对劲了。
三个月前,GPT-5.4 带着原生 computer use 登场,模型能直接操作电脑了。但开发者很快发现一个问题:模型能点能敲,可 Agent 到底跑在哪台机器上?怎么保证它不乱删文件?怎么让它跑几个小时不断线?
这些基建问题,还是得自己东拼西凑。
今晚,OpenAI 把这个缺口堵上了。
不是小修小补,是把整个 Agents SDK 从底层重写了一遍。原生 harness、原生沙盒、Codex 同款文件系统工具,外加七家沙盒厂商一键接入。
一句话:OpenAI 把 Agent 的「运行环境」和「大脑」彻底解耦,然后把基建层直接铺到了所有人脚下。
这篇文章,我们从工程视角拆三件事:
这次到底改了什么 为什么说 LangChain 们无处可躲 你现在应该怎么做
目录
一、现象:GPT-5.4 能操作电脑了,但 Agent 没地方跑二、本质变化:OpenAI 把「基建」和「算力」拆开了三、核心机制拆解:harness + 沙盒 + Manifest四、典型案例:900 页保单 100% 提取,一半 PR 来自 Agent五、工程落地启示:你的 Agent 架构该升级了六、趋势判断:第三方框架往哪走
一、现象:GPT-5.4 能操作电脑了,但 Agent 没地方跑
3 月初,GPT-5.4 带着原生 computer use 发布。模型能看屏幕、移动鼠标、点击输入,跟人一样操作电脑。
开发者当时就炸了。
但炸完之后是尴尬。模型是能操作电脑了,可 Agent 跑在哪台电脑上?用自己笔记本?那跑几小时的任务怎么办?用云服务器?环境怎么配?权限怎么隔离?跑崩了从哪恢复?
这些问题,OpenAI 当时一个都没解决。
开发者只能自己拼:LangChain 管流程、Docker 管隔离、Redis 管状态、再加一堆回调脚本。一套下来,还没写业务逻辑,基建已经堆了上千行。
这不是个例。过去一年,几乎所有做长周期 Agent 的团队都在重复造同一个轮子:一个能稳定运行几小时、几天、甚至几周的 Agent 运行时。
今晚,OpenAI 把这个轮子直接塞进了 SDK。
二、本质变化:OpenAI 把「基建」和「算力」拆开了
这次升级,核心就两件事。
第一件:给 Agent 配了一个完整的运行框架——harness。
配置化记忆、感知沙盒编排、文件系统工具(Codex 同款)、通过 MCP 调外部工具、通过 skills 渐进式披露信息、通过 AGENTS.md 自定义指令、用 shell 执行代码、用 apply_patch 编辑文件。
这套清单,熟悉 Claude Code 和 Cursor 的开发者一看就懂。OpenAI 把自家 Codex 过去一年踩过的坑、积累的最佳实践,全部产品化塞进了 SDK。
第二件:把 harness 和 compute 彻底分离。
harness 跑在你的可信基建里,负责模型调用、工具路由、审批流、状态追踪、暂停恢复。
compute 是一个独立的沙盒,专门负责读写文件、跑命令、装依赖、吐产物。
两层之间接口标准化。API key 和敏感凭证压根不会进入沙盒。沙盒里既没有密钥,也没有任何敏感数据。甚至可以断开网络,零对外流量。
这不是安全加固。这是架构范式的迁移。
以前,Agent = 模型 + 提示词 + 工具调用。现在,Agent = harness(控制流) + sandbox(执行环境) + 模型。
本质是:OpenAI 不再只卖模型推理,开始卖 Agent 的生产级运行底座。
三、核心机制拆解:harness + 沙盒 + Manifest
这次发布,技术上有三个点值得深挖。
1. Manifest:一份配置清单,解耦所有沙盒供应商
Manifest 描述 Agent 工作区的完整配置:要挂载哪些本地文件、从哪个云存储拉数据、产物写到哪里。AWS S3、GCS、Azure Blob、Cloudflare R2 全覆盖。
关键是,Manifest 和具体沙盒供应商解耦。今天用 E2B 写的 Agent,明天想换 Modal 跑,不改代码,只改一行配置。
官方给了最小示例,让一个 Agent 跑进本地沙盒,挂载财报目录,对比两年的财务指标,核心代码不到 20 行。
agent = SandboxAgent( name="Dataroom Analyst", model="gpt-5.4", instructions="Answer using only files in data/. Cite source filenames.", default_manifest=Manifest(entries={"data": LocalDir(src=dataroom)}),)20 行代码,完成一个能读文件、能分析、能引用来源的 Agent。以前用 LangChain 写,至少 100 行起。
2. 快照与状态恢复:掉线续命
长跑任务最怕什么?沙盒容器挂了,所有进度丢失,从头再来。
这次 SDK 原生支持快照和状态恢复。Agent 跑到一半,整个状态序列化保存。沙盒崩了,从最近检查点恢复,继续跑。
这不是 checkpoint 回调,是原生内建。
3. 多沙盒并行 + 子 Agent 隔离:分身作战
一个任务拆成十个子任务,十个子任务分别跑在十个独立沙盒里,互不干扰。每个子 Agent 有自己的隔离环境,主 Agent 负责协调和汇总。
扩展性问题,原生解决。
Agent 第一次有了「掉线续命」和「分身作战」的能力。
四、典型案例:900 页保单 100% 提取,一半 PR 来自 Agent
数字比观点更有说服力。
案例一:900 页保险理赔记录,100% 提取
FurtherAI CTO 披露,他们的 Agent 啃下了一份 900 多页的保险理赔记录,提取成功率 100%。保险业的人知道,这是业内最难啃的文档之一,以前跑到某一页崩掉是常态。
案例二:公司一半 PR 出自 Agent
Modal 技术团队成员透露,Ramp 已经用 Modal 跑了一支后台编码 Agent 大军,公司超过一半的 PR 都是这些 Agent 自己创建的。Stripe 也在今年早些时候披露,内部 AI Agent 每周产出超过 1000 个 PR。
两家公司的共同点:在拿到成熟 Agent 基建之后,业务团队的生产力出现了断层式跃迁。
案例三:代码量减少 6 倍
Tomoro AI 研发工程师给出了硬数字:相同能力的 Agent,这次需要的代码量比以前少了 6 倍。
案例四:发票对账,第一轮就跑通
Box 开发者关系负责人传了一份业务数据,配上 bash/python 作为工具,让 Agent 在沙盒里跑了一整套发票对账业务流程。第一轮试水就全跑通了。
这些案例说明一件事:以前只有头部公司才能攒出来的 Agent 基建,现在变成了 SDK 里开箱即用的默认配置。
人工智能技术学习交流群
伙伴们,对AI测试、大模型评测、质量保障感兴趣吗?我们建了一个 「人工智能测试开发交流群」,专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索,都欢迎扫码加入,一起抱团成长!期待与你交流!👇

五、工程落地启示:你的 Agent 架构该升级了
如果你现在还在用 LangChain 或自己手写 Agent 框架,这次发布应该让你重新思考三件事。
启示一:不要自己造 harness 轮子
harness 的核心是控制流、状态管理、工具路由、暂停恢复。这些逻辑非常通用,OpenAI 已经给出了官方实现。自己写的版本,大概率没有官方稳定,也没有官方迭代快。
除非你有极其特殊的编排需求,否则直接基于 OpenAI Agents SDK 往上搭业务。
启示二:沙盒选型变成配置问题
以前,选沙盒意味着改代码。换了沙盒供应商,工具调用层要重写。现在,Manifest 一层抽象,沙盒选型变成改一行配置。
建议:本地开发用 UnixLocalSandboxClient,测试用 E2B,生产环境按数据位置选 Modal 或 Runloop。哪家便宜、哪家离数据近,就切到哪家。
启示三:长跑任务必须用快照
很多人做 Agent 演示时跑几分钟没问题,一到生产跑几个小时就崩。原因是没有状态恢复能力。
新 SDK 原生支持快照,建议从第一天就把 checkpoint 机制用起来。不是等出了问题再加,是架构上就依赖它。
下面这张图概括了新的 Agent 架构:

核心变化:Harness 管脑子,Sandbox 管手脚。中间用 Manifest 解耦。
六、趋势判断:第三方框架往哪走
这次发布,对 Agent 生态的冲击才刚刚显露。
LangChain、LangGraph、CrewAI、AutoGen 这些第三方框架,过去一年靠什么活着?靠补齐 OpenAI 原生 SDK 不够「生产可用」的那块空白。编排、记忆管理、护栏、追踪、多 Agent 协作,这些都是第三方的主战场。
现在,OpenAI 一次性把这些主战场全接管了。
harness 原生支持编排和暂停恢复,Manifest 原生支持工具和沙盒管理,快照原生支持状态持久化。
第三方框架的空间,被压缩到两个方向:
往上走:垂直场景的 Agent 编排(比如只做客服 Agent、只做编码 Agent) 往下走:专用沙盒、专用工具、专用存储
夹在中间做通用 Agent 框架的,地板已经被 OpenAI 自己踩实了。
另外,OpenAI 口中的「兼容所有沙盒服务商」,本身就是在把沙盒供应商纳入自己的生态位。今天还是合作伙伴,明天可能就是「组件供应商」。
当然,目前还不完美。新能力首发只上了 Python,TypeScript 还在排队。SDK 版本号仍然停留在 0.Y.Z。
但方向已经非常清晰了。
GPT-5.4 带着原生 computer use 登台,Agents SDK 给它配齐了真正的运行环境。下一步缺的,只是更多开发者把业务逻辑搭在这个基建之上。
推荐学习
扫码进群,报名学习。

关于我们
霍格沃兹测试开发学社,隶属于 测吧(北京)科技有限公司,是一个面向软件测试爱好者的技术交流社区。
学社围绕现代软件测试工程体系展开,内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试,以及人工智能测试与 AI 在测试工程中的应用实践。
我们关注测试工程能力的系统化建设,包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设,同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法,沉淀可复用、可落地的测试开发工程经验。
在技术社区与工程实践之外,学社还参与测试工程人才培养体系建设,面向高校提供测试实训平台与实践支持,组织开展 “火焰杯” 软件测试相关技术赛事,并探索以能力为导向的人才培养模式,包括高校学员先学习、就业后付款的实践路径。
同时,学社结合真实行业需求,为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务,用于个性化能力提升与工程实践指导。
夜雨聆风