乐于分享
好东西不私藏

OpenAI 发了个 GPT-5.5,但我更关心 Agent 这件事

OpenAI 发了个 GPT-5.5,但我更关心 Agent 这件事

四月最后一个完整周,AI 圈子出了两件值得聊的事。

一件是 OpenAI 发了 GPT-5.5。按官方说法,这是朝着「超级应用」走了一步——模型可以自己调用工具、搜索网页、写代码、操作桌面,不需要人一步步教。Hacker News 上 500 多票,讨论热度跟当年 GPT-4 发布差不多。

另一件是 Anthropic 发了一篇技术复盘。Claude Code 最近被用户吐槽代码质量下降,他们查了一个多月,发现是推理策略调优的时候缓存配置出了问题,补丁打上了,问题回滚了。挺诚实的一篇复盘,没有回避问题。

两件事放在一起看,有意思的地方就出来了。

模型本身已经没什么好争的了

GPT-5.5 发布,技术上没有太多意外。更强、更快、更便宜,这个节奏从 GPT-3 开始就没变过。Fortune 引用了知情人士的说法,说 OpenAI 内部已经把模型研发节奏从一年一次压缩到三个月一次。谁先发、谁更强,正在从一个技术问题变成一个供应链管理问题。

真正有意思的是 GPT-5.5 这次的产品形态。

它不再是个单纯的聊天窗口。OpenAI 把搜索、文件处理、代码执行、代理调用都塞进了同一个会话上下文。用大白话说就是——你提一个需求,模型自己判断是去搜一下、跑段代码、还是直接回答。不用你手动切工具。

这个方向叫 Agent,中文通常叫「AI 代理」或「智能体」。

2026 年你要是还觉得 Agent 只是个概念,可能有点落伍了。Forbes 上 Bernard Marr 那篇 2026 年 AI Agent 八大趋势,虽然标题写得像会议日程,内容倒是实打实的——企业自动化、软件开发、客户服务、医疗健康,每个领域都有 Agent 落地的案例。

但 Agent 这条路没那么好走

Anthropic 的复盘是个很好的反面教材。

Claude Code 是 Anthropic 推的 AI 编程助手,定位是「帮你写代码的 Agent」。几个月前用的人反馈不错,最近突然出现质量下降。Anthropic 的技术团队排查后发现,不是模型变差了,而是推理策略和缓存配置的组合出了问题——模型在「该多想的时候想少了,该少想的时候想多了」。

这种问题在传统软件里很容易定位——哪个模块出了 bug,修就是了。但在 Agent 系统里,问题出在「模型判断力的波动」上。你没法用单元测试覆盖一个模型「今天状态好不好」。

能解决的方案,也还是工程层面的:加监控、做回滚、控制推理深度。Anthropic 最后的补丁是调整了默认推理力度,把之前一个激进优化的缓存策略回滚了。不是什么黑科技,就是实打实的工程落地。

我更关心另一件事

模型能力在涨,大家都在做 Agent。大厂在做(OpenAI 的 GPT-5.5 + Agent),创业公司在做(Era 刚融了 1100 万美金做 AI 设备的软件平台),开源社区也在做(GitHub 上 Agent 相关的趋势项目每周都在涨)。

但有个问题一直没人好好回答:Agent 的可靠性怎么衡量?

传统软件有测试覆盖率、可用性 SLA、响应时间 P99。Agent 不是这样工作的——同一个输入,今天和明天的输出可能不一样。不是它学坏了,是模型有概率特性。

我翻了几个做 Agent 产品的团队,大家用的衡量指标基本是这几项:

任务完成率。给 Agent 分配一个任务,它能自己做完的概率是多少。这个最简单直接。

回退率。Agent 发现自己搞不定,主动找人来帮忙的比例。这其实是个好指标——懂得求助的 Agent 比硬撑的 Agent 可靠得多。

干预距离。用户平均需要干预多少次才能让 Agent 完成任务。次数越少越好。

成本曲线。Agent 跑一次花多少算力成本,跟它创造的价值怎么比。

这几个指标都不是 OpenAI 或 Anthropic 定的,是很多 SaaS 团队在实践里摸索出来的。没有行业标准,但至少大家开始往这个方向想了。

说回 GPT-5.5

这次发布把「Agent」做成了模型的默认能力,不是单独的产品线。你开个 ChatGPT,说帮我查一下这周的行业新闻、写个摘要、发个邮件,它能一套走完。

这在一年前还得靠 Zapier 拼好几个步骤才能实现。

当然也有没回答的问题。OpenAI 说 GPT-5.5 是「超级应用」的一步,但没说清楚 Agent 产生的错误谁来兜底。模型调用了错误的 API、发出了不该发的邮件、删了不该删的文件——这些场景在 demo 里不会出现,在真实场景里早晚会出现。

Sam Altman 几个月前说过一句话:AI 的边际成本会降到接近零。这句话被引用了很多次,但大家忽略了他后半句——「重要的是拥有可靠的系统和正确的判断力。」

希望 GPT-5.5 在这件事上有答案。


参考资料:

  • OpenAI GPT-5.5 发布公告 https://openai.com/index/introducing-gpt-5-5/
  • Anthropic Claude Code 质量复盘 https://www.anthropic.com/engineering/april-23-postmortem
  • Forbes: The 8 AI Agent Trends For 2026 https://www.forbes.com/sites/bernardmarr/2025/10/08/the-8-biggest-ai-agent-trends-for-2026/
  • CNBC: OpenAI announces GPT-5.5 https://www.cnbc.com/2026/04/23/openai-announces-latest-artificial-intelligence-model.html
  • TechCrunch: OpenAI GPT-5.5 报道 https://techcrunch.com/2026/04/23/openai-chatgpt-gpt-5-5-ai-model-superapp/