AI 翻译局 · 003 · GPT-5.5
|
OPENAI RESEARCH · NOTE 003 · 2026.05.01 · ISSN AI-26-003 §SUBJECT OF DISSECTION 84.9%>83% GPT-5.5 凭什么超过真实白领的工作分? OpenAI 这次发的不是 ChatGPT 升级是「白领裁员通知书」—— 但有一项数据让所有 CIO 紧急刹车
▸ GDPval 84.9%▸ 86% 幻觉▸ Codex 王▸ Super App |
|
ABSTRACT. 2026 年 4 月 23 日,OpenAI 发布 GPT-5.5。 很多评测把它写成”GPT-5.4 的小升级”。这是误读。 它不是更聪明的 ChatGPT —— 它是 OpenAI “Super App” 战略的引擎。GDPval 跑分 84.9% 已超过真实从业者的 83%;Terminal-Bench 领先 Claude Opus 4.7 整整 13 分。但同时——私有评测里它的幻觉率高达 86%。 |
§ 1一句话定性:从 LLM 到 Agent OS 的临界点
GPT-5.4 时代,OpenAI 还在跟 Claude / Gemini 抢”谁更聪明”。GPT-5.5 不再玩这个游戏。
它把核心训练目标转成了 RL 训练 + 内置思维链 + 5 模态原生 + 1M 上下文,目标读起来像产品发布会,做起来其实是一句话——让模型能干完一件事,而不是答完一道题。
这就是 Agent OS 的临界点:模型从”问答机器”升格为”任务执行者”。GDPval 84.9% 超过 83% 真实从业者基线,是这个临界点最直接的信号。
§ 2三大真升级(按行业冲击半径)
抛开发布会口径,让我们看这一代真正”炸”的三个能力维度——
|
FIG.1 · 三大杀手锏(实测分数 vs 真人 / 上代) |
|
⚡ KILL #1 · MAX RADIUS ① GDPval 84.9% — 比真实白领(83%)还胜任 GDPval 是 OpenAI 推的”产值评测”——覆盖 44 个真实职业的工作流任务(律师、会计、产品经理、工程师等),由专家匿名评分。GPT-5.5 在这个评测里达到 84.9%,超过真实从业者平均水平 83%。这是史上第一次有大模型在通用知识工作上跨过这条线。
|
|
∞ KILL #2 · HIGH RADIUS ② OSWorld 78.7% — 自主操作真实电脑环境 OSWorld-Verified 让 AI 像人一样操作真实电脑——浏览器、Excel、邮件、命令行——完成多步任务。GPT-5.5 拿到 78.7%,意味着它已经可以”打开浏览器查资料 → 复制到 Excel → 算公式 → 发邮件”全流程跑通。
|
|
μ KILL #3 · MED RADIUS ③ 原生 5 模态 + 1M 上下文 + RL 推理 GPT-5.5 是原生 omnimodal——文本、图像、音频、视频在同一个模型架构里端到端处理,不是外挂多个专项模型。API 上下文窗口达 1M tokens(部分配置最大 512K),ChatGPT 至少 256K。RL 训练让推理链内置。
|
§ 3同台 PK:vs Claude Opus 4.7 / DeepSeek V4-Pro / Gemini 3.1 Pro
4 月这一周,三家头部同时开火。我把六个最关键的维度做成对照——
|
FIG.2 · 六维能力对照(颜色越深越领先) 两领先(知识工作/Terminal)+ 一齐平(多模态)+ 三落后(SWE-Pro/CForce/价格) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
关键阅读:三家在不同方向各有护城河,没有一个全面领先。
OpenAI GPT-5.5 在 Agent + 知识工作 上独占头把交椅;Claude Opus 4.7 在 多文件代码精度 上一骑绝尘;DeepSeek V4-Pro 在 价格 + 上下文 + 开源 上无对手。
选模型 = 选战场。不要看哪个”最强”,看自己业务在哪个战场。
§ 4致命短板:86% 幻觉率(OpenAI 没说的事)
OpenAI 发布会上反复强调”更准确”。但第三方评测机构 Artificial Analysis 在私有评测集 AA-Omniscience 上跑出来的数据,是另一个故事——
|
FIG.3 · AA-OMNISCIENCE 幻觉率(越低越好) 数据来源:Artificial Analysis 私有评测 AA-Omniscience,2026.04 公布 |
这意味着什么?
OpenAI 用准确度换速度——为了让 GPT-5.5 跑得”像 Agent”(快、流畅、连贯),它在 RL 训练里调高了”自信度”,结果就是模型更敢编、更敢自圆其说,但事实层面错得更多。
这不是 bug,是设计权衡。但对企业用户而言这是红色警报——任何 GPT-5.5 输出在法律 / 医疗 / 财务 / 合规场景都不能裸奔,必须配 RAG 验证 + 人工审核闸门。
§ 5三种姿势接入 GPT-5.5
|
A · ChatGPT 订阅 / 普通用户 Plus / Pro / Business / Enterprise 已默认启用 5.5。Plus 月费 $20,Pro 月费 $200(不限量 + 5.5 Pro 并行计算)。免费用户仍是 5.4。 |
|
B · API 直连 / 开发者 Responses API 与 Chat Completions API 都支持。命名规范:gpt-5.5(基础)和 gpt-5.5-pro(并行测试时计算)。1M 上下文。
|
|
C · Codex CLI / 编码 Agent Codex 是 OpenAI 的命令行编码 Agent,GPT-5.5 是 Codex 的默认大脑。Terminal-Bench 82.7% 几乎都在 Codex 场景验证。Plus 用户即可使用。
|
§ 6全球产业链冲击波:OpenAI 在打谁
DeepSeek R1 / V4 时代,DeepSeek 把对手定为”OpenAI 的定价权”。
反过来 GPT-5.5 把对手定为更广的领域——它不是在跟 Claude / Gemini 抢 API 用户,是在跟 Microsoft 365 / Google Workspace 抢”白领的桌面”。
|
FIG.4 · OPENAI SUPER APP 三条战线 这是首次有 AI 模型公司直接威胁 SaaS 软件巨头的核心收入。 |
三条战线含义:
战线 1(ChatGPT):仍在跟 Claude / Gemini 抢消费级 API 用户,这是表面战场。
战线 2(Codex):跟 Cursor / Claude Code / Cline 抢编程 Agent 心智份额,对 Anthropic 是直接威胁。
战线 3(Super App):真正的杀手锏——OpenAI 要做”装在你电脑里的 AI 同事”,对手是 Microsoft 365 与 Google Workspace 的核心收入。这一战如果赢了,OpenAI 的市值锚不再是”AI 模型公司”,而是”下一代办公平台”。
|
“ GPT-5.5 不是更聪明的ChatGPT,它是Agent OS 的开端。OpenAI 的对手不再是模型公司——是微软 365。 — AI 翻译局 · § 003 |
|
§ 7 · 给四类读者的判断 i.给开发者:立刻试 Codex CLI(Terminal-Bench 82.7% 是真的)。但代码精度场景 Claude Opus 4.7 仍是首选。Cursor / Claude Code 用户暂时不需要切换。 ii.给企业 CIO:GPT-5.5 是 Agent 工作流的最强引擎,但 86% 幻觉率不能裸奔。预算 = 模型成本 + RAG 验证层 + 人工审核闸门。法律 / 医疗 / 财务必须人工签字。 iii.给白领:GDPval 84.9% 已超 83% 真人——你的工作流被建模并被 OpenAI 用作训练目标。下半年是知识工作的”打补丁年”,不会被替代的人=会用 Agent 把日常工作压缩到 1/5 时长的人。 iv.给投资人:OpenAI 的市值锚正在从”模型公司”变成”办公平台公司”。下一波资本博弈不是”哪家模型最强”——是“哪家 Agent 桌面赢得普通白领”。盯 OpenAI Super App 发布、微软 Copilot 反击、Google Workspace AI 升级三条线。 |
END OF NOTE 003AI 翻译局 · 2026.05.01 · GPT-5.5把术语翻译成判断,把判断翻译成行动
夜雨聆风