乐于分享
好东西不私藏

AI 翻译局 · 003 · GPT-5.5

AI 翻译局 · 003 · GPT-5.5

OPENAI RESEARCH · NOTE 003 · 2026.05.01 · ISSN AI-26-003         

§SUBJECT OF DISSECTION

84.9%>83%

           GPT-5.5 凭什么超过真实白领的工作分?         

           OpenAI 这次发的不是 ChatGPT 升级「白领裁员通知书」—— 但有一项数据让所有 CIO 紧急刹车         

                 FIG.0 · GDPVAL · 44 PROFESSIONS BENCHMARK · 2026.04               

真实白领  vs  GPT-5.5 Agent真实从业者 (HUMAN)83%GDPval median+1.9 pt史上首次 · AI 跨过这条线A5 MODALGPT-5.5OpenAI Agent84.9%GPT-5.5 first crossing注 Note · 第三方匿名专家评分 · 44 个真实职业(律师、会计、工程师、产品经理…)

▸ GDPval 84.9%▸ 86% 幻觉▸ Codex 王▸ Super App

             ABSTRACT.           

             2026 年 4 月 23 日,OpenAI 发布 GPT-5.5。           

             很多评测把它写成”GPT-5.4 的小升级”。这是误读。

             它不是更聪明的 ChatGPT —— 它是 OpenAI “Super App” 战略的引擎。GDPval 跑分 84.9% 已超过真实从业者的 83%;Terminal-Bench 领先 Claude Opus 4.7 整整 13 分。但同时——私有评测里它的幻觉率高达 86%。           

§ 1一句话定性:从 LLM 到 Agent OS 的临界点

GPT-5.4 时代,OpenAI 还在跟 Claude / Gemini 抢”谁更聪明”。GPT-5.5 不再玩这个游戏。

它把核心训练目标转成了 RL 训练 + 内置思维链 + 5 模态原生 + 1M 上下文,目标读起来像产品发布会,做起来其实是一句话——让模型能干完一件事,而不是答完一道题。

这就是 Agent OS 的临界点:模型从”问答机器”升格为”任务执行者”。GDPval 84.9% 超过 83% 真实从业者基线,是这个临界点最直接的信号。

§ 2三大真升级(按行业冲击半径)

抛开发布会口径,让我们看这一代真正”炸”的三个能力维度——

FIG.1 · 三大杀手锏(实测分数 vs 真人 / 上代)

100755025084.9%GPT-5.5知识工作GDPval · 44 职业▲ 真人 83%78.7%GPT-5.5操作电脑OSWorld-Verified98.0%GPT-5.5客服流程Tau2-bench Telecom三个跑分都不是”答题”——是”干完一件事”

⚡ KILL #1 · MAX RADIUS

① GDPval 84.9% — 比真实白领(83%)还胜任

GDPval 是 OpenAI 推的”产值评测”——覆盖 44 个真实职业的工作流任务(律师、会计、产品经理、工程师等),由专家匿名评分。GPT-5.5 在这个评测里达到 84.9%,超过真实从业者平均水平 83%。这是史上第一次有大模型在通用知识工作上跨过这条线。

Note. 不要只看分数,看”评测的目标”。OpenAI 自己设计这个 Benchmark,意图非常明确——证明 GPT-5.5 已经可以替代白领。这是为投资人和企业 CIO 准备的”裁员理由”。

∞ KILL #2 · HIGH RADIUS

② OSWorld 78.7% — 自主操作真实电脑环境

OSWorld-Verified 让 AI 像人一样操作真实电脑——浏览器、Excel、邮件、命令行——完成多步任务。GPT-5.5 拿到 78.7%,意味着它已经可以”打开浏览器查资料 → 复制到 Excel → 算公式 → 发邮件”全流程跑通。

Note. 这是 OpenAI Super App 战略的真正引擎。Super App 不是 ChatGPT 加按钮,是模型直接操控你的电脑。OSWorld 78.7% 是这条路线技术可行性的 GO 信号。

μ KILL #3 · MED RADIUS

③ 原生 5 模态 + 1M 上下文 + RL 推理

GPT-5.5 是原生 omnimodal——文本、图像、音频、视频在同一个模型架构里端到端处理,不是外挂多个专项模型。API 上下文窗口达 1M tokens(部分配置最大 512K),ChatGPT 至少 256K。RL 训练让推理链内置。

Note. 多模态曾经是 Gemini 的护城河,1M 上下文曾经是 DeepSeek V4 的差异化。GPT-5.5 一次把这两件事补齐到自己阵营,并叠加 RL 推理——补课速度令人警觉。

§ 3同台 PK:vs Claude Opus 4.7 / DeepSeek V4-Pro / Gemini 3.1 Pro

4 月这一周,三家头部同时开火。我把六个最关键的维度做成对照——

FIG.2 · 六维能力对照(颜色越深越领先)

知识工作★ GPT 领先Terminal★ GPT 领先多模态≈ 平SWE-Pro⚠ Opus 领先Codeforces⚠ DeepSeek V4 领先价格 ¥⚠ DeepSeek V4 领先 8×GPT-5.5(主角)Claude Opus 4.7DeepSeek V4-Pro

两领先(知识工作/Terminal)+ 一齐平(多模态)+ 三落后(SWE-Pro/CForce/价格)

能力维度
OpenAIGPT-5.5
ClaudeOpus 4.7
DeepSeekV4-Pro
GDPval(44 职业)
84.9% ⚡
Terminal-Bench 2.0
82.7% ⚡
69.4%
67.9%
OSWorld-Verified
78.7% ⚡
SWE-Bench Pro
58.6%
64.3% ⚡
55.4%
Codeforces 评分
3168
3206 ⚡
原生上下文
1M ⚡
200K
1M ⚡
多模态原生
5 模态 ⚡
3 模态
2 模态
输出价格 /Mtok
$30
$25
$3.48 ⚡

关键阅读:三家在不同方向各有护城河,没有一个全面领先。

OpenAI GPT-5.5 在 Agent + 知识工作 上独占头把交椅;Claude Opus 4.7 在 多文件代码精度 上一骑绝尘;DeepSeek V4-Pro 在 价格 + 上下文 + 开源 上无对手。

选模型 = 选战场。不要看哪个”最强”,看自己业务在哪个战场。

§ 4致命短板:86% 幻觉率(OpenAI 没说的事)

OpenAI 发布会上反复强调”更准确”。但第三方评测机构 Artificial Analysis 在私有评测集 AA-Omniscience 上跑出来的数据,是另一个故事——

FIG.3 · AA-OMNISCIENCE 幻觉率(越低越好)

同样的题,OpenAI 的答案 86% 是错的25%50%75%100%GPT-5.586%Claude Opus 4.736%差距 50 个点 · 2.4× 倍幻觉率

数据来源:Artificial Analysis 私有评测 AA-Omniscience,2026.04 公布

这意味着什么?

OpenAI 用准确度换速度——为了让 GPT-5.5 跑得”像 Agent”(快、流畅、连贯),它在 RL 训练里调高了”自信度”,结果就是模型更敢编、更敢自圆其说,但事实层面错得更多。

这不是 bug,是设计权衡。但对企业用户而言这是红色警报——任何 GPT-5.5 输出在法律 / 医疗 / 财务 / 合规场景都不能裸奔,必须配 RAG 验证 + 人工审核闸门。

§ 5三种姿势接入 GPT-5.5

A · ChatGPT 订阅 / 普通用户

Plus / Pro / Business / Enterprise 已默认启用 5.5。Plus 月费 $20,Pro 月费 $200(不限量 + 5.5 Pro 并行计算)。免费用户仍是 5.4。

B · API 直连 / 开发者

Responses API 与 Chat Completions API 都支持。命名规范:gpt-5.5(基础)和 gpt-5.5-pro(并行测试时计算)。1M 上下文。

# Python · OpenAI 官方 SDKfrom openai import OpenAI client = OpenAI(api_key=“sk-…”)  # 标准版 · $5/$30 per Mtok resp = client.chat.completions.create(     model=“gpt-5.5”,     messages=[…] )  # Pro 版 · $30/$180 · 并行测试时计算 resp = client.chat.completions.create(     model=“gpt-5.5-pro”,     messages=[…] )

C · Codex CLI / 编码 Agent

Codex 是 OpenAI 的命令行编码 Agent,GPT-5.5 是 Codex 的默认大脑。Terminal-Bench 82.7% 几乎都在 Codex 场景验证。Plus 用户即可使用。

# 安装并启动 Codex CLInpm install -g @openai/codex codex login codex“重构这个项目的认证模块,加入 OAuth2 支持”

Note. Codex 是 OpenAI Super App 战略的”软发布”——用户在 CLI 里习惯了”AI 自主完成任务链”,未来桌面 Super App 上线时迁移成本为零。

§ 6全球产业链冲击波:OpenAI 在打谁

DeepSeek R1 / V4 时代,DeepSeek 把对手定为”OpenAI 的定价权”。

反过来 GPT-5.5 把对手定为更广的领域——它不是在跟 Claude / Gemini 抢 API 用户,是在跟 Microsoft 365 / Google Workspace 抢”白领的桌面”

FIG.4 · OPENAI SUPER APP 三条战线

GPT-5.5Agent OSChatGPTvs Claude/Gemini原赛道Codex CLIvs Cursor/Claude Code编程 AgentSuper App★ 新战线vs MS 365vs Google Workspace三条战线 · 三组对手→ 真正威胁:不是其他模型公司 · 是微软 365 / Google Workspace 的市场份额

这是首次有 AI 模型公司直接威胁 SaaS 软件巨头的核心收入。

三条战线含义:

战线 1(ChatGPT):仍在跟 Claude / Gemini 抢消费级 API 用户,这是表面战场。

战线 2(Codex):跟 Cursor / Claude Code / Cline 抢编程 Agent 心智份额,对 Anthropic 是直接威胁。

战线 3(Super App):真正的杀手锏——OpenAI 要做”装在你电脑里的 AI 同事”,对手是 Microsoft 365 与 Google Workspace 的核心收入。这一战如果赢了,OpenAI 的市值锚不再是”AI 模型公司”,而是”下一代办公平台”。

GPT-5.5 不是更聪明的ChatGPT,它是Agent OS 的开端。OpenAI 的对手不再是模型公司——微软 365

— AI 翻译局 · § 003

§ 7 · 给四类读者的判断

i.给开发者:立刻试 Codex CLI(Terminal-Bench 82.7% 是真的)。但代码精度场景 Claude Opus 4.7 仍是首选。Cursor / Claude Code 用户暂时不需要切换。

ii.给企业 CIO:GPT-5.5 是 Agent 工作流的最强引擎,但 86% 幻觉率不能裸奔。预算 = 模型成本 + RAG 验证层 + 人工审核闸门。法律 / 医疗 / 财务必须人工签字。

iii.给白领:GDPval 84.9% 已超 83% 真人——你的工作流被建模并被 OpenAI 用作训练目标。下半年是知识工作的”打补丁年”,不会被替代的人=会用 Agent 把日常工作压缩到 1/5 时长的人。

iv.给投资人:OpenAI 的市值锚正在从”模型公司”变成”办公平台公司”。下一波资本博弈不是”哪家模型最强”——是“哪家 Agent 桌面赢得普通白领”。盯 OpenAI Super App 发布、微软 Copilot 反击、Google Workspace AI 升级三条线。

END OF NOTE 003AI 翻译局 · 2026.05.01 · GPT-5.5把术语翻译成判断,把判断翻译成行动