AI 翻译局 · 003 · GPT-5.5-夜雨聆风

AI 翻译局 · 003 · GPT-5.5

OPENAI RESEARCH · NOTE 003 · 2026.05.01 · ISSN AI-26-003

§SUBJECT OF DISSECTION

84.9%>83%

GPT-5.5 凭什么超过真实白领的工作分？

OpenAI 这次发的不是 ChatGPT 升级是「白领裁员通知书」—— 但有一项数据让所有 CIO 紧急刹车

FIG.0 · GDPVAL · 44 PROFESSIONS BENCHMARK · 2026.04

▸ GDPval 84.9%▸ 86% 幻觉▸ Codex 王▸ Super App

ABSTRACT.

2026 年 4 月 23 日，OpenAI 发布 GPT-5.5。

很多评测把它写成”GPT-5.4 的小升级”。这是误读。

它不是更聪明的 ChatGPT —— 它是 OpenAI “Super App” 战略的引擎。GDPval 跑分 84.9% 已超过真实从业者的 83%；Terminal-Bench 领先 Claude Opus 4.7 整整 13 分。但同时——私有评测里它的幻觉率高达 86%。

§ 1一句话定性：从 LLM 到 Agent OS 的临界点

GPT-5.4 时代，OpenAI 还在跟 Claude / Gemini 抢”谁更聪明”。GPT-5.5 不再玩这个游戏。

它把核心训练目标转成了 RL 训练 + 内置思维链 + 5 模态原生 + 1M 上下文，目标读起来像产品发布会，做起来其实是一句话——让模型能干完一件事，而不是答完一道题。

这就是 Agent OS 的临界点：模型从”问答机器”升格为”任务执行者”。GDPval 84.9% 超过 83% 真实从业者基线，是这个临界点最直接的信号。

§ 2三大真升级（按行业冲击半径）

抛开发布会口径，让我们看这一代真正”炸”的三个能力维度——

FIG.1 · 三大杀手锏（实测分数 vs 真人 / 上代）

⚡ KILL #1 · MAX RADIUS

① GDPval 84.9% — 比真实白领（83%）还胜任

GDPval 是 OpenAI 推的”产值评测”——覆盖 44 个真实职业的工作流任务（律师、会计、产品经理、工程师等），由专家匿名评分。GPT-5.5 在这个评测里达到 84.9%，超过真实从业者平均水平 83%。这是史上第一次有大模型在通用知识工作上跨过这条线。

Note. 不要只看分数，看”评测的目标”。OpenAI 自己设计这个 Benchmark，意图非常明确——证明 GPT-5.5 已经可以替代白领。这是为投资人和企业 CIO 准备的”裁员理由”。

∞ KILL #2 · HIGH RADIUS

② OSWorld 78.7% — 自主操作真实电脑环境

OSWorld-Verified 让 AI 像人一样操作真实电脑——浏览器、Excel、邮件、命令行——完成多步任务。GPT-5.5 拿到 78.7%，意味着它已经可以”打开浏览器查资料 → 复制到 Excel → 算公式 → 发邮件”全流程跑通。

Note. 这是 OpenAI Super App 战略的真正引擎。Super App 不是 ChatGPT 加按钮，是模型直接操控你的电脑。OSWorld 78.7% 是这条路线技术可行性的 GO 信号。

μ KILL #3 · MED RADIUS

③ 原生 5 模态 + 1M 上下文 + RL 推理

GPT-5.5 是原生 omnimodal——文本、图像、音频、视频在同一个模型架构里端到端处理，不是外挂多个专项模型。API 上下文窗口达 1M tokens（部分配置最大 512K），ChatGPT 至少 256K。RL 训练让推理链内置。

Note. 多模态曾经是 Gemini 的护城河，1M 上下文曾经是 DeepSeek V4 的差异化。GPT-5.5 一次把这两件事补齐到自己阵营，并叠加 RL 推理——补课速度令人警觉。

§ 3同台 PK：vs Claude Opus 4.7 / DeepSeek V4-Pro / Gemini 3.1 Pro

4 月这一周，三家头部同时开火。我把六个最关键的维度做成对照——

FIG.2 · 六维能力对照（颜色越深越领先）

两领先（知识工作/Terminal）+ 一齐平（多模态）+ 三落后（SWE-Pro/CForce/价格）

能力维度	OpenAIGPT-5.5	ClaudeOpus 4.7	DeepSeekV4-Pro
GDPval（44 职业）	84.9% ⚡	—	—
Terminal-Bench 2.0	82.7% ⚡	69.4%	67.9%
OSWorld-Verified	78.7% ⚡	—	—
SWE-Bench Pro	58.6%	64.3% ⚡	55.4%
Codeforces 评分	3168	—	3206 ⚡
原生上下文	1M ⚡	200K	1M ⚡
多模态原生	5 模态 ⚡	3 模态	2 模态
输出价格 /Mtok	$30	$25	$3.48 ⚡

关键阅读：三家在不同方向各有护城河，没有一个全面领先。

OpenAI GPT-5.5 在 Agent + 知识工作上独占头把交椅；Claude Opus 4.7 在多文件代码精度上一骑绝尘；DeepSeek V4-Pro 在价格 + 上下文 + 开源上无对手。

选模型 = 选战场。不要看哪个”最强”，看自己业务在哪个战场。

§ 4致命短板：86% 幻觉率（OpenAI 没说的事）

OpenAI 发布会上反复强调”更准确”。但第三方评测机构 Artificial Analysis 在私有评测集 AA-Omniscience 上跑出来的数据，是另一个故事——

FIG.3 · AA-OMNISCIENCE 幻觉率（越低越好）

数据来源：Artificial Analysis 私有评测 AA-Omniscience，2026.04 公布

这意味着什么？

OpenAI 用准确度换速度——为了让 GPT-5.5 跑得”像 Agent”（快、流畅、连贯），它在 RL 训练里调高了”自信度”，结果就是模型更敢编、更敢自圆其说，但事实层面错得更多。

这不是 bug，是设计权衡。但对企业用户而言这是红色警报——任何 GPT-5.5 输出在法律 / 医疗 / 财务 / 合规场景都不能裸奔，必须配 RAG 验证 + 人工审核闸门。

§ 5三种姿势接入 GPT-5.5

A · ChatGPT 订阅 / 普通用户

Plus / Pro / Business / Enterprise 已默认启用 5.5。Plus 月费 $20，Pro 月费 $200（不限量 + 5.5 Pro 并行计算）。免费用户仍是 5.4。

B · API 直连 / 开发者

Responses API 与 Chat Completions API 都支持。命名规范：gpt-5.5（基础）和 gpt-5.5-pro（并行测试时计算）。1M 上下文。

# Python · OpenAI 官方 SDKfrom openai import OpenAI client = OpenAI(api_key=“sk-…”) # 标准版 · $5/$30 per Mtok resp = client.chat.completions.create( model=“gpt-5.5”, messages=[…] ) # Pro 版 · $30/$180 · 并行测试时计算 resp = client.chat.completions.create( model=“gpt-5.5-pro”, messages=[…] )

C · Codex CLI / 编码 Agent

Codex 是 OpenAI 的命令行编码 Agent，GPT-5.5 是 Codex 的默认大脑。Terminal-Bench 82.7% 几乎都在 Codex 场景验证。Plus 用户即可使用。

# 安装并启动 Codex CLInpm install -g @openai/codex codex login codex“重构这个项目的认证模块，加入 OAuth2 支持”

Note. Codex 是 OpenAI Super App 战略的”软发布”——用户在 CLI 里习惯了”AI 自主完成任务链”，未来桌面 Super App 上线时迁移成本为零。

§ 6全球产业链冲击波：OpenAI 在打谁

DeepSeek R1 / V4 时代，DeepSeek 把对手定为”OpenAI 的定价权”。

反过来 GPT-5.5 把对手定为更广的领域——它不是在跟 Claude / Gemini 抢 API 用户，是在跟 Microsoft 365 / Google Workspace 抢”白领的桌面”。

FIG.4 · OPENAI SUPER APP 三条战线

这是首次有 AI 模型公司直接威胁 SaaS 软件巨头的核心收入。

三条战线含义：

战线 1（ChatGPT）：仍在跟 Claude / Gemini 抢消费级 API 用户，这是表面战场。

战线 2（Codex）：跟 Cursor / Claude Code / Cline 抢编程 Agent 心智份额，对 Anthropic 是直接威胁。

战线 3（Super App）：真正的杀手锏——OpenAI 要做”装在你电脑里的 AI 同事”，对手是 Microsoft 365 与 Google Workspace 的核心收入。这一战如果赢了，OpenAI 的市值锚不再是”AI 模型公司”，而是”下一代办公平台”。

“

GPT-5.5 不是更聪明的ChatGPT，它是Agent OS 的开端。OpenAI 的对手不再是模型公司——是微软 365。

— AI 翻译局 · § 003

§ 7 · 给四类读者的判断

i.给开发者：立刻试 Codex CLI（Terminal-Bench 82.7% 是真的）。但代码精度场景 Claude Opus 4.7 仍是首选。Cursor / Claude Code 用户暂时不需要切换。

ii.给企业 CIO：GPT-5.5 是 Agent 工作流的最强引擎，但 86% 幻觉率不能裸奔。预算 = 模型成本 + RAG 验证层 + 人工审核闸门。法律 / 医疗 / 财务必须人工签字。

iii.给白领：GDPval 84.9% 已超 83% 真人——你的工作流被建模并被 OpenAI 用作训练目标。下半年是知识工作的”打补丁年”，不会被替代的人=会用 Agent 把日常工作压缩到 1/5 时长的人。

iv.给投资人：OpenAI 的市值锚正在从”模型公司”变成”办公平台公司”。下一波资本博弈不是”哪家模型最强”——是“哪家 Agent 桌面赢得普通白领”。盯 OpenAI Super App 发布、微软 Copilot 反击、Google Workspace AI 升级三条线。

END OF NOTE 003AI 翻译局 · 2026.05.01 · GPT-5.5把术语翻译成判断，把判断翻译成行动