乐于分享
好东西不私藏

AI直接上手操控你的电脑了!GPT-5.4全方位拆解:六大核心能力逐一实测

AI直接上手操控你的电脑了!GPT-5.4全方位拆解:六大核心能力逐一实测

快速摘要

2026年3月5日,OpenAI正式发布了下一代旗舰模型GPT-5.4,这是该公司迄今最强大、最高效的前沿模型。
 GPT-5.4首次将原生计算机操控能力内置于通用模型中,在OSWorld-Verified基准测试中以75%的成功率超越了人类(72.4%);在GDPval知识工作评测中拿下83%,追平甚至超越行业专业人士;幻觉率较上一代降低33%;并引入了"工具搜索"机制,将Token消耗削减47%。往下看,莫潇羽@源码七号站 将为你逐一拆解这个模型的技术原理、核心能力和实际操作方式。

一、GPT-5.4发布的背景:AI三巨头的激烈角力

2025年下半年到2026年初,AI大模型领域经历了一段极为密集的更新周期,三家头部公司之间的竞争几乎可以用"短兵相接"来形容。

先回顾一下时间线。2025年8月7日,OpenAI发布了GPT-5,这是一次重大的代际升级,在编程、数学、写作、视觉理解等方面都取得了长足进步。GPT-5采用了统一架构设计,内置智能路由系统,能自动判断用户问题的复杂度来决定是快速回答还是深度推理。紧接着在2025年12月11日,OpenAI又推出了GPT-5.2,进一步强化了长上下文推理能力(400K token上下文窗口,支持256K token的"四针大海捞针"测试接近100%准确率)、专业知识工作能力(GDPval评测胜率70.9%)和编程能力(SWE-Bench Pro达到55.6%)。

然而,就在GPT-5.2发布前后,Google的Gemini 3系列和Anthropic的Claude系列接连登场,在不同的基准测试上轮流刷新纪录。Gemini 3.1 Pro在抽象推理和多模态理解方面表现尤为亮眼,凭借更大的上下文窗口和更低的定价策略吸引了大量开发者。而Anthropic的Claude Opus 4.6则在2026年2月初发布后,迅速在编程、计算机操控(OSWorld-Verified 72.7%)和网络搜索(BrowseComp 84.0%)等维度上建立了优势。

用一位业内评论者的话来说,过去三个月的AI领域就像是一场"你方唱罢我登场"的大戏——没有任何一家公司能在所有指标上同时保持领先超过一个月。

正是在这样白热化的竞争背景下,GPT-5.4的到来显得尤为关键。从版本号来看,OpenAI直接跳过了"GPT-5.3 Thinking",将GPT-5.3-Codex的编程基因与通用推理能力合流,最终汇聚成GPT-5.4这个"集大成者"。用OpenAI自己的话来说,这是他们"面向专业工作的最强前沿模型"。OpenAI CEO Sam Altman在社交平台上表示:"你可以在GPT-5.4运行时直接调整方向,它支持100万token的上下文。"这句看似简单的话,实际上涵盖了GPT-5.4的两大核心突破:可中断式交互和超长上下文支持。

莫潇羽在第一时间关注了这次发布。作为源码七号站(www.fuyuan7.com)的站长,我长期跟踪各大AI模型的技术演进和实际体验。这篇文章将从技术原理、核心能力、开发者接入、实际操作等多个角度,为你做一次全面而深入的解读。如果你是AI从业者、开发者,或者只是对AI前沿技术感兴趣的爱好者,相信这篇文章能帮助你全面理解这个"全能选手"的真实实力。


二、GPT-5.4的发布形态:三个版本,覆盖从聊天到开发的全场景

GPT-5.4并不是一个单一的模型,而是以三种形态面向不同用户群体发布的。

在ChatGPT端,用户可以使用的是GPT-5.4 Thinking版本。这个版本面向Plus、Team和Pro订阅用户开放,它会在回答之前先展示一段"思考计划"的前言,你可以在它推理的过程中随时介入、调整方向、补充说明,而不需要等它全部回答完再推翻重来。这种"可中断式思考"的设计大幅降低了多轮对话的沟通成本。目前该功能已在网页端和Android端上线,iOS版也即将跟进。

在开发者端,GPT-5.4通过API和Codex平台提供服务。API版本支持最高100万token的上下文窗口——这是OpenAI迄今提供的最大上下文长度。开发者可以利用这个超长上下文来处理大型代码库、长篇合同、多文件项目等场景。同时,Codex还提供了一个"/fast"模式,token生成速度最高可提升1.5倍,开发者也可以通过API的"Priority Processing"(优先处理)选项获得同等速度。

此外还有一个GPT-5.4 Pro版本,面向Pro和Enterprise用户开放。这个版本在推理深度上进一步强化,适合处理那些对准确性和复杂度要求极高的任务,比如法律文档分析、金融建模、科研论文推理等场景。

从定价来看,GPT-5.4的API标准版定价为输入2.5美元/百万token,输出15美元/百万token。Pro版本则高出许多,输入30美元/百万token,输出180美元/百万token。不过OpenAI强调,GPT-5.4是他们"token效率最高的推理模型"——也就是说,完成同样的任务,它所消耗的token数量远少于前代模型,综合算下来实际成本并不一定更高。需要注意的是,当输入超过272,000个token时,会触发2倍的输入价格和1.5倍的输出价格。Batch和Flex定价可以享受标准价格的一半折扣。

莫潇羽在这里帮大家换算一下:如果你每天使用GPT-5.4处理约10万token的输入和5万token的输出(相当于处理几份长文档加上若干轮对话),标准版的每日API成本大约在1美元左右。对于企业用户来说,这个成本是完全可以接受的,尤其是考虑到它在效率和质量上的提升。

另外值得一提的是,GPT-5.4已经入驻Microsoft Foundry平台。微软为企业用户提供了标准全球部署和标准数据区域(美国)两种选项,后续还会增加更多部署选项。这意味着企业用户可以在符合数据合规要求的环境中使用GPT-5.4。区域处理端点会在标准价格基础上加收10%的费用。


三、最核心的突破:原生计算机操控能力

如果只用一句话来概括GPT-5.4最大的亮点,莫潇羽认为就是这个——它是OpenAI首个具备原生计算机使用能力的通用模型

3.1 什么是"原生计算机使用"?

在GPT-5.4之前,如果你想让AI帮你操作电脑——比如打开某个软件、填写一个表格、在网页上点击某个按钮——通常需要依赖外部的智能体框架(Agent Framework)来"套壳"实现。模型本身只负责生成文本指令,而实际的鼠标移动、键盘输入、屏幕识别等操作需要由额外的中间层来完成。

GPT-5.4不同。它的计算机操控能力是内建的、原生的。具体来说,GPT-5.4可以通过两种方式来操控计算机:

第一种是代码驱动方式。模型可以编写代码,通过Playwright等自动化测试库来控制浏览器和应用程序。Playwright是微软开源的一个浏览器自动化框架,支持Chrome、Firefox、Safari等多种浏览器。GPT-5.4可以直接生成Playwright脚本来完成网页操作,比如填写表单、点击按钮、截取页面信息等。

第二种是视觉驱动方式。模型可以直接"看"屏幕截图,然后像人一样发出鼠标点击和键盘输入指令。这意味着即使面对没有DOM结构的桌面应用程序(比如Excel、Photoshop等原生软件),GPT-5.4也能通过截图识别界面元素,然后做出精准的操作。

这两种方式可以单独使用,也可以组合使用。开发者还可以通过developer messages(开发者消息)来调整模型的行为模式,甚至可以设置自定义的"确认策略",规定哪些操作需要人工确认、哪些可以自动执行,以此适配不同的风险容忍度。

3.2 基准测试表现

GPT-5.4的计算机操控能力不是"概念验证级别"的,而是达到了实用甚至超越人类的水平。以下是几个关键基准测试的成绩:

OSWorld-Verified 是一个衡量模型在真实桌面环境中通过截图和键鼠操作完成任务能力的基准测试。GPT-5.4在这个测试中拿下了75.0%的成功率。作为对比,上一代GPT-5.2只有47.3%,人类基准线是72.4%,就在一个月前刚登顶的Claude Opus 4.6是72.7%。GPT-5.4一出手就超越了所有对手,包括人类。从47.3%到75.0%,这是一代模型之间28个百分点的跃升,在AI基准测试的历史上都极为罕见。

WebArena-Verified 测试的是模型在网页环境中的交互能力。GPT-5.4在同时使用DOM和截图驱动交互时,达到了67.3%的成功率,领先GPT-5.2的65.4%。

Online-Mind2Web 是另一个网页操作基准测试。GPT-5.4仅靠截图观察就拿下了92.8%,而ChatGPT Atlas智能体模式只有70.9%——差距超过20个百分点,堪称断崖式领先。

3.3 为什么能做到?视觉感知能力的飞跃

GPT-5.4之所以能在计算机操控上取得如此突破,根本原因在于它的通用视觉感知能力得到了质的提升。

在MMMU-Pro(多模态理解基准测试)上,GPT-5.4在不使用任何工具的情况下达到了81.2%的成功率,优于GPT-5.2的79.5%,也超过了Gemini 3.1 Pro的80.5%。

在OmniDocBench(文档解析基准测试)上,GPT-5.4的平均误差仅为0.109,而GPT-5.2为0.140。误差降低意味着模型对文档内容——包括表格、图表、复杂排版——的理解更加精准。

更重要的是,GPT-5.4首次引入了两个新的图像输入细节级别。"原始"(Original)级别支持最高1024万总像素(或最大单边6000像素),实现全保真度感知;"高"(High)级别支持最高256万总像素(或最大单边2048像素)。这意味着开发者可以将极高分辨率的屏幕截图直接喂给模型,模型可以看清屏幕上的每一个按钮、每一行文字、每一个下拉菜单。

正是视觉感知能力的大幅提升,为"看截图→理解界面→精准操控"这条技术链路奠定了基础。在API的早期测试中,OpenAI发现GPT-5.4在定位能力、图像理解和点击准确性上都有了大幅进步。


四、推理与编程合体:一个模型取代一组模型

4.1 继承GPT-5.3-Codex的全部编程基因

在GPT-5.4之前,OpenAI的模型体系存在一个明显的分裂:你需要用一个模型来做推理和对话(比如GPT-5.2 Thinking),用另一个模型来做编程(比如GPT-5.3-Codex)。这对于开发者来说意味着需要在不同模型之间来回切换,增加了复杂性和成本。

GPT-5.4解决了这个问题。它完整继承了GPT-5.3-Codex的编程能力,同时在推理、工具使用、文档处理等方面全面升级。用一个模型就能搞定推理、编程、操控的全链路。

在SWE-Bench Pro测试(一个涵盖四种编程语言的真实世界软件工程基准测试)中,GPT-5.4拿下了57.7%的准确率,不仅媲美还略微超越了专门的编程模型GPT-5.3-Codex(56.8%)。

4.2 Token效率的质变

但GPT-5.4真正让人眼前一亮的不只是分数本身,而是效率

OpenAI明确表示,GPT-5.4是他们"迄今token效率最高的推理模型"。完成同样的问题,GPT-5.4所需的token数量大幅少于GPT-5.2,这直接意味着更低的使用成本和更快的响应速度。

在各种推理强度设置下,GPT-5.4的延迟都低于GPT-5.3-Codex。在Codex的/fast模式下,token生成速度最高可提升1.5倍。对于需要频繁迭代的开发工作流——调试循环、快速原型开发、测试周期——响应速度的提升会直接转化为开发效率的提升。

4.3 前端开发能力的特别提升

在OpenAI的内部测试中,他们还发现GPT-5.4在复杂的前端开发任务上表现尤为突出。生成的界面不仅美观,而且功能完备度远超此前的任何模型。

为了展示这种能力,OpenAI发布了一个实验性的Codex技能——"Playwright Interactive"。这个技能让Codex可以一边构建Web应用,一边在浏览器中实时可视化调试和测试。你没看错,模型一边写代码一边测试自己写的代码,发现问题后自动修改,直到满意为止。

OpenAI用三个实际案例来展示这种能力:

主题公园模拟游戏——仅凭一段提示词(Prompt),GPT-5.4就从零开始生成了一个完整的经营类模拟游戏。这个游戏包含了瓦片路网系统、设施建造、景观美化、客流寻路、排队系统、游乐设施运行周期,以及资金、客流量、幸福感和评分等完整的经营数据系统。Playwright在整个构建过程中充当了最严苛的"质检员":从疯狂扩建到设施拆除,从镜头导航到UI数据验证,经过数轮自动化高压测试后才最终交付。感兴趣的朋友可以去OpenAI开发者展示页面查看完整demo。

战棋RPG游戏——GPT-5.4打造出一款回合制网格战斗游戏,包含移动、行动、站位和遭遇战等完整系统。图像生成负责角色和美术风格,Playwright在每一轮迭代中验证界面交互、检查并微调UI行为和着色器效果。

金门大桥3D飞行体验——从一段提示词开始,GPT-5.4生成了一个支持自由飞行的超写实3D场景。逼真的光照、水面、雾气、悬索、桥上行驶的车流,支持近距离结构穿越和远景俯瞰。Playwright在整个过程中充当"测试飞行员",开启多角度全自动巡航测试,验证渲染视口的稳定性,并通过截图反馈协助AI持续校准构图与光影分布,历经一小时的高频迭代。

这三个案例的共同特点是:代码生成能力与计算机操控能力协同工作。模型不仅能写代码,还能运行代码、看到运行结果、发现问题、修改代码,形成完整的闭环。这正是"原生计算机使用"在开发场景下的巨大价值。

4.4 Playwright Interactive的技术原理与工作流程

为了帮助大家更深入地理解Playwright Interactive是怎么工作的,莫潇羽@源码七号站在这里做一个更细致的拆解。

Playwright本身是微软开源的一个端到端浏览器测试框架,支持Chromium、Firefox和WebKit三大浏览器引擎。它的核心能力包括自动化页面导航、元素交互(点击、输入、拖拽等)、截图和录屏、网络请求拦截等。在GPT-5.4的Codex环境中,Playwright Interactive将这些能力整合进了模型的工作流中。

具体的工作流程大致如下:

第一步,模型根据用户的提示词生成初版代码(比如一个Web应用或游戏的HTML/CSS/JavaScript代码)。第二步,Playwright在一个真实的浏览器环境中运行这段代码。第三步,模型通过截图"看到"运行结果——页面长什么样、有没有视觉异常、交互是否正常。第四步,模型根据看到的结果判断是否需要修改。如果发现问题(比如布局错位、按钮不响应、动画卡顿),它会自动修改代码并重新运行。第五步,这个"生成→运行→观察→修改"的循环反复进行,直到模型判断结果符合预期或者达到了迭代上限。

整个过程的关键创新点在于:模型不再是"盲写"代码——它能看到自己代码的实际效果,然后根据视觉反馈进行调整。这就像一个程序员在IDE中写代码、按F5运行、看到结果、再改代码一样,只不过这里整个流程完全由AI自主完成。

对于前端开发者来说,这意味着你可以把一些相对标准化的前端工作交给GPT-5.4+Playwright Interactive来完成——比如根据设计稿生成页面、调整响应式布局、调试CSS动画等。当然,对于涉及复杂业务逻辑或需要深度设计审美判断的工作,人类开发者的参与仍然是不可替代的。


五、精通办公三件套:GDPval评测结果深度解读

5.1 GDPval是什么?

GDPval是OpenAI设计的一个基准测试,名称来源于"GDP value",旨在衡量AI模型在"对GDP有实际贡献的知识工作"中的表现。它横跨美国GDP贡献最大的9个行业、涵盖44种职业,测试内容不是简单的问答,而是要求AI真刀真枪地交付实际的工作产出——包括但不限于销售演示文稿(PPT)、会计电子表格(Excel)、急诊排班表、制造业图表、短视频等。

5.2 GPT-5.4的成绩

GPT-5.4在GDPval中拿下了83.0%的胜率——意味着在与行业专业人士的直接对比中,GPT-5.4在超过四分之三的场景中表现持平甚至更好。而上一代GPT-5.2仅有70.9%,单代升级就拉开了12个百分点。

莫潇羽@源码七号站 特别想提醒大家注意几个具体的分项数据:

在一项模拟初级投资银行分析师的电子表格建模内部测试中(例如为财富500强公司构建三表联动模型、构建杠杆收购模型等),GPT-5.4的平均得分达到了87.3%,而GPT-5.2只有68.4%。这是一个19个百分点的跃升,意味着GPT-5.4在电子表格处理方面的能力已经接近甚至超过了入门级金融分析师。

在PPT制作方面,人类评估者在68.0%的情况下更偏好GPT-5.4生成的演示文稿,原因是其美感更强、视觉多样性更丰富、图像使用效率更高。

5.3 对于普通用户的意义

如果你在日常工作中需要经常制作PPT、处理Excel、撰写分析报告,GPT-5.4的这些能力升级是直接可感的。你可以把一个复杂的数据分析任务丢给它,它不仅能理解需求,还能直接生成格式规范、数据准确、视觉美观的电子表格。你也可以给它一个大致的演示主题,它能生成结构清晰、排版专业的PPT——而且68%的概率比你自己做的还好看。

当然,莫潇羽在这里也要客观地说,这些数据都来自OpenAI的自测或内部基准,尚未经过完全独立的第三方验证。但从GDPval覆盖的行业广度和职业深度来看,它确实比许多传统的学术基准更贴近真实的工作场景。


六、幻觉率大幅降低:向着"最讲事实"的模型迈进

AI模型的幻觉问题一直是阻碍其在专业场景落地的重大障碍。所谓"幻觉",就是模型一本正经地编造事实——给你一个看起来很像真的的答案,但实际上是错的。

GPT-5.4在这方面取得了显著进步。OpenAI的测试数据显示:

在一组来自真实用户的、包含用户标记事实错误的提示词集中,相比GPT-5.2,GPT-5.4的单独声明(individual claim)出错的概率降低了33%,整个回复(full response)包含任何错误的概率降低了18%。

这里有两个指标值得区分。"单独声明出错概率降低33%"指的是模型说出的每一句话中,错误出现的频率降低了三分之一。"整个回复错误概率降低18%"指的是一段完整的回答中,至少包含一处错误的概率降低了约五分之一。

这两个数字看起来未必特别炸裂,但考虑到幻觉问题在大语言模型中的顽固性——许多团队砸下巨大资源也只能取得个位数的改善——33%的降幅已经相当可观了。

对于在专业场景中使用AI的用户来说,莫潇羽认为这意味着你可以对GPT-5.4的输出给予更高的初始信任度。当然,"更高的信任度"不等于"完全信任"——在医疗、法律、财务等高风险领域,人工复核仍然是不可省略的环节。

值得一提的是,幻觉率降低与模型的视觉感知能力提升是相辅相成的。当模型能更准确地理解文档中的表格、图表、数据时,它基于这些信息做出的回答自然也更加可靠。而GPT-5.4在OmniDocBench上误差从0.140降到0.109的表现,正是这种"源头质量提升"的体现。

从实践角度来看,莫潇羽@源码七号站建议用户在使用GPT-5.4处理事实性信息时,养成以下几个习惯:对于关键数据和结论,要求模型给出信息来源或搜索依据;对于涉及专业领域的输出,交叉验证至少两个独立来源;利用GPT-5.4 Thinking的思考计划功能,在模型展示推理过程时检查其逻辑链路是否合理。这些做法虽然会增加一些使用成本,但能显著降低因AI幻觉导致的决策风险。


七、工具搜索(Tool Search):大幅削减Token消耗的架构级创新

7.1 问题的由来

随着AI智能体的能力不断增强,越来越多的开发者开始为模型接入各种外部工具——日历、邮件、数据库查询、代码执行器等等。在MCP(Model Context Protocol,模型上下文协议)生态中,一个智能体可能连接着数十甚至上百个工具服务器。

传统做法是在每次请求中,把所有工具的完整定义都塞进系统提示词(System Prompt)里。问题在于,这些工具定义可能动辄数万token——即使模型在本次对话中根本不需要用到大部分工具,你也得为它们全部买单。这就像你去餐厅吃饭,服务员先把整本菜单逐字念给你听,哪怕你只想点一杯咖啡。

7.2 GPT-5.4的解决方案

GPT-5.4引入了"工具搜索"(Tool Search) 机制,从架构层面解决了这个问题。

具体的工作方式是这样的:开发者不再需要把所有工具的完整定义放进提示词,只需要提供一个轻量级的可用工具列表(只包含工具名称和简要描述)。当模型在推理过程中判断需要使用某个工具时,它会通过搜索功能动态查找该工具的完整定义,将其"即时加载"到当前对话上下文中。

这带来了几个直接的好处:大幅减少了每次请求的token消耗,降低了API调用成本,加快了响应速度,同时还能更好地保持上下文缓存(因为基础提示词更加稳定),让开发者可以接入更大规模的工具生态而不必担心上下文"爆炸"。

7.3 实测数据

OpenAI在Scale的MCP Atlas基准测试中验证了这一机制。测试条件是250个任务,同时开启全部36个MCP服务器。在两种模式下进行对比:

模式一(传统模式):把所有MCP工具的完整定义直接放进模型上下文;模式二(工具搜索模式):只提供轻量级工具列表,按需加载。

结果是,工具搜索配置在保持相同准确率的前提下,将总token使用量减少了47%。对于那些工具定义动辄数万token的MCP服务器来说,这个效率提升是质变级别的。

7.4 开发者的实际操作

对于使用OpenAI API的开发者来说,启用工具搜索非常直接。在构建Responses API请求时,你只需要将工具定义方式从"全量内联"切换为"工具搜索"模式即可。以下是一个概念化的代码示例:

# 传统方式:把所有工具定义全量放入tools = [    {"type": "function", "name": "send_email", "description": "...", "parameters": {...}},    {"type": "function", "name": "create_calendar_event", "description": "...", "parameters": {...}},    # ...数十个工具的完整定义]# 工具搜索方式:只提供轻量级列表,模型按需搜索加载# 具体接入方式请参考OpenAI官方API文档# https://developers.openai.com/api/docs/models/gpt-5.4

莫潇羽建议,如果你正在构建包含大量工具的智能体系统,工具搜索应该是你第一个要尝试的优化方向。47%的token削减不仅意味着成本降低,还意味着响应速度的提升和上下文的"干净度"——模型可以把更多的注意力放在真正需要的信息上。


八、智能体工具调用能力的全面强化

除了工具搜索这一架构级创新,GPT-5.4在"何时使用工具"和"如何使用工具"的判断精准度上也有了大幅提升。

8.1 Toolathlon基准测试

Toolathlon是一个专门评估AI在多步任务中调用真实世界工具和API能力的基准测试。GPT-5.4在这个测试中以54.6%的准确率大幅领先GPT-5.3-Codex的51.9%和GPT-5.2的45.7%,而且使用的轮次更少——意味着它能用更少的步骤完成更复杂的工具调用链路。

举个具体的例子来说明这种能力:GPT-5.4现在可以顺畅地完成这样的"全套流程"——阅读一封电子邮件,从中提取作业附件,将附件上传到指定平台,对作业进行评分,然后将结果记录到一份电子表格中。整个过程无需人工干预,每一步都涉及不同的工具调用和数据传递。

8.2 τ²-bench电信客服任务

对于延迟敏感的应用场景(推理强度设为None),GPT-5.4在τ²-bench电信客服基准测试上表现大幅领先。而在开启最高推理强度(xhigh)的情况下,GPT-5.4更是达到了98.9%的准确率——几乎完美。

这说明GPT-5.4不仅在重度推理场景下表现出色,在需要快速响应的实时场景中同样能保持高水准。这对于构建客服机器人、自动化工作流等应用至关重要。


九、搜索能力的大幅跃升

AI模型的网络搜索能力直接影响着它在回答复杂问题时能获取多少最新、最准确的信息。在这个维度上,GPT-5.4同样交出了亮眼的答卷。

BrowseComp是一个衡量AI智能体在网络上持久搜索并找到难以定位信息的基准测试——可以理解为考验"大海捞针"式的信息检索能力。在之前的评测中,Claude Opus 4.6凭借84.0%的成绩一骑绝尘,远超GPT-5.2 Pro的77.9%。

但GPT-5.4 Pro直接以89.3%实现了反超,标准版的82.7%也与Opus 4.6咬得很紧。这是一个17%的绝对提升幅度。

在实际使用中,这意味着GPT-5.4 Thinking更擅长回答那些需要从网络多个信息源整合信息的问题。它能更持久地进行多轮搜索以筛选最相关的来源,尤其是在面对"大海捞针"式的问题时,能够将分散的信息综合成条理清晰、推理严密的答案。

GPT-5.4 Thinking同时还改进了深度网络研究能力。特别是针对极其具体的查询,它能在处理需要长时间思考的问题时更好地保持上下文——不会在搜索了十几个来源之后"忘了"自己原来在找什么。


十、"中途可调"的思考模式:告别推倒重来

这是GPT-5.4在交互体验上的一个重要创新。

传统的AI对话模式是"你问一句,我答一句"。如果模型的回答方向不对,你只能等它说完,然后重新输入修改后的需求,让它从头再来。在处理复杂任务时,这种模式会导致大量的无效来回。

GPT-5.4 Thinking引入了"中途可调"机制。当模型开始处理一个复杂查询时,它会先通过一段"前言"来梳理自己的工作计划——就像一个资深助手在动手之前先和你确认"我打算这么做,你看行不行"。然后,在模型执行思考的过程中,你可以随时介入:调整方向、补充细节、纠正偏差,而不需要打断整个思考链路。

这种设计的价值在于:一次对话就能拿到你想要的结果,省去了反复修改、多轮拉扯的沟通成本。同时,模型在处理困难任务时能进行更深入的思考,并且对对话的历史步骤保持更强的记忆感知——不会在推理到一半的时候突然"失忆"。


十一、全维度的性能对比:GPT-5.4 vs. 竞争对手

源码七号站在这里为大家整理了一份GPT-5.4与主要竞争对手在各关键基准测试上的横向对比。请注意,这些数据主要来自各厂商的自测报告,可能存在一定的"自利偏差",但仍然是目前最具参考价值的横向比较依据。

核心基准测试对比表

基准测试

GPT-5.4

GPT-5.2

Claude Opus 4.6

Gemini 3.1 Pro

OSWorld-Verified(计算机操控)

75.0%

47.3%

72.7%

-

GDPval(知识工作)

83.0%

70.9%

-

-

SWE-Bench Pro(编程)

57.7%

55.6%

-

-

BrowseComp(网络搜索)

82.7%(Pro: 89.3%)

Pro: 77.9%

84.0%

-

MMMU-Pro(多模态理解)

81.2%

79.5%

-

80.5%

Toolathlon(工具调用)

54.6%

45.7%

-

-

ARC-AGI-2(抽象推理)

83.3%

52.9%

68.8%

77.1%

从上表可以清楚地看到,GPT-5.4在几乎所有关键维度上都实现了领先。正如外媒评论所说,GPT-5.4的恐怖之处不在于某个单项特别突出,而在于它没有明显的短板。推理、编程、视觉、工具使用、计算机操作、网络搜索、知识工作——每一条线都拉到了顶尖水平。

需要特别说明的是,ARC-AGI-2的83.3%这个数据尤其引人注目。ARC-AGI-2是一个专门设计来"防刷分"的抽象推理基准测试——它要求模型推断规则和理解概念,而不仅仅是模式匹配。就在2025年12月,GPT-5.2在ARC-AGI-2上的成绩还只有52.9%,短短三个月就跃升到了83.3%,增幅超过30个百分点。这种速度的进步,即使放在AI快速发展的大背景下,也堪称惊人。

从行业竞争的角度来看,目前的格局可以概括为:OpenAI在计算机操控和专业知识工作方面领先;Google在某些抽象推理任务和超长上下文处理方面保持优势,且价格更加亲民;Anthropic在代码安全性、prompt注入防御以及特定编程基准上有自己的特长。三家公司各有所长,最终的选择取决于你的具体应用场景和优先级。

当然,莫潇羽也要指出,这种领先的持续时间在当前的AI竞争格局下很难预测。就在GPT-5.4发布的前几天,OpenAI刚刚推出了GPT-5.3 Instant;Google和Anthropic的下一代模型随时可能到来。这种"你方唱罢我登场"的节奏,已经成为AI行业的常态。对于开发者和企业用户来说,选择AI模型时不宜过度依赖某个短期的基准排名,而应该综合考虑生态系统、API稳定性、定价策略、安全合规等多个维度。


十二、安全性考量:高能力伴随高风险

能力越强,责任越大。GPT-5.4在安全方面也值得关注。

根据模型安全报告(Model Card),GPT-5.4 Thinking在网络安全评估中被归类为"高能力"(High Capability)级别。这是OpenAI首个获得这一分类的通用推理模型(之前只有专门的编程模型GPT-5.3-Codex有此标签)。在OpenAI的准备框架(Preparedness Framework)中,"高"级别意味着模型有能力消除现有网络攻击的障碍,例如自动化端到端攻击或自动发现和利用安全漏洞。

为了应对这一风险,OpenAI构建了一套新的防护系统。与之前简单地将可疑用户降级到弱模型的做法不同,新系统采用了消息级别的实时拦截机制,背后是一个两阶段监控系统——先通过话题分类器判断意图,再通过AI驱动的安全审查进行深度评估。

在链式思维(CoT)安全评估方面,OpenAI的测试表明,GPT-5.4 Thinking版本中的欺骗行为可能性更低。这暗示模型目前缺乏"隐藏其真实推理过程"的能力,CoT监控仍然是一种有效的安全工具。


十三、开发者接入指南:如何开始使用GPT-5.4

如果你是开发者,以下是莫潇羽为你整理的GPT-5.4接入路径:

13.1 API接入

GPT-5.4的API模型标识符为 gpt-5.4,Pro版本为 gpt-5.4-pro。基本的API调用与之前的OpenAI模型保持一致,使用标准的 /v1/chat/completions 或新的 Responses API 即可。

一个基本的Python调用示例:

from openai import OpenAIclient = OpenAI()response = client.chat.completions.create(    model="gpt-5.4",    messages=[        {"role": "system", "content": "你是一个专业的数据分析助手。"},        {"role": "user", "content": "请分析这份销售数据并给出优化建议。"}    ],    # 推理强度支持: none, low, medium, high, xhigh    # reasoning_effort="high")print(response.choices[0].message.content)

13.2 推理强度的选择

GPT-5.4支持五个推理强度级别:none、low、medium、high、xhigh。不同的任务适合不同的推理强度。对于简单的文本生成和对话,none或low就足够了,响应速度更快。对于复杂的推理、编程和分析任务,high或xhigh能提供更好的质量。OpenAI建议开发者先从medium开始尝试,根据实际效果再调整。

13.3 计算机操控能力的接入

计算机操控能力通过API中更新的computer工具来调用。开发者可以通过developer messages来调整模型的行为模式,还可以配置自定义的确认策略(Confirmation Policy),指定不同操作的风险等级和确认要求。

13.4 上下文窗口的使用

GPT-5.4在API和Codex中支持最高100万token的上下文窗口。不过需要注意,超过272,000 token的请求将按2倍输入价格和1.5倍输出价格计费。在Codex中,压缩默认在272k token时触发,开发者可以通过配置 model_context_window 和 model_auto_compact_token_limit 参数来调整。

13.5 提示词优化建议

根据OpenAI发布的GPT-5.4提示词指南,以下几点建议值得注意:

GPT-5.4在明确指定"输出契约"时表现最佳。所谓输出契约,就是在提示词中清晰地告诉模型:你需要返回什么格式、什么结构、多长的内容、什么算"完成"。模型的个性和语调可以通过persistent personality设置在整个会话中保持一致。每次响应的具体写作要求(长度、格式、语域等)可以通过per-response writing controls单独指定。对于多步骤任务,建议显式指定工具使用规则和完成标准——告诉模型"什么时候该用工具"以及"什么时候算做完了"。


十四、ChatGPT用户如何体验GPT-5.4?

对于非开发者的普通ChatGPT用户来说,体验GPT-5.4的方式更加直接。

如果你是Plus(每月20美元)、Team或Pro订阅用户,GPT-5.4 Thinking会自动替代之前的GPT-5.2 Thinking成为默认模型。旧版GPT-5.2 Thinking将在"Legacy Models"(旧版模型)选项中保留三个月,直到2026年6月5日退役。

如果你是Pro或Enterprise用户,还可以使用GPT-5.4 Pro来处理最高难度的任务。

如果你是免费用户,也有机会体验到GPT-5.4——ChatGPT的智能路由系统会根据你的查询复杂度自动判断是否需要调用GPT-5.4,但这种体验是间歇性的,不能保证每次都能用到。

在使用GPT-5.4 Thinking时,你会注意到它在回答复杂问题之前会先展示一个"思考计划"。这是它的新功能——你可以在这个阶段看到模型打算怎么做,如果方向不对,可以直接在输入框补充修改意见。模型会在不中断当前思维链的情况下吸收你的调整,继续推进直到完成任务。

对于需要深度网络研究的问题,GPT-5.4 Thinking能进行更持久、更系统的搜索。它会主动搜索多个来源、交叉验证信息、然后综合成结构清晰的答案。

14.1 ChatGPT for Excel与Google Sheets插件

伴随GPT-5.4一同发布的还有一个值得关注的新产品——ChatGPT for Excel插件(beta版)。这个插件将ChatGPT直接嵌入到Excel和Google Sheets中,让用户可以在电子表格的单元格层面调用AI能力。

你可以把它想象成一个"住在"你电子表格里的AI助手。它能帮你构建复杂的财务模型、分析数据趋势、自动填充公式、清洗和整理数据,而且是在你已有的表格结构和公式体系基础上进行操作——不需要把数据导出到ChatGPT,再把结果贴回来。

这个功能目前面向Enterprise客户开放。对于需要大量处理电子表格的职场用户来说,这可能是GPT-5.4最直接、最实用的升级之一。

14.2 日常使用技巧

基于莫潇羽的实际体验,这里分享几个使用GPT-5.4的实用技巧:

处理复杂任务时,善用"思考计划"功能。当你给GPT-5.4一个复杂的任务(比如"帮我分析这份数据并生成一份可视化报告"),先看看它的思考计划是否合理。如果发现方向不对,及早介入调整,比等它全部做完再推翻效率高得多。

在需要精确输出的场景下,使用明确的"输出契约"。比如在提示词中明确指定:"请以Markdown格式输出,包含三个部分:数据概述、关键发现、改进建议。每个部分不超过200字。"这种精确的指令能让GPT-5.4的输出更加稳定和可预期。

对于编程相关的任务,GPT-5.4在前端开发方面的提升尤为明显。如果你需要快速搭建一个网页原型、调试CSS样式、实现某个交互效果,可以优先考虑使用GPT-5.4。它生成的前端代码在美观度和功能完整性上都有了质的飞跃。

对于长文档的分析和处理,记得善用100万token的上下文窗口。你可以一次性上传多份相关文档,让模型在充分了解背景的情况下进行分析,而不需要来回分批输入。但也要注意,上下文并非越多越好——确保你提供的上下文都与当前任务直接相关。


十五、行业影响与竞品对比分析

15.1 对Anthropic Claude的冲击

GPT-5.4的发布对Anthropic构成了直接的竞争压力。Claude Opus 4.6此前在OSWorld-Verified上以72.7%占据领先,但GPT-5.4的75.0%直接实现了超越。在BrowseComp网络搜索上,Claude的84.0%也被GPT-5.4 Pro的89.3%反超。

不过,Anthropic的优势并没有完全消失。Claude在prompt注入防御、某些特定领域的文本生成质量等方面仍有自己的特长。而且Anthropic最近推出了Cowork桌面工具、Claude in Excel等产品,在产品形态上也在进行差异化竞争。

15.2 对Google Gemini的影响

Google的Gemini 3.1 Pro在抽象推理和超长上下文处理方面保持着一定优势,同时定价更加亲民。但GPT-5.4在计算机操控和专业知识工作方面建立了明显的领先。两者之间的竞争更像是"各有侧重"而非"全面碾压"。

15.3 行业格局的变化

正如多家外媒所观察到的,目前的AI前沿模型竞争已经进入了一个"没有领先能持续太久"的阶段。GPT-5.3 Instant在3月3日发布,GPT-5.4在3月5日到来。Anthropic和Google的下一代模型随时可能推出。这种快速迭代的节奏对于行业发展来说是好事,但对于需要稳定运营的企业用户来说也提出了技术选型和版本管理方面的挑战。


十六、一些常见问题解答(FAQ)

GPT-5.4和GPT-5.2有什么本质区别?

GPT-5.4在GPT-5.2的基础上增加了原生计算机操控能力、工具搜索机制和GPT-5.3-Codex的编程基因,同时在推理效率、幻觉率、视觉感知等多个维度全面提升。可以理解为GPT-5.2的"全面升级版+编程特化版"的合体。

为什么版本号从5.2跳到了5.4?

因为中间有一个GPT-5.3-Codex(专门的编程模型),但没有发布GPT-5.3 Thinking。GPT-5.4将Codex的编程能力与通用推理能力合流,跳过了5.3的"Thinking"版本。

GPT-5.4的100万token上下文窗口真的够用吗?

100万token大约相当于几十万个汉字或几百页文档。对于大多数应用场景来说绰绰有余。但OpenAI也指出,塞入过多或不够精确的上下文反而可能降低模型的可靠性。所以关键不是"能塞多少",而是"塞对了什么"。

免费用户能用GPT-5.4吗?

可以,但仅在ChatGPT的智能路由判断你的查询需要更强模型时才会自动切换到GPT-5.4。如果你想稳定使用,需要订阅Plus或更高级别的计划。Plus套餐每月20美元,可以获得GPT-5.4 Thinking的使用权限;Pro套餐每月200美元,可以额外获得GPT-5.4 Pro以及更高的使用配额。

GPT-5.2会被淘汰吗?

不会立即淘汰。GPT-5.2 Thinking会在"Legacy Models"(旧版模型)选项中保留三个月,直到2026年6月5日才会正式退役。Enterprise和Edu用户可以通过管理员设置提前启用GPT-5.4的访问权限。对于通过API使用的开发者,OpenAI表示没有立即弃用旧版API模型的计划,后续如有弃用安排会提前通知。

GPT-5.4的计算机操控能力安全吗?会不会失控?

这是一个非常合理的担忧。OpenAI在设计层面做了多重防护:开发者可以通过自定义确认策略(Confirmation Policy)来指定哪些操作需要人工批准才能执行;消息级别的实时拦截系统可以在异常行为发生之前进行阻断;模型的CoT(链式思维)过程可以被监控,测试表明GPT-5.4 Thinking目前缺乏隐藏其真实推理意图的能力。但对于生产环境中的自动化操作,莫潇羽仍然建议遵循"最小权限原则"——只授予智能体完成任务所需的最低限度的操作权限。

GPT-5.4和Claude Opus 4.6哪个更好?

这取决于你的具体需求。如果你的主要场景是计算机操控和自动化工作流,GPT-5.4在OSWorld-Verified上75%的成绩目前是最强的。如果你的场景偏重于特定的编程任务或需要更强的安全防护能力,Claude在某些维度上仍有优势。莫潇羽的建议是,对于关键业务场景,最好做实际的A/B测试,而不是纯粹依赖基准分数。因为基准测试和你的实际业务之间往往存在差距,只有在你自己的数据和场景上测试过的结果才是最可信的。

GPT-5.4适合用来做什么?

莫潇羽@源码七号站总结的最佳适用场景包括:复杂的多步骤工作流自动化、专业文档和报告生成、代码开发与调试、数据分析与电子表格处理、网络深度研究、桌面和Web应用的自动化操控等。


十七、实战场景深度分析:GPT-5.4能帮你做什么?

了解了GPT-5.4的各项技术指标之后,我们来看看它在实际工作中到底能怎么用。莫潇羽@源码七号站挑选了几个最典型的应用场景来深入分析。

17.1 自动化办公工作流

这可能是GPT-5.4对普通职场用户最直接的价值体现。想象这样一个场景:你需要每周从几个不同的数据源收集数据,整理成一份格式化的Excel报表,然后基于这些数据制作一份PPT给领导汇报。

在GPT-5.4之前,你可能需要用一个AI工具帮你整理数据,另一个工具帮你做PPT,中间还需要大量的人工粘贴和格式调整。而GPT-5.4凭借其原生的计算机操控能力和强化的文档处理能力,理论上可以一站式完成这整个流程——从数据收集、清洗、分析到报表生成、图表制作,最后输出格式规范的PPT和Excel文件。

当然,目前这种端到端的自动化主要通过API和Codex来实现,还不能直接在ChatGPT的聊天界面中"操控你的电脑"。但随着ChatGPT for Excel插件等产品的推出,这种体验正在逐步落地。

17.2 软件开发与测试

对于开发者来说,GPT-5.4最令人兴奋的变化是编程能力和计算机操控能力的合体。以前,你可能用AI来写代码,但写完之后还是需要自己运行、测试、调试。现在,GPT-5.4可以通过Playwright Interactive实现"写代码→运行→看效果→改代码"的完整闭环。

更具体地说,以下几种开发场景特别适合使用GPT-5.4:

前端页面的快速原型开发——你给一段描述或一张设计稿,GPT-5.4可以生成完整的前端代码,并在浏览器中实时验证效果。基于真实代码仓库的bug修复——在SWE-Bench Pro测试中57.7%的准确率意味着它能处理接近六成的真实世界代码修复任务。Web应用的自动化测试——结合Playwright的测试框架,GPT-5.4可以自动生成测试用例、执行测试并报告结果。全栈应用的端到端开发——GPT-5.4同时具备前后端代码生成能力,加上计算机操控能力,可以完成从数据库设计到API开发再到前端渲染的全链路开发。

17.3 深度研究与信息整合

GPT-5.4在BrowseComp测试中89.3%(Pro版)的成绩表明它在深度网络研究方面有了质的飞跃。如果你的工作需要经常进行市场调研、竞品分析、行业报告撰写,GPT-5.4可以成为你的强力助手。

它的优势在于:能持续进行多轮搜索而不丧失上下文(100万token的上下文窗口提供了充足的空间);搜索策略更加智能,能根据已获取的信息动态调整后续搜索方向;信息综合能力更强,能将来自多个来源的分散信息编织成逻辑清晰的分析报告;幻觉率的降低也让研究结果更加可靠。

17.4 数据分析与金融建模

GPT-5.4在电子表格建模测试中87.3%的得分尤其值得关注。这意味着在构建财务模型、进行数据分析等任务上,GPT-5.4已经具备了接近甚至超越初级分析师的能力。

不过莫潇羽需要提醒大家的是,AI生成的财务模型和数据分析结果务必经过人工审核。87.3%的准确率虽然已经很高,但在金融领域,剩下的12.7%错误率可能导致严重的决策失误。GPT-5.4在这个领域的定位应该是"高效的初稿生成器"和"智能的检查助手",而不是完全替代人类分析师的角色。

17.5 构建AI智能体(Agent)

对于AI应用开发者来说,GPT-5.4可能是目前最适合作为智能体大脑的通用模型。它同时具备了构建高质量智能体所需的全部能力要素:强大的推理能力确保智能体能正确理解和拆解复杂任务;原生的计算机操控能力让智能体能直接与软件环境交互;工具搜索机制降低了多工具集成的成本和复杂度;高token效率减少了运行成本;低幻觉率提高了智能体的可靠性。

如果你正在构建一个需要操控浏览器、处理文档、调用多种API的复杂智能体,GPT-5.4的"全能"特性意味着你不再需要为不同的子任务切换不同的模型——一个GPT-5.4就能搞定。这不仅简化了架构设计,还减少了模型切换带来的延迟和上下文丢失问题。


十八、GPT-5.4的局限性:保持理性的期待

在全面肯定GPT-5.4的能力之后,莫潇羽认为也有必要客观谈谈它的局限性和需要注意的地方。

首先是成本问题。虽然OpenAI强调GPT-5.4的token效率更高,但每token的单价确实上涨了。标准版输入价格从GPT-5.2的1.75美元/百万token涨到了2.5美元/百万token。对于高频调用的场景,成本的增加不容忽视。开发者需要实际测试在自己的业务场景下,token数量的减少是否足以抵消单价的上涨。

其次是健康领域的表现。根据公开的基准数据,GPT-5.4在HealthBench上的得分为62.6%,实际上略低于GPT-5.2的63.3%。这提醒我们,模型能力的提升并不是在所有领域都是均匀的,在某些特定领域可能会出现"退步"的情况。

第三是超长上下文的可靠性。虽然GPT-5.4支持100万token的上下文窗口,但OpenAI自己也承认,"塞入过多或不够精确的上下文反而可能降低模型的可靠性"。在实际使用中,超长上下文更适合那些确实需要大量背景信息的任务(如全代码库分析、多份合同的对比审查等),而不是"能塞多少就塞多少"。

第四是基准测试的参考价值。本文引用的大量基准数据主要来自OpenAI的自测报告。虽然有部分第三方验证(如Mercor的APEX-Agents基准测试、Scale的MCP Atlas基准测试等),但总体上仍然缺乏全面独立的第三方复现。对于基准数据,建议保持"参考但不迷信"的态度。


十九、总结与展望

GPT-5.4是OpenAI在2026年初交出的一份重量级答卷。它第一次将原生计算机操控、专业编程和通用推理能力整合进了同一个模型,并且在几乎所有的关键基准测试上都达到了领先水平。

对于开发者来说,GPT-5.4意味着可以用一个模型替代之前需要多个模型分别处理的工作流。工具搜索机制大幅降低了构建复杂智能体的成本和复杂度,原生计算机操控能力移除了一整个层次的集成复杂度,100万token的上下文窗口为处理大规模数据和长文档提供了空间。

对于普通用户来说,GPT-5.4的升级体现在更准确的回答(幻觉率降低33%)、更强的文档处理能力(GDPval评测中超越83%的专业人士)、更流畅的交互体验("中途可调"机制),以及即将到来的Excel/Sheets内嵌AI能力。

从行业格局来看,GPT-5.4让OpenAI在短期内重新占据了"综合实力最强"的位置。但正如我们在过去几个月所观察到的,AI领域的竞争已经进入了一个"领先保质期极短"的阶段。Google、Anthropic以及其他新兴力量随时可能带来新的突破。

对于关注AI技术发展的朋友们,莫潇羽的建议是:不要执着于某个模型的短暂领先,而要关注每次迭代中那些持续性的趋势——模型正在从"会说话"走向"会动手",从"单一能力突出"走向"全能选手",从"一次性回答"走向"持续性工作流"。这些趋势比任何一个基准分数都更值得我们深思。

欢迎访问源码七号站(www.fuyuan7.com)获取更多AI前沿技术的深度解析和实操指南。莫潇羽会持续为大家带来一手的技术解读和最接地气的实操分享。

本文由 莫潇羽@源码七号站(www.fuyuan7.com)原创撰写。转载请注明出处,未经授权不得用于商业用途。

参考资源

以下是本文涉及的主要参考来源和官方资源:

  • OpenAI官方博文《Introducing GPT-5.4》:https://openai.com/index/introducing-gpt-5-4/
  • OpenAI API模型文档:https://developers.openai.com/api/docs/models/gpt-5.4
  • OpenAI GPT-5.4提示词指南:https://developers.openai.com/api/docs/guides/prompt-guidance
  • OSWorld基准测试论文:https://arxiv.org/abs/2404.07972
  • ARC-AGI-2官方页面:https://arcprize.org/arc-agi/2/

PS:获取更多AI&新自媒体&电商&源码等干货教程,请搜索访问我们的网站 [源码七号站],一个安静的AI互助学习社区。