乐于分享
好东西不私藏

GPT-5.4发布:AI第一次把操作电脑内置进通用模型,这不是升级,是换挡

GPT-5.4发布:AI第一次把操作电脑内置进通用模型,这不是升级,是换挡

今天,OpenAI发布了GPT-5.4。官方博客标题很克制,但有一句话值得单独画出来:"first general-purpose model we've released with native, state-of-the-art computer-use capabilities"

第一个原生computer-use能力的通用模型。

翻译过来就是:AI第一次把"操作电脑"这个能力,直接烧进了一个什么都能做的通用模型里。不是插件,不是实验性功能,是内置。

关键数字:1M tokens上下文、整合GPT-5.3-Codex全部编码能力、比GPT-5.2更省token("significantly fewer tokens",OpenAI原文)。同步上线ChatGPT、API和Codex三端。

发现一:computer-use,这次是认真的

等等,你可能会问:computer-use不是早就有了吗?Anthropic去年就出过computer-use版Claude。

是的,你没看错——但有一个关键区别:Anthropic的computer-use是一个独立的"实验性"模型,和主线Claude分开,能力有限,API单独收费,用起来像个半成品。

GPT-5.4不一样。OpenAI的原文是"native"——原生。这意味着:

  • 不是另起一个模型,是在同一个模型里直接支持
  • 不是光标点击的玩具级别,是"carrying out complex workflows across applications"
  • 支持agent在应用之间切换、在软件里操作、跨工具完成长任务

举个场景:你告诉Agent"帮我把昨天的销售数据整理成PPT发给张总"。过去,这句话要拆成5个步骤手动操作。GPT-5.4理论上可以:打开Excel→读数据→打开PowerPoint→生成图表→发邮件,全程无人值守。

这不是科幻。这是今天可以在API里调用的能力。

发现二:1M tokens,真正意义上的"长程记忆"

1M tokens是什么概念?

大约相当于750,000个英文单词,或者约100万个汉字。一本普通的商业书大概是10万字,所以1M token能装下10本书

实际用途更直接:

  • 一个中型企业的全部内部文档 → 装进去
  • 一个完整代码库(10万行以上)→ 装进去
  • 三个月的销售邮件记录 → 装进去

▎真正的问题从来不是AI记不住,而是装进去的东西,AI能不能找到对的那一个。

GPT-5.4同步推出了"tool search"——Agent能自动搜索并找到合适的工具,不需要开发者预先列出所有工具。

这两个能力加在一起,对Agent开发者意味着:你再也不用精心设计"系统记忆"的数据结构了。把所有上下文塞进去,让模型自己找。

发现三:省token,这才是真正的商业信号

GPT-5.4比GPT-5.2"significantly fewer tokens to solve problems"。

这句话的商业含义比技术含义重要得多。

如果你在跑AI Agent业务,成本是这样算的:每次任务 = N次API调用 × 每次token数 × 单价。token减少 = 同样的任务,成本更低,速度更快。

同时,GPT-5.4还支持upfront plan:在ChatGPT里,模型会先给你看它的"思考计划",你可以在它执行过程中随时打断调整,不用等到最后才发现跑偏了。

这个功能看似小,实际上解决了AI Agent最大的痛点:不可控。过去Agent跑一半做错了,只能全重来。现在可以中途介入。

我的思考

我花了一上午看GPT-5.4的所有官方材料。有几个判断:

判断一:computer-use是今年最重要的分水岭

2024年是大模型年,2025年是Agent框架年,2026年是computer-use年。当AI能直接操作任何软件,"AI辅助"变成了"AI执行"。对创业者的影响:过去你需要为每个业务场景写专门的集成代码,现在模型自己能操作软件了,中间层的价值在下降。

判断二:1M context让"知识库"这个SaaS类别承压

现在很多公司的商业模式是:帮企业做RAG(检索增强生成),把文档分块、向量化、检索。当context足够大,可以直接把所有文档塞进去,RAG的必要性大幅降低。这不是说RAG死了,而是那些纯靠"帮企业存文档"赚钱的SaaS,护城河越来越浅。

判断三:如果让我选现在最值得做的AI产品,我会选操作层

不是底层模型,不是Agent框架,而是"特定行业的computer-use封装"。比如:专门帮律师事务所操作法律检索软件的Agent、专门帮会计师处理财务软件的Agent。GPT-5.4提供了底层能力,但特定行业的工作流整合、错误处理、合规保障——这些还需要有人做。这是接下来6个月的机会窗口。

今天可以做的第一步:去API文档看computer-use的调用方式,找一个你熟悉的行业,想清楚"哪个最重复的操作流程可以用这个能力替代"。不需要完整产品,先做一个可演示的demo。


数据来源与说明

  • Introducing GPT-5.4[1](OpenAI官方博客,2026-03-05)
  • GPT-5.4 Thinking System Card[2](OpenAI,2026-03-05)

算力与现金流 · AI 时代的第一手洞察

引用链接

[1]Introducing GPT-5.4: https://openai.com/index/introducing-gpt-5-4/

[2]GPT-5.4 Thinking System Card: https://openai.com/index/gpt-5-4-thinking-system-card/