乐于分享
好东西不私藏

幻觉率暴降52.5%,OpenAI一个月迭代两次:AI模型进入"月更时代"

幻觉率暴降52.5%,OpenAI一个月迭代两次:AI模型进入"月更时代"

继 GPT-5.4 发布仅一个月,OpenAI 再次投下一颗重磅炸弹。

当地时间 5 月 5 日,OpenAI 正式发布 ChatGPT 默认模型升级版——GPT-5.5 Instant。官方数据显示,新模型在多项基准测试中将幻觉率最高压低 52.5%,同时大幅削减回复中不必要的表情符号和”废话”,聚焦准确性与简洁性。

从 GPT-5.4 到 GPT-5.5,间隔只有 30 天。这个速度在 AI 行业史上前所未有。一位接近 OpenAI 的知情人士向 DeepTech 透露:”内部节奏已经从’季度发布’切换到了’持续迭代’,模型更新不再是事件,而是流水线。”

“幻觉”到底减了多少?关键看数字怎么算

52.5% 这个数字极具冲击力,但需要拆解来看。

幻觉(Hallucination)是大语言模型最根深蒂固的问题之一:模型会一本正经地编造事实、捏造引用、虚构数据。过去两年,尽管各家厂商不断宣称”幻觉降低”,但在真实使用场景中,用户感知的改善往往远不如基准测试那么明显。

根据 OpenAI 公布的技术细节,GPT-5.5 Instant 的幻觉率下降主要体现在 短文本摘要和事实问答 两类任务上。在开放式长文本生成中,改善幅度约为 28%–35%,虽然仍然可观,但远非”减半”那么简单。

换言之,模型在”回答确定性问题”时变得更可靠了,但在”创造性表达”时仍然存在失真的风险。这与此前牛津大学的一项研究结论一致:针对”亲和力”优化的模型,往往倾向于生成让用户满意而非准确的回答。幻觉并不只是技术缺陷,某种程度上也是大模型商业模式的副产品——用户喜欢听好话,模型就学会说好话。

一个月迭代两次,OpenAI 在急什么?

从时间线看,GPT-5.4 于 4 月初发布,GPT-5.5 Instant 于 5 月 5 日上线。一个月内两次大版本迭代,这在 OpenAI 历史上绝无仅有。

这种”急迫感”并非没有来由。2026 年上半年,大模型赛道的竞争烈度急剧升级:

  • Anthropic 的 Claude 系列在编程和长文档处理领域持续蚕食 ChatGPT 的份额,其最新模型 Mythos 在威胁检测测试中与 GPT-5.5 表现持平;
  • DeepSeek 于 4 月底发布 V4 预览版并开源,虽然未像 R1 那样引发”冲击波”,但适配华为昇腾芯片的举措释放了明确信号——中国 AI 正在构建去英伟达化的独立生态;
  • Meta 收购机器人初创公司,将 AI 模型能力延伸至物理世界;
  • 苹果 被曝正在开发 iOS 27 的重大更新,将允许用户在不同 AI 模型之间切换,不再强制使用单一服务。

在这种格局下,OpenAI 的策略很清晰:用迭代速度碾压对手。你不等模型完美就发布,让竞品永远在追赶你的上一代。

这种策略的风险在于:用户可能成为”快速迭代”的代价承受者。ChatGPT 此前就曾因 GPT-5.4 版本更新导致回复质量波动而遭到大量投诉。奥特曼自己也承认,GPT-5.5 的发布会是模型自己策划的——这既是技术自信的展示,也暗示着连 OpenAI 自己都不确定,模型在哪些场景下会”跑偏”。

SubQ 的挑战:12M 上下文是真需求还是伪命题?

在同一周,另一家来自迈阿密的初创公司 Subquadratic 走出隐身模式,发布了号称支持 1200 万 token 上下文的模型 SubQ。按官方推算,序列长到 12M token 时,注意力计算量比标准 dense attention 减少近 1000 倍。

这一数据引发了行业热议。支持者认为,超长上下文将彻底改变文档分析、代码审计和知识库检索的工作方式;质疑者则指出,1200 万 token 约等于 900 万个汉字——没有任何单一文档需要用到这个量级的上下文窗口。

一位不愿具名的 AI 研究员对 DeepTech 表示:”长上下文是技术能力的展示,但不是用户需求的映射。就像手机可以拍 8K 视频,但 99% 的用户只用 1080P。真正的问题是:在 128K 到 512K 这个’实用区间’内,模型的精度和稳定性如何?”

Subquadratic 的 RULER 128K 长上下文测试成绩确实亮眼,但 Benchmark 和实际应用之间的鸿沟,已经被行业反复验证过无数次。这一次,市场需要的不是更大的数字,而是更可靠的输出。

中国 AI 的”第三条路”:不卷参数,卷生态

在中美 AI 竞争的叙事中,一个容易被忽略的变化是:中国企业的竞争策略正在从”卷模型参数”转向”卷产业生态”。

《时代》杂志最新发布的全球十大 AI 影响力公司榜单中,字节跳动、智谱、阿里巴巴三家中企入选。与此同时,通义千问全球下载量突破 10 亿次。这些数字的背后,是中国 AI 走出的”第三条路”——不追求单一模型的极致参数,而是通过开源生态、应用落地和产业链整合建立竞争壁垒。

深圳近日发布的行动计划提出,到 2026 年人工智能终端产业规模力争达到 1 万亿元,产量突破 1.5 亿台。这意味着,中国 AI 的主战场不在实验室,而在工厂、手机、汽车和每一个消费者的口袋里。

全国人大刚刚批准的”十五五”规划更是明确将半导体、人工智能、人形机器人、生物技术、6G 和商业航天列为重点扶持领域,全社会研发经费年均增长目标超过 7%。数字核心产业增加值占 GDP 比重将从 10.5% 提升至 12.5%。

当美国企业在卷”谁的模型更聪明”时,中国企业在卷”谁的模型用得更多”。两条路线孰优孰劣,可能要到 2030 年才能见分晓。

结语:迭代的速度 vs. 信任的厚度

GPT-5.5 Instant 的发布,标志着 AI 行业正式进入”月更时代”。模型迭代不再是重大事件,而变成了持续不断的流水线作业。

但速度并不等于进步。当幻觉率从”很高”降到”比较高”,当上下文窗口从 128K 膨胀到 12M,当发布节奏从季度压缩到月度——行业真正需要回答的问题不是”模型能做什么”,而是”用户敢不敢信任模型”。

OpenAI CEO 奥特曼说,GPT-5.5 给出的发布会方案”既美丽又让人感到奇怪”。这句话用来形容当下的 AI 行业同样贴切:我们正在见证的,是一场美丽而奇怪的技术革命——所有人都在加速奔跑,但没有人确切知道终点在哪里。

参考资料:OpenAI 官方公告、EPO/IEA 电池循环性报告、《时代》杂志 AI 公司榜单、深圳市人工智能产业发展行动计划、DeepTech 深科技

运营/排版:待定

封面图由 AI 辅助生成