幻觉率暴降52.5%,OpenAI一个月迭代两次:AI模型进入＂月更时代＂

继 GPT-5.4 发布仅一个月，OpenAI 再次投下一颗重磅炸弹。

当地时间 5 月 5 日，OpenAI 正式发布 ChatGPT 默认模型升级版——GPT-5.5 Instant。官方数据显示，新模型在多项基准测试中将幻觉率最高压低 52.5%，同时大幅削减回复中不必要的表情符号和”废话”，聚焦准确性与简洁性。

从 GPT-5.4 到 GPT-5.5，间隔只有 30 天。这个速度在 AI 行业史上前所未有。一位接近 OpenAI 的知情人士向 DeepTech 透露：”内部节奏已经从’季度发布’切换到了’持续迭代’，模型更新不再是事件，而是流水线。”

“幻觉”到底减了多少？关键看数字怎么算

52.5% 这个数字极具冲击力，但需要拆解来看。

幻觉（Hallucination）是大语言模型最根深蒂固的问题之一：模型会一本正经地编造事实、捏造引用、虚构数据。过去两年，尽管各家厂商不断宣称”幻觉降低”，但在真实使用场景中，用户感知的改善往往远不如基准测试那么明显。

根据 OpenAI 公布的技术细节，GPT-5.5 Instant 的幻觉率下降主要体现在短文本摘要和事实问答两类任务上。在开放式长文本生成中，改善幅度约为 28%–35%，虽然仍然可观，但远非”减半”那么简单。

换言之，模型在”回答确定性问题”时变得更可靠了，但在”创造性表达”时仍然存在失真的风险。这与此前牛津大学的一项研究结论一致：针对”亲和力”优化的模型，往往倾向于生成让用户满意而非准确的回答。幻觉并不只是技术缺陷，某种程度上也是大模型商业模式的副产品——用户喜欢听好话，模型就学会说好话。

一个月迭代两次，OpenAI 在急什么？

从时间线看，GPT-5.4 于 4 月初发布，GPT-5.5 Instant 于 5 月 5 日上线。一个月内两次大版本迭代，这在 OpenAI 历史上绝无仅有。

这种”急迫感”并非没有来由。2026 年上半年，大模型赛道的竞争烈度急剧升级：

Anthropic 的 Claude 系列在编程和长文档处理领域持续蚕食 ChatGPT 的份额，其最新模型 Mythos 在威胁检测测试中与 GPT-5.5 表现持平；
DeepSeek 于 4 月底发布 V4 预览版并开源，虽然未像 R1 那样引发”冲击波”，但适配华为昇腾芯片的举措释放了明确信号——中国 AI 正在构建去英伟达化的独立生态；
Meta 收购机器人初创公司，将 AI 模型能力延伸至物理世界；
苹果被曝正在开发 iOS 27 的重大更新，将允许用户在不同 AI 模型之间切换，不再强制使用单一服务。

在这种格局下，OpenAI 的策略很清晰：用迭代速度碾压对手。你不等模型完美就发布，让竞品永远在追赶你的上一代。

这种策略的风险在于：用户可能成为”快速迭代”的代价承受者。ChatGPT 此前就曾因 GPT-5.4 版本更新导致回复质量波动而遭到大量投诉。奥特曼自己也承认，GPT-5.5 的发布会是模型自己策划的——这既是技术自信的展示，也暗示着连 OpenAI 自己都不确定，模型在哪些场景下会”跑偏”。

在同一周，另一家来自迈阿密的初创公司 Subquadratic 走出隐身模式，发布了号称支持 1200 万 token 上下文的模型 SubQ。按官方推算，序列长到 12M token 时，注意力计算量比标准 dense attention 减少近 1000 倍。

这一数据引发了行业热议。支持者认为，超长上下文将彻底改变文档分析、代码审计和知识库检索的工作方式；质疑者则指出，1200 万 token 约等于 900 万个汉字——没有任何单一文档需要用到这个量级的上下文窗口。

一位不愿具名的 AI 研究员对 DeepTech 表示：”长上下文是技术能力的展示，但不是用户需求的映射。就像手机可以拍 8K 视频，但 99% 的用户只用 1080P。真正的问题是：在 128K 到 512K 这个’实用区间’内，模型的精度和稳定性如何？”

Subquadratic 的 RULER 128K 长上下文测试成绩确实亮眼，但 Benchmark 和实际应用之间的鸿沟，已经被行业反复验证过无数次。这一次，市场需要的不是更大的数字，而是更可靠的输出。

在中美 AI 竞争的叙事中，一个容易被忽略的变化是：中国企业的竞争策略正在从”卷模型参数”转向”卷产业生态”。

《时代》杂志最新发布的全球十大 AI 影响力公司榜单中，字节跳动、智谱、阿里巴巴三家中企入选。与此同时，通义千问全球下载量突破 10 亿次。这些数字的背后，是中国 AI 走出的”第三条路”——不追求单一模型的极致参数，而是通过开源生态、应用落地和产业链整合建立竞争壁垒。

深圳近日发布的行动计划提出，到 2026 年人工智能终端产业规模力争达到 1 万亿元，产量突破 1.5 亿台。这意味着，中国 AI 的主战场不在实验室，而在工厂、手机、汽车和每一个消费者的口袋里。

全国人大刚刚批准的”十五五”规划更是明确将半导体、人工智能、人形机器人、生物技术、6G 和商业航天列为重点扶持领域，全社会研发经费年均增长目标超过 7%。数字核心产业增加值占 GDP 比重将从 10.5% 提升至 12.5%。

当美国企业在卷”谁的模型更聪明”时，中国企业在卷”谁的模型用得更多”。两条路线孰优孰劣，可能要到 2030 年才能见分晓。

GPT-5.5 Instant 的发布，标志着 AI 行业正式进入”月更时代”。模型迭代不再是重大事件，而变成了持续不断的流水线作业。

但速度并不等于进步。当幻觉率从”很高”降到”比较高”，当上下文窗口从 128K 膨胀到 12M，当发布节奏从季度压缩到月度——行业真正需要回答的问题不是”模型能做什么”，而是”用户敢不敢信任模型”。

OpenAI CEO 奥特曼说，GPT-5.5 给出的发布会方案”既美丽又让人感到奇怪”。这句话用来形容当下的 AI 行业同样贴切：我们正在见证的，是一场美丽而奇怪的技术革命——所有人都在加速奔跑，但没有人确切知道终点在哪里。

参考资料：OpenAI 官方公告、EPO/IEA 电池循环性报告、《时代》杂志 AI 公司榜单、深圳市人工智能产业发展行动计划、DeepTech 深科技

运营/排版：待定

封面图由 AI 辅助生成