GPT-5.5发布!AI技术竞速迈入代理时代:巨头底牌尽出,谁在建立竞争壁垒?-夜雨聆风

GPT-5.5发布!AI技术竞速迈入代理时代:巨头底牌尽出,谁在建立竞争壁垒?

就在昨天，OpenAI 正式祭出新一代旗舰模型 GPT-5.5；今天清晨，DeepSeek V4 预览版也悄然上线并同步开源。这两枚重磅炸弹的接连引爆，使长程自主工作（Agent）能力彻底成为前沿模型的新基准。接下来，我们将系统复盘过去四周内全球大模型的密集发布，看透这场技术竞速背后的商业底牌。

这四周，发布节奏

比过去一年都密

4月23日凌晨，OpenAI发布GPT-5.5，距离GPT-5.4上线只过了七周。

同一天，阿里Qwen3.6-Max-Preview刚刚上线三天，腾讯混元Hy3 preview公开发布，月之暗面Kimi K2.6正式开源刚过72小时。再往前数几天，Anthropic的Claude Opus 4.7、Google的Gemini 3.1 Pro扩大发布、xAI的Grok 4.3 Beta悄然上架、Meta Muse Spark面世——

过去四周，全球闭源大模型的发布密度，简直顶得上去年全年。

Fortune杂志的说法很扎心：”AI模型的发布开始看起来像软件更新。”

今天这篇，想从AI从业者视角把这一个月的闭源旗舰盘一遍，讲清楚三件事：

这场技术竞速背后，技术和商业的真实逻辑是什么

普通用户能从中得到什么确定的好处

又有哪些容易被忽略的坑需要绕开

时间线：四周内的

关键事件

先把节奏梳理清楚。以下按时间顺序，只挑重大事件：

3月底到4月上旬

3月31日，Google发布Veo 3.1 Lite，单价降到Fast版的一半
4月1日，Google把Gemini API的Pro级免费额度砍掉，Flash/Flash-Lite保留免费
4月2日，阿里发布Qwen3.6-Plus，原生多模态+100万token上下文，从开源转为闭源商用
4月7日，Anthropic披露”被雪藏”的Claude Mythos Preview，发起Project Glasswing
4月8日，Meta超级智能实验室发布闭源旗舰Muse Spark

4月中旬

4月13日，月之暗面Kimi K2.6 Code Preview进入内测
4月14日，Anthropic悄然上线身份核验政策，触发全球订户抗议
4月16日，Claude Opus 4.7全面发布
4月17日，Grok 4.3 Beta上架；同日XChat应用上线
4月19日，智谱GLM-5.1开源发布，SWE-bench Pro得分首次超过Claude Opus 4.6

4月下旬（最密集的一周）

4月20日，阿里Qwen3.6-Max-Preview发布；月之暗面Kimi K2.6正式开源
4月21日，ChatGPT Images 2.0发布，DALL-E全系列将于5月12日退役
4月22日，Google Gemini 3.1 Pro从预览扩展到App、NotebookLM、Vertex AI全线；Workspace Agents上线
4月23日，GPT-5.5与GPT-5.5 Pro正式发布；腾讯混元Hy3 preview亮相

24天，超过25个重大发布。节奏之密，近几年绝无仅有。

五大阵营

各自干了什么

OpenAI：用”超级App”的定位押上全部筹码

GPT-5.5最核心的变化不是分数，而是定价策略。

API价格$5/$30（输入/输出，每百万token），是5.4的两倍；Pro版本翻到$30/$180。OpenAI给出的解释是”token效率提升一倍，同等任务实际成本持平”——从Benchmark看，GPT-5.5在Terminal-Bench 2.0拿到82.7%，领先Claude Opus 4.7的69.4%和Gemini 3.1 Pro的68.5%。

但真正的信号藏在发布会后半段。Greg Brockman反复强调GPT-5.5是”迈向更代理化、更直觉化计算的关键一步”，配合同步上线的Workspace Agents（Codex驱动、云端常驻、在Slack内可共享的企业级代理）——OpenAI正在把ChatGPT、Codex、浏览器、API四条线拧成一股，做一个真正意义上的”企业超级App”。

ChatGPT Images 2.0是另一个里程碑级更新。首次引入”Thinking Mode”——图像模型会在生成前进行推理、联网搜索、自我校对。多语言文字渲染（中日韩印地孟加拉）质量从”勉强能用”跨到了”海报级可用”，最高支持2K分辨率和8张一致性批次。DALL-E 2、DALL-E 3将于5月12日下架，这是OpenAI把图像生成整个重做了一遍。

ChatGPT当前披露的数据：9亿周活跃用户、5000万付费订户、9百万企业付费用户。在用户规模上，OpenAI的核心优势仍是最深的。

Anthropic：一边稳扎商用，一边拉响”安全门控”

Claude Opus 4.7最大的亮点有三个：

一是定价没有涨。$5/$25保持与4.6一致，在本轮普遍涨价的浪潮中显得异类。

二是1M上下文+原生高清视觉。图像输入分辨率从1568像素提升到2576像素（3.75兆像素），加上100万token长上下文，处理PDF和长报告的能力出现质变。

三是Task Budgets机制——模型能”看到”自己剩余的token倒计时，自己决定什么时候该收尾、什么时候该深入。这个设计很聪明，它把”思考深度”从工程师预设的参数，变成了模型自主判断。

但Anthropic这个月真正的新闻是另一件事：他们承认自己有一款比Opus 4.7更强的模型叫Claude Mythos，并且决定不对公众发布。

4月7日披露的安全攻防测试报告显示：Mythos在配合智能体框架的情况下，对Firefox 147等开源和闭源软件发现了上千个零日漏洞，其中181个被成功转化为可利用的exploit，29个实现了寄存器控制。相比之下，Opus 4.6在同样测试中的成功率几乎为零。

Anthropic的处理方式是搞了个Project Glasswing联盟（Apple、AWS、Google、微软、Cisco、NVIDIA、Palo Alto、Linux基金会等），用1亿美元额度和400万美元开源捐赠，专门让这个模型帮全球关键基础设施打补丁。对公众它不可用。

这是行业首次有公司明确说”我们的最强模型太危险，不对外发布”。客观讲，这里面确实有营销色彩，但Mythos的零日发现能力是真实的。

雪上加霜的是身份核验政策。4月14日Anthropic悄然更新帮助中心，对”少数用例”要求提交政府签发证件+真人自拍，由Persona处理。触发场景包括违规账户、不受支持地区访问、未成年用户、以及订阅”特定高级能力”。问题是——Persona不接受学生证、员工证、银行卡，受限制地区的用户被”证件类型限制”自然挡在门外。

这件事我之前单独写过一篇，不再展开。结论就一句：AI工具的准入权正在成为新的竞争维度，多平台布局比等下一个更强的模型更重要。

Google：生态铺到几乎无死角

Gemini 3.1 Pro在4月22日从API预览扩展到了Gemini App、NotebookLM、AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI、Android Studio——几乎所有Google产品线同时接入。

定价上，200K上下文以内$2/$12，超过200K阶梯到$4/$18。根据第三方测评，它在GPQA Diamond拿到94.3%，ARC-AGI-2达到76.5，都高于GPT-5.2和Claude Opus 4.6同期数据。

真正有杀伤力的组合拳是Veo 3.1全面免费化。从4月2日起，所有Google账户在Google Vids里每月可以免费生成10段720p视频，AI Pro/Ultra订户还能用Lyria 3生成最长3分钟的音乐。对普通用户来说，这是第一次”零成本做出像样的AI视频”。

Nano Banana Pro（Gemini 3 Pro Image）在企业端继续扩张：Vertex AI、Workspace的Slides/Vids、NotebookLM、Adobe Firefly、Photoshop、Figma全线集成，最多支持14张参考图和5人一致性。

Gemini生态最强的不是单个模型，而是“在哪里都能用到”——这种渗透力是OpenAI和Anthropic短期内难以复制的。

xAI：静默上架，但稳定性堪忧

xAI仍延续”不开发布会、不发稿、直接上架”的风格。Grok 4.3 Beta在4月17日悄悄出现在模型选择器里，仅SuperGrok Heavy（$300/月）订户可用。主要变化是原生视频输入、直接输出PDF/Excel/PPT的”可交付物”能力、与Grok Computer（桌面自动化代理）更紧密的耦合。

同日上线的XChat主打端到端加密、无广告，iOS先发，Android未定。

但这个月Grok出了一件丢脸的事：4月21-23日连续48小时大面积掉线，免费和付费用户都被锁在Companions功能外，官方状态页却持续显示”一切正常”。据澳大利亚IBTimes统计，这是2026年第三次大规模故障。

能力有上限，稳定性也有下限。对普通用户来说，Grok目前的性价比并不突出。

Meta：从全开源掉头走向闭源

Muse Spark是Alexandr Wang加盟Meta后交付的首个旗舰，也是Meta自Llama以来第一次推出闭源前沿模型。

它主打两件事：原生多模态+Thought Compression（RL阶段惩罚过度思考，强迫用更少token解决问题）。官方宣称比Llama 4 Maverick节省10倍算力。

但独立测评给出了不同答案：Artificial Analysis Intelligence Index v4.0只有52分，落后Gemini 3.1 Pro和GPT-5.4（均57）、Claude Opus 4.6（53）。ARC-AGI-2只有42.5，和前沿模型差距明显。

Muse Spark领先的领域集中在视觉和健康（CharXiv Reasoning 86.4、HealthBench Hard 42.8），路线选择上相当克制。

Meta坦言未来”会考虑开源较小版本”，但这次的关闭表态耐人寻味——Llama 4受挫之后，扎克伯格选择了”先闭源盈利，再考虑开源”。

国产主力：各自练自己的拳

阿里、字节、月之暗面、智谱、腾讯、百度这一个月各有动作，但路线分化越来越清晰。

阿里通义走的是”闭源旗舰+部分开源”路线：Qwen3.6-Plus从开源转闭源商用，Qwen3.6-Max-Preview在第三方榜单上登顶国产第一，Qwen3.6-27B开源尺寸补齐了开发者最常请求的中端需求。

字节豆包主线是生态落地：4月22日官宣豆包+DeepSeek双模型接入特斯拉中国车机，豆包负责命令式操作、DeepSeek负责闲聊，这是典型的互补式部署。Seed 2.0 Pro系列在AIME 2025拿到98.3分，定价约为GPT-5.2的三分之一到六分之一。

月之暗面Kimi走开源激进路线：K2.6宣称”可不间断编码13小时、编写超过4000行代码”，在HLE、SWE-Bench Pro、DeepSearchQA等基准上持平或优于GPT-5.4、Opus 4.6、Gemini 3.1 Pro。但发布当天流量翻车，额度误扣，Kimi不得不全员月额度重置赔偿。

智谱GLM走”开源基座+闭源Agent”的双轨：GLM-5.1开源版本首次在SWE-bench Pro超过Claude Opus 4.6，同期也推出GLM-5-Turbo（200K上下文、面向工具调用）和GLM-4.7-Image闭源视觉编程基座。

腾讯混元4月23日发布Hy3 preview（295B总参、21B激活、256K上下文），是2026年2月重建预训练基础设施后的首个成品，推理效率提升40%，TokenHub上最低每百万输入1.2元，价格在前沿闭源中极具竞争力。

百度文心本月没有推出新的闭源旗舰，重心在开源ERNIE-Image上，官方称其文字渲染能力全球第一，逼近Nano Banana效果。

有个数据值得留意：OpenRouter统计，4月13-19日美国AI调用量首次在近两个月内反超国内（4.9万亿 vs 4.4万亿），环比国内下降23.8%、美国增长20.6%。榜单分数和真实使用之间，还存在明显落差。

生态角逐背后的

五条技术主线

看完各家动作，把技术脉络抽出来，这一轮有五条共性主线：

一是模型从”聊天”转向”代理”和长程工作。GPT-5.5、Opus 4.7、Gemini 3.1 Pro、Qwen3.6-Max、Kimi K2.6、Muse Spark、Hy3 preview——无一例外都在强调”长时自主、工具调用、自我验证”。Claude Opus 4.7的Task Budgets让模型自己看倒计时、自己规划收尾；Qwen3.6-Max的preserve_thinking参数保留多轮思维链以服务Agent长程任务。

二是”思考预算”成为主旋律。Muse Spark的Thought Compression、GPT-5.5的”用更少token达到更高质量”、Opus 4.7的Adaptive Thinking、Gemini 3.1 Pro新增的MEDIUM档thinking_level——本质都是一件事：让模型自己决定什么时候该想深，什么时候该速答。推理成本不再靠堆算力，而是靠教会模型自主调度。

三是原生多模态+高分辨率视觉。Opus 4.7首次原生支持2576像素高清图像；Images 2.0是OpenAI第一个”会思考”的图像模型；Nano Banana Pro支持14张参考图+5人一致性；Gemini 3.1 Pro在MMMU-Pro登顶。3D世界模型（Google Genie 3、World Labs Marble、阿里Happy Oyster、腾讯HY-World 2.0）也在同步出现，下一步就是对物理世界的理解和生成。

四是”不发布”成为新的安全策略。Mythos是全行业第一次明确说”最强模型不公开”。OpenAI把GPT-5.5在Preparedness Framework下的生化和网络安全能力评为”高”，触发了史上最强的安全护栏。”不发布”和”身份核验”一起，构成了新的安全叙事。

五是代理基础设施融入操作系统。ChatGPT Atlas浏览器、Claude Cowork、Claude in Chrome、Grok Computer、Muse Spark进入Ray-Ban智能眼镜——AI正从”对话框”搬进桌面、浏览器、硬件。这是比模型本身更深的变化。

高频发版背后的

商业博弈

技术层面之外，商业策略的分化也越来越清晰。

发布节奏从季度到周。GPT-5.4到5.5七周、Opus 4.6到4.7两个月、Gemini 3 Pro到3.1 Pro两个月。高频发布的三个目的：抢用户心智、防止开源模型一次性吃掉差距、让企业客户觉得”订阅值得续”。

定价的K型分化。前沿越来越贵（GPT-5.5 Pro $30/$180、Gemini 3.1 Pro超200K翻倍），”够用级”越来越便宜（字节豆包Lite 0.6元/百万token、腾讯混元Hy3低至1.2元）。中间档位被挤得很难受。

闭源和开源的路线选择已经清晰。Meta从全开源转闭源，Anthropic用Mythos的”限制发布”建立第三条路，Google坚持Flash开源+Pro闭源的混合策略，国内三大厂走”闭源旗舰+部分尺寸开源”。行业逐渐达成一个隐性共识：开源用来获客，闭源用来盈利。

生态差异化路径。OpenAI押注超级App+Workspace Agents；Anthropic押注Claude桌面+Chrome+Cowork+Office全家桶；Google押注全产品线渗透；xAI押注X+Tesla+XChat的矩阵；Meta押注社交+智能眼镜；国内厂商押注应用内嵌和垂直行业。

普通用户的

快乐清单

如果你不是AI从业者，这一个月真正值得高兴的是什么？我按场景列一下：

日常中文写作和总结：豆包、Kimi、文心、通义免费版都够用，在合规和本土生活场景理解上比海外模型更贴近。

英文长文精读和专业翻译：Kimi和Gemini 2.5 Flash的免费额度足以应付；付费推荐Claude Opus 4.7，1M上下文+高清图像识别对PDF非常友好。

做海报和带文字的图：ChatGPT Images 2.0的Thinking模式是本轮最大惊喜，多语言海报文字清晰度是质变级提升，付费订户优先尝试。

写代码：Kimi K2.6开源+API性价比极高，Qwen3.6-Plus每百万输入2元；付费推荐Claude Code配Opus 4.7或GPT-5.5 in Codex。

办公自动化：Claude Pro+Excel/PowerPoint集成已经是目前最成熟的办公组合，值得$20/月的投入。

视频生成：Google Vids每月免费10条Veo 3.1是普通人第一次”零成本做AI视频”的机会。注意OpenAI的Sora将于4月26日关闭Web/App端。

实时语音对话：豆包语音、讯飞星火、Kimi语音的中文体验都很流畅；如果需要英文对话，Grok Voice的首音延迟做到了1秒以内。

免费与付费的红利分层也值得说清楚：免费层够用的新增红利包括Images 2.0 Instant模式、Google Vids的Veo 3.1、国产全家桶的主要功能；$20付费档（Plus/Pro/AI Pro）才能解锁GPT-5.5 Thinking、Opus 4.7、Gemini 3.1 Pro、Images 2.0 Thinking这些旗舰能力；$200以上才进入Cowork全量、Veo 3.1 Ultra额度、Claude in Chrome的范畴。

一句话：大多数普通用户，一个主力国产模型+一个$20海外付费，已经覆盖90%的需求。

需要警惕的七件事

好处说完了，说说容易被忽略的坑。

一是订阅堆叠经济学。ChatGPT Plus+Claude Pro+Gemini AI Pro+SuperGrok=约700元/月。如果再叠加Cursor、Perplexity、Midjourney，”AI全家桶”月成本轻松过1000元。坦白讲，大多数人用不完，不如选一个主力深挖。

二是合规与身份风险。Anthropic的Persona身份核验在扩散，OpenAI早已对API开发者要求身份验证，Google和Meta被普遍认为是时间问题。从不支持的地区访问付费服务，退款概率非常低，务必用能过核验的正规身份和支付渠道。

三是数据隐私。Cowork、Workspace Agents这类”云端常驻代理”意味着企业数据更广泛地流入AI厂商。敏感文件、财务数据、医疗信息要明确限定权限，Anthropic承诺身份数据不用于训练，但仍会在Persona、AWS、Stripe、Twilio等多方流转。

四是版本焦虑与工具焦虑。OpenRouter全球AI调用量连续两周下滑——不是AI变差了，而是用户开始意识到”频繁换模型的边际收益正在变小”。研究显示，普通用户在日常任务中对GPT-5.3和GPT-5.5的体感差异并不显著。给自己2-4周让评测和口碑沉淀，不必第一天追新。

五是能力退化风险。Kimi宣称”单次13小时不间断编码”，越来越多AI能帮人做的事出现。但关键判断、原创思考、核心沟通，建议自己先做一遍再交给AI交叉检查。AI越能干，人越容易变懒。

六是幻觉问题在新版仍未根除。Artificial Analysis在Gemini 3.1 Pro上测得对抗性基准AA-Omniscience的幻觉率仍有50%，已从3 Pro的88%大幅下降，但绝对值仍然高。涉及医疗、法律、财务的关键决策，AI输出必须人工复核。

七是AI生成内容的合规。Images 2.0、Nano Banana Pro、Veo 3.1都嵌入了SynthID或类似水印，但社区已多次演示水印可被洗掉。商业用途务必明示AI参与度，并保留原始prompt作为版权证据。涉及真人形象尤其是未成年人形象的生成，审美更宽松的模型目前正面临多国司法调查，千万不要碰。

送给朋友们的

三个判断

看完这一个月，我想留下三个相对长期的判断。

第一，闭源模型的”发布”已经变成”渐进部署”。GPT-5.5、Opus 4.7、Gemini 3.1 Pro、Qwen3.6-Max全都采用”Preview→API→App→Enterprise”的渐进路径。未来企业采购的关键，不再是”买哪个模型”，而是”如何设计一个能快速切换模型的工作流”。

第二，代理化才是本轮真正的主题。多模态是过去两年的主题，长时任务、工具调用、Cowork和Workspace Agents才是2026年二季度的主线。企业不再为”问答”付费，而是为”交付成果”付费。Kimi所谓的”13小时连续编码”已经在验证这条路。

第三，”不发布最强模型”和”选择性身份核验”是结构性信号。Anthropic拉开了安全门控的先例，OpenAI和Google可能在半年内以不同形式跟进。这意味着未来的”顶级AI”很可能不是公开可及的——商业化顶层将由少数企业客户独占。这本身会加剧AI不平等，也值得国内AI公司思考差异化的切入口。

如果这篇文章对你有启发，欢迎转发给同样在用AI工具的朋友。

关注”硅基光行人Jevon”，持续追踪全球AI工具的节奏变化和实操影响。

文 / Jevon

独立AI战略顾问 · 国家级产业平台AI专家。深耕AI基础设施与企业级IT十七年，从算力底座到智能体落地，专注将技术判断转化为可执行的商业决策。不做AI布道师，只讲真正有用的事。穿行于硅基世界，寻找碳基的温柔。