乐于分享
好东西不私藏

GPT-5.5发布!AI技术竞速迈入代理时代:巨头底牌尽出,谁在建立竞争壁垒?

GPT-5.5发布!AI技术竞速迈入代理时代:巨头底牌尽出,谁在建立竞争壁垒?

就在昨天,OpenAI 正式祭出新一代旗舰模型 GPT-5.5;今天清晨,DeepSeek V4 预览版也悄然上线并同步开源。这两枚重磅炸弹的接连引爆,使长程自主工作(Agent)能力彻底成为前沿模型的新基准。接下来,我们将系统复盘过去四周内全球大模型的密集发布,看透这场技术竞速背后的商业底牌。

01

这四周,发布节奏
比过去一年都密
4月23日凌晨,OpenAI发布GPT-5.5,距离GPT-5.4上线只过了七周。
同一天,阿里Qwen3.6-Max-Preview刚刚上线三天,腾讯混元Hy3 preview公开发布,月之暗面Kimi K2.6正式开源刚过72小时。再往前数几天,Anthropic的Claude Opus 4.7、Google的Gemini 3.1 Pro扩大发布、xAI的Grok 4.3 Beta悄然上架、Meta Muse Spark面世——
过去四周,全球闭源大模型的发布密度,简直顶得上去年全年。
Fortune杂志的说法很扎心:”AI模型的发布开始看起来像软件更新。”
今天这篇,想从AI从业者视角把这一个月的闭源旗舰盘一遍,讲清楚三件事:
  • 这场技术竞速背后,技术和商业的真实逻辑是什么
  • 普通用户能从中得到什么确定的好处
  • 又有哪些容易被忽略的坑需要绕开

02

时间线:四周内的
关键事件
先把节奏梳理清楚。以下按时间顺序,只挑重大事件:
3月底到4月上旬
  1. 3月31日,Google发布Veo 3.1 Lite,单价降到Fast版的一半
  2. 4月1日,Google把Gemini API的Pro级免费额度砍掉,Flash/Flash-Lite保留免费
  3. 4月2日,阿里发布Qwen3.6-Plus,原生多模态+100万token上下文,从开源转为闭源商用
  4. 4月7日,Anthropic披露”被雪藏”的Claude Mythos Preview,发起Project Glasswing
  5. 4月8日,Meta超级智能实验室发布闭源旗舰Muse Spark
4月中旬
  1. 4月13日,月之暗面Kimi K2.6 Code Preview进入内测
  2. 4月14日,Anthropic悄然上线身份核验政策,触发全球订户抗议
  3. 4月16日,Claude Opus 4.7全面发布
  4. 4月17日,Grok 4.3 Beta上架;同日XChat应用上线
  5. 4月19日,智谱GLM-5.1开源发布,SWE-bench Pro得分首次超过Claude Opus 4.6
4月下旬(最密集的一周)
  1. 4月20日,阿里Qwen3.6-Max-Preview发布;月之暗面Kimi K2.6正式开源
  2. 4月21日,ChatGPT Images 2.0发布,DALL-E全系列将于5月12日退役
  3. 4月22日,Google Gemini 3.1 Pro从预览扩展到App、NotebookLM、Vertex AI全线;Workspace Agents上线
  4. 4月23日,GPT-5.5与GPT-5.5 Pro正式发布;腾讯混元Hy3 preview亮相
24天,超过25个重大发布。节奏之密,近几年绝无仅有。

03

五大阵营
各自干了什么
OpenAI:用”超级App”的定位押上全部筹码
GPT-5.5最核心的变化不是分数,而是定价策略。
API价格$5/$30(输入/输出,每百万token),是5.4的两倍;Pro版本翻到$30/$180。OpenAI给出的解释是”token效率提升一倍,同等任务实际成本持平”——从Benchmark看,GPT-5.5在Terminal-Bench 2.0拿到82.7%,领先Claude Opus 4.7的69.4%和Gemini 3.1 Pro的68.5%。
但真正的信号藏在发布会后半段。Greg Brockman反复强调GPT-5.5是”迈向更代理化、更直觉化计算的关键一步”,配合同步上线的Workspace Agents(Codex驱动、云端常驻、在Slack内可共享的企业级代理)——OpenAI正在把ChatGPT、Codex、浏览器、API四条线拧成一股,做一个真正意义上的”企业超级App”。
ChatGPT Images 2.0是另一个里程碑级更新。首次引入”Thinking Mode”——图像模型会在生成前进行推理、联网搜索、自我校对。多语言文字渲染(中日韩印地孟加拉)质量从”勉强能用”跨到了”海报级可用”,最高支持2K分辨率和8张一致性批次。DALL-E 2、DALL-E 3将于5月12日下架,这是OpenAI把图像生成整个重做了一遍。
ChatGPT当前披露的数据:9亿周活跃用户、5000万付费订户、9百万企业付费用户。在用户规模上,OpenAI的核心优势仍是最深的。
Anthropic:一边稳扎商用,一边拉响”安全门控”
Claude Opus 4.7最大的亮点有三个:
一是定价没有涨。$5/$25保持与4.6一致,在本轮普遍涨价的浪潮中显得异类。
二是1M上下文+原生高清视觉。图像输入分辨率从1568像素提升到2576像素(3.75兆像素),加上100万token长上下文,处理PDF和长报告的能力出现质变。
三是Task Budgets机制——模型能”看到”自己剩余的token倒计时,自己决定什么时候该收尾、什么时候该深入。这个设计很聪明,它把”思考深度”从工程师预设的参数,变成了模型自主判断。
但Anthropic这个月真正的新闻是另一件事:他们承认自己有一款比Opus 4.7更强的模型叫Claude Mythos,并且决定不对公众发布。
4月7日披露的安全攻防测试报告显示:Mythos在配合智能体框架的情况下,对Firefox 147等开源和闭源软件发现了上千个零日漏洞,其中181个被成功转化为可利用的exploit,29个实现了寄存器控制。相比之下,Opus 4.6在同样测试中的成功率几乎为零。
Anthropic的处理方式是搞了个Project Glasswing联盟(Apple、AWS、Google、微软、Cisco、NVIDIA、Palo Alto、Linux基金会等),用1亿美元额度和400万美元开源捐赠,专门让这个模型帮全球关键基础设施打补丁。对公众它不可用。
这是行业首次有公司明确说”我们的最强模型太危险,不对外发布”。客观讲,这里面确实有营销色彩,但Mythos的零日发现能力是真实的。
雪上加霜的是身份核验政策。4月14日Anthropic悄然更新帮助中心,对”少数用例”要求提交政府签发证件+真人自拍,由Persona处理。触发场景包括违规账户、不受支持地区访问、未成年用户、以及订阅”特定高级能力”。问题是——Persona不接受学生证、员工证、银行卡,受限制地区的用户被”证件类型限制”自然挡在门外。
这件事我之前单独写过一篇,不再展开。结论就一句:AI工具的准入权正在成为新的竞争维度,多平台布局比等下一个更强的模型更重要。
Google:生态铺到几乎无死角
Gemini 3.1 Pro在4月22日从API预览扩展到了Gemini App、NotebookLM、AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI、Android Studio——几乎所有Google产品线同时接入。
定价上,200K上下文以内$2/$12,超过200K阶梯到$4/$18。根据第三方测评,它在GPQA Diamond拿到94.3%,ARC-AGI-2达到76.5,都高于GPT-5.2和Claude Opus 4.6同期数据。
真正有杀伤力的组合拳是Veo 3.1全面免费化。从4月2日起,所有Google账户在Google Vids里每月可以免费生成10段720p视频,AI Pro/Ultra订户还能用Lyria 3生成最长3分钟的音乐。对普通用户来说,这是第一次”零成本做出像样的AI视频”。
Nano Banana Pro(Gemini 3 Pro Image)在企业端继续扩张:Vertex AI、Workspace的Slides/Vids、NotebookLM、Adobe Firefly、Photoshop、Figma全线集成,最多支持14张参考图和5人一致性。
Gemini生态最强的不是单个模型,而是“在哪里都能用到”——这种渗透力是OpenAI和Anthropic短期内难以复制的。
xAI:静默上架,但稳定性堪忧
xAI仍延续”不开发布会、不发稿、直接上架”的风格。Grok 4.3 Beta在4月17日悄悄出现在模型选择器里,仅SuperGrok Heavy($300/月)订户可用。主要变化是原生视频输入、直接输出PDF/Excel/PPT的”可交付物”能力、与Grok Computer(桌面自动化代理)更紧密的耦合。
同日上线的XChat主打端到端加密、无广告,iOS先发,Android未定。
但这个月Grok出了一件丢脸的事:4月21-23日连续48小时大面积掉线,免费和付费用户都被锁在Companions功能外,官方状态页却持续显示”一切正常”。据澳大利亚IBTimes统计,这是2026年第三次大规模故障。
能力有上限,稳定性也有下限。对普通用户来说,Grok目前的性价比并不突出。
Meta:从全开源掉头走向闭源
Muse Spark是Alexandr Wang加盟Meta后交付的首个旗舰,也是Meta自Llama以来第一次推出闭源前沿模型。
它主打两件事:原生多模态+Thought Compression(RL阶段惩罚过度思考,强迫用更少token解决问题)。官方宣称比Llama 4 Maverick节省10倍算力。
但独立测评给出了不同答案:Artificial Analysis Intelligence Index v4.0只有52分,落后Gemini 3.1 Pro和GPT-5.4(均57)、Claude Opus 4.6(53)。ARC-AGI-2只有42.5,和前沿模型差距明显。
Muse Spark领先的领域集中在视觉和健康(CharXiv Reasoning 86.4、HealthBench Hard 42.8),路线选择上相当克制。
Meta坦言未来”会考虑开源较小版本”,但这次的关闭表态耐人寻味——Llama 4受挫之后,扎克伯格选择了”先闭源盈利,再考虑开源”。
国产主力:各自练自己的拳
阿里、字节、月之暗面、智谱、腾讯、百度这一个月各有动作,但路线分化越来越清晰。
阿里通义走的是”闭源旗舰+部分开源”路线:Qwen3.6-Plus从开源转闭源商用,Qwen3.6-Max-Preview在第三方榜单上登顶国产第一,Qwen3.6-27B开源尺寸补齐了开发者最常请求的中端需求。
字节豆包主线是生态落地:4月22日官宣豆包+DeepSeek双模型接入特斯拉中国车机,豆包负责命令式操作、DeepSeek负责闲聊,这是典型的互补式部署。Seed 2.0 Pro系列在AIME 2025拿到98.3分,定价约为GPT-5.2的三分之一到六分之一。
月之暗面Kimi走开源激进路线:K2.6宣称”可不间断编码13小时、编写超过4000行代码”,在HLE、SWE-Bench Pro、DeepSearchQA等基准上持平或优于GPT-5.4、Opus 4.6、Gemini 3.1 Pro。但发布当天流量翻车,额度误扣,Kimi不得不全员月额度重置赔偿。
智谱GLM走”开源基座+闭源Agent”的双轨:GLM-5.1开源版本首次在SWE-bench Pro超过Claude Opus 4.6,同期也推出GLM-5-Turbo(200K上下文、面向工具调用)和GLM-4.7-Image闭源视觉编程基座。
腾讯混元4月23日发布Hy3 preview(295B总参、21B激活、256K上下文),是2026年2月重建预训练基础设施后的首个成品,推理效率提升40%,TokenHub上最低每百万输入1.2元,价格在前沿闭源中极具竞争力。
百度文心本月没有推出新的闭源旗舰,重心在开源ERNIE-Image上,官方称其文字渲染能力全球第一,逼近Nano Banana效果。
有个数据值得留意:OpenRouter统计,4月13-19日美国AI调用量首次在近两个月内反超国内(4.9万亿 vs 4.4万亿),环比国内下降23.8%、美国增长20.6%。榜单分数和真实使用之间,还存在明显落差。

04

生态角逐背后的
五条技术主线
看完各家动作,把技术脉络抽出来,这一轮有五条共性主线:
一是模型从”聊天”转向”代理”和长程工作。GPT-5.5、Opus 4.7、Gemini 3.1 Pro、Qwen3.6-Max、Kimi K2.6、Muse Spark、Hy3 preview——无一例外都在强调”长时自主、工具调用、自我验证”。Claude Opus 4.7的Task Budgets让模型自己看倒计时、自己规划收尾;Qwen3.6-Max的preserve_thinking参数保留多轮思维链以服务Agent长程任务。
二是”思考预算”成为主旋律。Muse Spark的Thought Compression、GPT-5.5的”用更少token达到更高质量”、Opus 4.7的Adaptive Thinking、Gemini 3.1 Pro新增的MEDIUM档thinking_level——本质都是一件事:让模型自己决定什么时候该想深,什么时候该速答。推理成本不再靠堆算力,而是靠教会模型自主调度。
三是原生多模态+高分辨率视觉。Opus 4.7首次原生支持2576像素高清图像;Images 2.0是OpenAI第一个”会思考”的图像模型;Nano Banana Pro支持14张参考图+5人一致性;Gemini 3.1 Pro在MMMU-Pro登顶。3D世界模型(Google Genie 3、World Labs Marble、阿里Happy Oyster、腾讯HY-World 2.0)也在同步出现,下一步就是对物理世界的理解和生成。
四是”不发布”成为新的安全策略。Mythos是全行业第一次明确说”最强模型不公开”。OpenAI把GPT-5.5在Preparedness Framework下的生化和网络安全能力评为”高”,触发了史上最强的安全护栏。”不发布”和”身份核验”一起,构成了新的安全叙事。
五是代理基础设施融入操作系统。ChatGPT Atlas浏览器、Claude Cowork、Claude in Chrome、Grok Computer、Muse Spark进入Ray-Ban智能眼镜——AI正从”对话框”搬进桌面、浏览器、硬件。这是比模型本身更深的变化。

05

高频发版背后的
商业博弈
技术层面之外,商业策略的分化也越来越清晰。
发布节奏从季度到周。GPT-5.4到5.5七周、Opus 4.6到4.7两个月、Gemini 3 Pro到3.1 Pro两个月。高频发布的三个目的:抢用户心智、防止开源模型一次性吃掉差距、让企业客户觉得”订阅值得续”。
定价的K型分化。前沿越来越贵(GPT-5.5 Pro $30/$180、Gemini 3.1 Pro超200K翻倍),”够用级”越来越便宜(字节豆包Lite 0.6元/百万token、腾讯混元Hy3低至1.2元)。中间档位被挤得很难受。
闭源和开源的路线选择已经清晰。Meta从全开源转闭源,Anthropic用Mythos的”限制发布”建立第三条路,Google坚持Flash开源+Pro闭源的混合策略,国内三大厂走”闭源旗舰+部分尺寸开源”。行业逐渐达成一个隐性共识:开源用来获客,闭源用来盈利。
生态差异化路径。OpenAI押注超级App+Workspace Agents;Anthropic押注Claude桌面+Chrome+Cowork+Office全家桶;Google押注全产品线渗透;xAI押注X+Tesla+XChat的矩阵;Meta押注社交+智能眼镜;国内厂商押注应用内嵌和垂直行业。

06

普通用户的
快乐清单
如果你不是AI从业者,这一个月真正值得高兴的是什么?我按场景列一下:
  • 日常中文写作和总结:豆包、Kimi、文心、通义免费版都够用,在合规和本土生活场景理解上比海外模型更贴近。
  • 英文长文精读和专业翻译:Kimi和Gemini 2.5 Flash的免费额度足以应付;付费推荐Claude Opus 4.7,1M上下文+高清图像识别对PDF非常友好。
  • 做海报和带文字的图:ChatGPT Images 2.0的Thinking模式是本轮最大惊喜,多语言海报文字清晰度是质变级提升,付费订户优先尝试。
  • 写代码:Kimi K2.6开源+API性价比极高,Qwen3.6-Plus每百万输入2元;付费推荐Claude Code配Opus 4.7或GPT-5.5 in Codex。
  • 办公自动化:Claude Pro+Excel/PowerPoint集成已经是目前最成熟的办公组合,值得$20/月的投入。
  • 视频生成:Google Vids每月免费10条Veo 3.1是普通人第一次”零成本做AI视频”的机会。注意OpenAI的Sora将于4月26日关闭Web/App端。
  • 实时语音对话:豆包语音、讯飞星火、Kimi语音的中文体验都很流畅;如果需要英文对话,Grok Voice的首音延迟做到了1秒以内。
免费与付费的红利分层也值得说清楚:免费层够用的新增红利包括Images 2.0 Instant模式、Google Vids的Veo 3.1、国产全家桶的主要功能;$20付费档(Plus/Pro/AI Pro)才能解锁GPT-5.5 Thinking、Opus 4.7、Gemini 3.1 Pro、Images 2.0 Thinking这些旗舰能力;$200以上才进入Cowork全量、Veo 3.1 Ultra额度、Claude in Chrome的范畴。
一句话:大多数普通用户,一个主力国产模型+一个$20海外付费,已经覆盖90%的需求。

07

需要警惕的七件事
好处说完了,说说容易被忽略的坑。
一是订阅堆叠经济学。ChatGPT Plus+Claude Pro+Gemini AI Pro+SuperGrok=约700元/月。如果再叠加Cursor、Perplexity、Midjourney,”AI全家桶”月成本轻松过1000元。坦白讲,大多数人用不完,不如选一个主力深挖。
二是合规与身份风险。Anthropic的Persona身份核验在扩散,OpenAI早已对API开发者要求身份验证,Google和Meta被普遍认为是时间问题。从不支持的地区访问付费服务,退款概率非常低,务必用能过核验的正规身份和支付渠道。
三是数据隐私。Cowork、Workspace Agents这类”云端常驻代理”意味着企业数据更广泛地流入AI厂商。敏感文件、财务数据、医疗信息要明确限定权限,Anthropic承诺身份数据不用于训练,但仍会在Persona、AWS、Stripe、Twilio等多方流转。
四是版本焦虑与工具焦虑。OpenRouter全球AI调用量连续两周下滑——不是AI变差了,而是用户开始意识到”频繁换模型的边际收益正在变小”。研究显示,普通用户在日常任务中对GPT-5.3和GPT-5.5的体感差异并不显著。给自己2-4周让评测和口碑沉淀,不必第一天追新。
五是能力退化风险。Kimi宣称”单次13小时不间断编码”,越来越多AI能帮人做的事出现。但关键判断、原创思考、核心沟通,建议自己先做一遍再交给AI交叉检查。AI越能干,人越容易变懒。
六是幻觉问题在新版仍未根除。Artificial Analysis在Gemini 3.1 Pro上测得对抗性基准AA-Omniscience的幻觉率仍有50%,已从3 Pro的88%大幅下降,但绝对值仍然高。涉及医疗、法律、财务的关键决策,AI输出必须人工复核。
七是AI生成内容的合规。Images 2.0、Nano Banana Pro、Veo 3.1都嵌入了SynthID或类似水印,但社区已多次演示水印可被洗掉。商业用途务必明示AI参与度,并保留原始prompt作为版权证据。涉及真人形象尤其是未成年人形象的生成,审美更宽松的模型目前正面临多国司法调查,千万不要碰。

08

送给朋友们的
三个判断
看完这一个月,我想留下三个相对长期的判断。
第一,闭源模型的”发布”已经变成”渐进部署”。GPT-5.5、Opus 4.7、Gemini 3.1 Pro、Qwen3.6-Max全都采用”Preview→API→App→Enterprise”的渐进路径。未来企业采购的关键,不再是”买哪个模型”,而是”如何设计一个能快速切换模型的工作流”。
第二,代理化才是本轮真正的主题。多模态是过去两年的主题,长时任务、工具调用、Cowork和Workspace Agents才是2026年二季度的主线。企业不再为”问答”付费,而是为”交付成果”付费。Kimi所谓的”13小时连续编码”已经在验证这条路。
第三,”不发布最强模型”和”选择性身份核验”是结构性信号。Anthropic拉开了安全门控的先例,OpenAI和Google可能在半年内以不同形式跟进。这意味着未来的”顶级AI”很可能不是公开可及的——商业化顶层将由少数企业客户独占。这本身会加剧AI不平等,也值得国内AI公司思考差异化的切入口。
如果这篇文章对你有启发,欢迎转发给同样在用AI工具的朋友。
关注”硅基光行人Jevon”,持续追踪全球AI工具的节奏变化和实操影响。
文 / Jevon
独立AI战略顾问 · 国家级产业平台AI专家。深耕AI基础设施与企业级IT十七年,从算力底座到智能体落地,专注将技术判断转化为可执行的商业决策。不做AI布道师,只讲真正有用的事。穿行于硅基世界,寻找碳基的温柔。