AI史上竞争最激烈的一周正式开始

（4月14日）是一个不寻常的日子。

GPT-6发布。代号"土豆"，OpenAI已官宣，全球同步上线。

与此同时，梁文锋亲口确认的DeepSeek V4也在4月下旬就绪。谷歌的Gemma 4上周悄悄开始在手机上跑起来了。马斯克和奥特曼的官司27日开庭，还有两周。腾讯新闻刚发了一份59页白皮书，说AI Agent在Q1完成了"成人礼"。

这一周不是普通的新闻周。这是AI史上几条最重要的叙事线在同一时间交汇的一周。

写这篇文章，不是要告诉你GPT-6有哪些功能（发布前一天那些参数你已经看了一遍又一遍了），而是想理清楚这一周实际上发生了什么，以及它意味着什么。

GPT-6：18个月的赌注

先说已知的事。

GPT-6预训练在3月17日完成，后训练和安全评估在之后的三周内跑完。OpenAI于4月7日官宣，14日全球上线。这个节奏比GPT-5快了很多，18个月研发周期，对于一个同时处理高管出走、融资谈判和马斯克诉讼的公司来说，完成这件事本身就不容易。

技术规格层面，泄露出来的信息可信度比较高（同一消息源此前两次预测都准了）：

200万token上下文窗口，支持处理相当于两部中等长度长篇小说的内容，长上下文保留准确率超过98%。原生多模态架构代号"Symphony"，文本、音频、图像、视频从底层统一编码，不再是拼接模块。性能对比GPT-5.4提升约40%，编程评测HumanEval得分超过95%，数学推理MATH约85%，AI Agent任务完成率87%。

定价维持在输入2.5/MTok、输出2.5/MTok、输出12/MTok，与GPT-5.4持平。这个决定耐人寻味——没有涨价，也没有降价，在Pro套餐刚降到$100/月的节骨眼上，等于在用"不变"来应对所有竞争。

还有一个细节很有意思：GPT-6内置了双重系统推理机制，系统1（快思考）负责生成，系统2（慢思考）负责逻辑验证，宣称将幻觉错误率降至0.1%以下。这直接针对的是最高端用户（法律、医疗、金融）的痛点——他们对AI最不能容忍的就是编造内容。

发布前的一个信号：OpenAI已把产品组织架构改名为"AGI Deployment"。这不只是改个名字，是明确表态：公司认为自己正在部署某种接近AGI的东西。是不是真的另说，但这个态度本身说明了OpenAI现在的内部叙事。

DeepSeek V4：两周后的搅局者

GPT-6发布后，DeepSeek V4大约两周上线。

这个时间差设计得很精准。GPT-6发布后，市场会进入一段"定价评估期"——用户会测试、讨论、比较，决定要不要为这40%的性能提升多掏钱。这段时间，DeepSeek V4出来，直接给出答案：同样的性能，$0.30/MTok。

V4的规格泄露比V3更详尽，可信度相对较高：

架构是混合专家模型（MoE），总参数约1万亿，但活跃参数只有约370亿，与V3相同。这意味着V4不是靠暴力堆参数来超越对手，而是靠架构效率。100万token上下文窗口，比GPT-6的200万少一半，但够用。

最值得关注的是Engram记忆架构。梁文锋本人署名的论文今年1月已经开源，Engram是一种条件记忆机制，解决的是长上下文检索的可靠性问题。在100万token的"大海捞针"测试中，Engram实现了97%的准确率，比标准注意力机制的84%高出不少。对于要处理长文档、长对话、大型代码库的用户，这个差距在实际工作中会非常明显。

训练硬件：全部使用华为昇腾910B和寒武纪MLU芯片。零英伟达。这不只是技术路线，也是一个政治声明。

SWE-bench编程评测超过80%，与Claude Opus 4.6的80.9%相当。开源，Apache 2.0协议，允许商业使用。

GPT-6明天出来，定价12/MTok输出。DeepSeekV4两周后，12/MTok输出。DeepSeekV4两周后，0.30/MTok。16倍的价差。如果性能差距确实不到20%，这个选择题不难。

Gemma 4：AI跑进了手机

上周还有一件事值得单独说：谷歌Gemma 4在手机上跑起来了。

Gemma 4是谷歌4月2日发布的开源模型，Apache 2.0协议，四个版本从2.3B到31B覆盖树莓派到服务器。但最让人意外的是这周发生的事：谷歌官方推出了"Google AI Edge Gallery"应用，iOS和Android都有，用户可以直接在手机上下载运行Gemma 4，完全离线，不传数据，不需要联网。

E2B版本下载2.54GB，E4B版本3.61GB，支持140多种语言。发布四天后，AI Edge Gallery在iOS生产力免费榜爬到了第8名，排在Gmail后面。

这件事的意义被很多人低估了。

"AI跑在手机上"不是一个新概念，苹果的On-device模型已经在iOS里跑了一年多。但那是系统原生集成，用户感知不到。Gemma 4的方式是让用户亲手下载、亲手运行一个完整的大语言模型，整个过程完全可见。

3.61GB的模型，一部2024年的旗舰手机就能跑。没有服务器，没有API密钥，没有订阅费，没有数据上传。你跟AI说的话，只在你的手机里。

这对隐私敏感场景（医疗咨询、私人日记、企业内网）的意义是实质性的。更重要的是，它改变了AI基础设施的想象边界。过去三年，AI一直是"需要大型数据中心"才能运行的东西，现在它可以装进口袋里了。

谷歌把Gemma 4的核心技术作为下一代Gemini Nano的基础，目前已部署在1.4亿台Android设备上。这个数字很可能在未来12个月内翻几倍。

马斯克诉讼：4月27日上演

两周后，4月27日，旧金山联邦法院，陪审团遴选开始，4月28日正式开庭。

这场诉讼已经打了两年，但现在到了真正决战的时刻。马斯克的诉求在最后阶段升了级：不只是要钱，要求法院撤销OpenAI的公司转型（从非营利转为营利），要求罢免奥特曼和总裁布罗克曼，并监督未来所有重大融资和交易。如果胜诉，赔偿款将归还给OpenAI慈善部门，不归他个人。

OpenAI在4月11日的法庭文件里回击：马斯克在开庭前几周突然改变诉讼请求，是"法律突袭"，试图扰乱诉讼进程。

这场官司是AI行业有史以来最复杂的治理争议之一。马斯克的核心主张——OpenAI在背离创始使命、用非营利的外壳做营利的生意——并非毫无道理。OpenAI确实接受了来自微软的数百亿美元投资，确实在进行营利性转型，确实没有兑现"技术开放"的初始承诺。

但诉讼的结果难以预测。美国法院在公司治理层面的判决往往非常保守，罢免CEO这种诉求即便有法律依据也很难被支持。更可能的结果是长期和解谈判，或者法院要求OpenAI在转型过程中提供更多信息披露和公众监督。

无论结果如何，这场庭审是AI公司公司治理问题第一次真正在联邦法院接受审查。这本身就有历史意义。

Q1白皮书：AI Agent刚刚成年

腾讯新闻上周发布了59页的《AI趋势研究白皮书2026Q1》，主题是"AI Agent完成成人礼"。

报告给出了一些很有用的数据点，可以帮助判断AI Agent目前到底处于哪个阶段：

Cursor Agent单任务执行时长已经可以达到36小时，不是演示，是实际工作。Claude Code每天的代码提交量占全球GitHub公开代码的4%，年化收入约25亿美元。Anthropic内部超过90%的新代码由AI自主编写。

一季度最爆的AI Agent产品是OpenClaw，开源框架，60天从9K星飙到247K星，月活200万，深圳和无锡已经把它纳入政府补贴。

报告总结了"飞轮效应"：产品化→约束工程→递归研发→Skill生态，每一圈在加速下一圈。

但白皮书也记录了没那么好看的数字：长程任务成本高得出奇，裸跑Agent大约9/20分钟，加入约束工程后成本升到9/20分钟，加入约束工程后成本升到200/6小时，且只能达到"可用"而非"优秀"的输出质量。56%的Agent不会主动触发已有技能包。技能市场里恶意技能占比11.3%，存在提示词注入等安全风险。

"成人礼"是个好标题，但成年了不等于成熟了。