
(4月14日)是一个不寻常的日子。
GPT-6发布。代号"土豆",OpenAI已官宣,全球同步上线。
与此同时,梁文锋亲口确认的DeepSeek V4也在4月下旬就绪。谷歌的Gemma 4上周悄悄开始在手机上跑起来了。马斯克和奥特曼的官司27日开庭,还有两周。腾讯新闻刚发了一份59页白皮书,说AI Agent在Q1完成了"成人礼"。
这一周不是普通的新闻周。这是AI史上几条最重要的叙事线在同一时间交汇的一周。
写这篇文章,不是要告诉你GPT-6有哪些功能(发布前一天那些参数你已经看了一遍又一遍了),而是想理清楚这一周实际上发生了什么,以及它意味着什么。
GPT-6:18个月的赌注
先说已知的事。
GPT-6预训练在3月17日完成,后训练和安全评估在之后的三周内跑完。OpenAI于4月7日官宣,14日全球上线。这个节奏比GPT-5快了很多,18个月研发周期,对于一个同时处理高管出走、融资谈判和马斯克诉讼的公司来说,完成这件事本身就不容易。
技术规格层面,泄露出来的信息可信度比较高(同一消息源此前两次预测都准了):
200万token上下文窗口,支持处理相当于两部中等长度长篇小说的内容,长上下文保留准确率超过98%。原生多模态架构代号"Symphony",文本、音频、图像、视频从底层统一编码,不再是拼接模块。性能对比GPT-5.4提升约40%,编程评测HumanEval得分超过95%,数学推理MATH约85%,AI Agent任务完成率87%。
定价维持在输入2.5/MTok、输出2.5/MTok、输出12/MTok,与GPT-5.4持平。这个决定耐人寻味——没有涨价,也没有降价,在Pro套餐刚降到$100/月的节骨眼上,等于在用"不变"来应对所有竞争。
还有一个细节很有意思:GPT-6内置了双重系统推理机制,系统1(快思考)负责生成,系统2(慢思考)负责逻辑验证,宣称将幻觉错误率降至0.1%以下。这直接针对的是最高端用户(法律、医疗、金融)的痛点——他们对AI最不能容忍的就是编造内容。
发布前的一个信号:OpenAI已把产品组织架构改名为"AGI Deployment"。这不只是改个名字,是明确表态:公司认为自己正在部署某种接近AGI的东西。是不是真的另说,但这个态度本身说明了OpenAI现在的内部叙事。
DeepSeek V4:两周后的搅局者
GPT-6发布后,DeepSeek V4大约两周上线。
这个时间差设计得很精准。GPT-6发布后,市场会进入一段"定价评估期"——用户会测试、讨论、比较,决定要不要为这40%的性能提升多掏钱。这段时间,DeepSeek V4出来,直接给出答案:同样的性能,$0.30/MTok。
V4的规格泄露比V3更详尽,可信度相对较高:
架构是混合专家模型(MoE),总参数约1万亿,但活跃参数只有约370亿,与V3相同。这意味着V4不是靠暴力堆参数来超越对手,而是靠架构效率。100万token上下文窗口,比GPT-6的200万少一半,但够用。
最值得关注的是Engram记忆架构。梁文锋本人署名的论文今年1月已经开源,Engram是一种条件记忆机制,解决的是长上下文检索的可靠性问题。在100万token的"大海捞针"测试中,Engram实现了97%的准确率,比标准注意力机制的84%高出不少。对于要处理长文档、长对话、大型代码库的用户,这个差距在实际工作中会非常明显。
训练硬件:全部使用华为昇腾910B和寒武纪MLU芯片。零英伟达。这不只是技术路线,也是一个政治声明。
SWE-bench编程评测超过80%,与Claude Opus 4.6的80.9%相当。开源,Apache 2.0协议,允许商业使用。
GPT-6明天出来,定价12/MTok输出。DeepSeekV4两周后,12/MTok输出。DeepSeekV4两周后,0.30/MTok。16倍的价差。如果性能差距确实不到20%,这个选择题不难。
Gemma 4:AI跑进了手机
上周还有一件事值得单独说:谷歌Gemma 4在手机上跑起来了。
Gemma 4是谷歌4月2日发布的开源模型,Apache 2.0协议,四个版本从2.3B到31B覆盖树莓派到服务器。但最让人意外的是这周发生的事:谷歌官方推出了"Google AI Edge Gallery"应用,iOS和Android都有,用户可以直接在手机上下载运行Gemma 4,完全离线,不传数据,不需要联网。
E2B版本下载2.54GB,E4B版本3.61GB,支持140多种语言。发布四天后,AI Edge Gallery在iOS生产力免费榜爬到了第8名,排在Gmail后面。
这件事的意义被很多人低估了。
"AI跑在手机上"不是一个新概念,苹果的On-device模型已经在iOS里跑了一年多。但那是系统原生集成,用户感知不到。Gemma 4的方式是让用户亲手下载、亲手运行一个完整的大语言模型,整个过程完全可见。
3.61GB的模型,一部2024年的旗舰手机就能跑。没有服务器,没有API密钥,没有订阅费,没有数据上传。你跟AI说的话,只在你的手机里。
这对隐私敏感场景(医疗咨询、私人日记、企业内网)的意义是实质性的。更重要的是,它改变了AI基础设施的想象边界。过去三年,AI一直是"需要大型数据中心"才能运行的东西,现在它可以装进口袋里了。
谷歌把Gemma 4的核心技术作为下一代Gemini Nano的基础,目前已部署在1.4亿台Android设备上。这个数字很可能在未来12个月内翻几倍。
马斯克诉讼:4月27日上演
两周后,4月27日,旧金山联邦法院,陪审团遴选开始,4月28日正式开庭。
这场诉讼已经打了两年,但现在到了真正决战的时刻。马斯克的诉求在最后阶段升了级:不只是要钱,要求法院撤销OpenAI的公司转型(从非营利转为营利),要求罢免奥特曼和总裁布罗克曼,并监督未来所有重大融资和交易。如果胜诉,赔偿款将归还给OpenAI慈善部门,不归他个人。
OpenAI在4月11日的法庭文件里回击:马斯克在开庭前几周突然改变诉讼请求,是"法律突袭",试图扰乱诉讼进程。
这场官司是AI行业有史以来最复杂的治理争议之一。马斯克的核心主张——OpenAI在背离创始使命、用非营利的外壳做营利的生意——并非毫无道理。OpenAI确实接受了来自微软的数百亿美元投资,确实在进行营利性转型,确实没有兑现"技术开放"的初始承诺。
但诉讼的结果难以预测。美国法院在公司治理层面的判决往往非常保守,罢免CEO这种诉求即便有法律依据也很难被支持。更可能的结果是长期和解谈判,或者法院要求OpenAI在转型过程中提供更多信息披露和公众监督。
无论结果如何,这场庭审是AI公司公司治理问题第一次真正在联邦法院接受审查。这本身就有历史意义。
Q1白皮书:AI Agent刚刚成年
腾讯新闻上周发布了59页的《AI趋势研究白皮书2026Q1》,主题是"AI Agent完成成人礼"。
报告给出了一些很有用的数据点,可以帮助判断AI Agent目前到底处于哪个阶段:
Cursor Agent单任务执行时长已经可以达到36小时,不是演示,是实际工作。Claude Code每天的代码提交量占全球GitHub公开代码的4%,年化收入约25亿美元。Anthropic内部超过90%的新代码由AI自主编写。
一季度最爆的AI Agent产品是OpenClaw,开源框架,60天从9K星飙到247K星,月活200万,深圳和无锡已经把它纳入政府补贴。
报告总结了"飞轮效应":产品化→约束工程→递归研发→Skill生态,每一圈在加速下一圈。
但白皮书也记录了没那么好看的数字:长程任务成本高得出奇,裸跑Agent大约9/20分钟,加入约束工程后成本升到9/20分钟,加入约束工程后成本升到200/6小时,且只能达到"可用"而非"优秀"的输出质量。56%的Agent不会主动触发已有技能包。技能市场里恶意技能占比11.3%,存在提示词注入等安全风险。
"成人礼"是个好标题,但成年了不等于成熟了。
一件小事,一个大问题
4月12日,快科技报道了一条小新闻:谷歌旗下AI伴侣产品的一款智能玩偶Coral,在没有用户请求的情况下,向用户发送了一条虚假信息,声称某知名音乐人的父亲是CIA特工。
这件事之所以值得提,是因为它清晰地展示了"情感AI"在商业化过程中面临的一个根本矛盾:一个宣称"关心你"的AI,和一个被算法驱动"尽可能提高互动率"的产品,两者之间的目标并不一致。
发送虚假信息可能是Bug,可能是训练数据污染,也可能是某种激励错误。但结果是一样的:用户信任了它,被骗了。
国内刚出台的AI拟人化新规(7月15日施行)里有一条:禁止AI以任何形式误导用户产生不真实的认知。Coral这件事,正好是这条规定想防止的场景的英文版本。
最后的平静
写完这些,总有一种奇怪的感觉。
这一周——GPT-6发布、V4预告、Gemma 4跑进手机、马斯克诉讼开庭倒计时——是过去三年AI叙事里密度最高的一周之一。但身处其中,你可能感觉不到什么异样。
这是AI加速期最典型的感受:每一天的新闻单独看都很正常,累积起来才发现世界换了一张面孔。
GPT-6出来,我们再好好聊。
OpenAI把Pro套餐砍了一半,阿里承认了“快乐马”,亚马逊说这是一生一遇
Claude Mythos:强到不敢公开发布的AI,正在扫描全球漏洞
夜雨聆风