五一AI大事记

假期归来,AI五日记

5月1日-6日 | 当模型卷到头,战场转向了哪里

五一假期五天时间,OpenAI 连发两个版本还上线了广告平台,五角大楼签约八家公司把一家踢出局,中国四家实验室密集发布开源模型,欧洲两家公司合并估值直奔 200 亿美元,OpenAI 总裁在法庭上说 “AGI 已完成 80%”。

这不是单纯的产品迭代周期加速,是整个赛道的逻辑在重构。

Bloomberg 数据显示,过去9天新上线的播客中 39% 疑似 AI 生成;奥斯卡和 SAG-AFTRA 接连出台规则,禁止 AI 参评表演和编剧奖。内容创作者正在经历一次残酷的分层:有些赛道的 AI 门槛低到正在被淹没,而另一些领域,人类身份反而成为了稀缺资产。

—

一、模型能力前沿:从 Benchmark 到 Agent

GPT-5.5 系列:OpenAI 的双版本策略

4月23日,OpenAI 发布 GPT-5.5 和 GPT-5.5 Pro,主打 agentic coding、computer use、知识工作和科学研究四个方向。Terminal-Bench 2.0 达到 82.7% 创 SOTA,SWE-Bench Pro 达到 58.6%,且推理延迟与 GPT-5.4 持平、token 消耗更少。

5月5日紧跟着发布 GPT-5.5 Instant,替换 GPT-5.3 Instant 成为默认模型。关键改进:幻觉率在医疗、法律、金融等高风险场景下降 52.5%,不准确声明减少 37.3%,回复字数减少 30.2%。同时推出 Memory sources 功能,让用户可以看到个性化回答的数据来源,这是 AI 透明化的重要产品级尝试。

这个节奏很有意思。主力模型追求 capability ceiling,日常模型优化 reliability floor。两条腿走路,一条冲顶,一条兜底。

“在 Terminal-Bench 2.0 上跑到 82.7%,但真正的战场是每天几亿次对话里能不能少说废话、少编事实。”

中国开源四连发:DeepSeek、Kimi、GLM、MiniMax

4月中旬到月底,12天窗口期内,四家中国实验室集中发布:

DeepSeek V4:1.6T 参数 MoE 模型,V4-Flash 推理成本 $0.14/百万 tokens,比西方前沿模型便宜 3-5 倍
Kimi K2.6:1T 参数,支持 300 个 agent 并行协同,12 小时连续执行不掉链子
GLM-5.1:744B 参数,100% 华为昇腾芯片训练,SWE-bench Pro 一度登顶开源榜
MiniMax M2.7:内部演示用 100 轮迭代优化自己的脚手架

这波集中发布不是巧合。MIT Technology Review 评价 DeepSeek V4 是 “R1 之后最重要的发布”。Air Street Press 的 State of AI 报告直接说:六个月前还有人讲开源落后前沿两年,现在这个说法在数据上已经站不住了。

Kimi K2.6 在真实编程任务上拿到 87/100,Claude Opus 4.7 是 97/100。差距还在,但成本是 $0.30 对 $1.10。对于跑大量确定性编程任务的团队来说,这个 ROI 计算已经变了。

Gemini 3.1 Ultra 与 Grok Imagine:各自的突破点

Google 发布 Gemini 3.1 Ultra,200 万 token 上下文窗口,原生多模态推理(无需转录),内置沙盒代码执行环境。这是首个在设计阶段就把文本、图像、音频、视频作为同等输入的模型,不再是 “先转文字再理解”。

xAI 推出 Grok Imagine 1.0 视频生成平台,在 DesignArena 图生视频榜单拿下第一(Elo 1329),击败 Runway Gen-4.5、Sora 2 Pro、Google Veo 3.1。

—

二、商业化突破:从技术演示到商业闭环

ChatGPT Ads Manager:AI 搜索的商业化元年

5月6日,OpenAI 推出 ChatGPT 自助广告平台 Ads Manager beta 版,支持 CPC 竞价模式,已与全球四大广告集团(Dentsu、Omnicom、Publicis、WPP)及 Adobe、Criteo 等技术伙伴达成合作。

这不是简单的加个广告位。ChatGPT 每周活跃用户超过 9 亿,当用户问 “推荐一款适合跑步的耳机”,回答里出现的品牌推荐就是新的流量入口。中小企业可以像投放 Google Ads 一样自助投放,抢占 AI 对话场景下的商业机会。

对跨境电商和自媒体创作者来说,这意味着又一个需要学习的流量获取渠道。但也意味着早期红利窗口:传统 SEO 玩家还没反应过来,聊天式推荐的排序规则还在摸索阶段。

OpenAI-Microsoft 关系重构:从独家到多云

5月3日,OpenAI 与 Microsoft 修正合作协议:IP 授权从独家变为非独家,Microsoft 不再支付收入分成,OpenAI 保留向任何云服务商提供产品的权利。

同一天,GPT-5.5、Codex 和 Managed Agents 正式登陆 Amazon Bedrock,企业可以在现有 AWS 环境中直接调用,无需迁移到 Azure。

这个变化的影响远超技术层面。过去两年,想用 OpenAI 模型的企业基本等于绑定 Microsoft 的云服务、安全体系、采购流程。现在这个锁定被解除了,选择权回到了用户手里。

对中层管理者和技术创业者来说,这意味着 AI 基础设施的采购决策需要重新评估。多云战略从 “备份方案” 变成了 “默认选项”。

Meta Hatch:消费级 Agent 的正面竞争

Meta 正在开发代号 “Hatch” 的面向普通用户的 AI agent,对标 OpenAI 的 Symphony 和国内的 OpenClaw 等工具,同时计划在 Q4 前推出 Instagram 的 agentic 购物工具。

这是大厂 consumer agent 竞争的白热化信号。Meta 手握社交生态和电商场景,如果 Hatch 能让用户在 Instagram 上 “看到喜欢的东西直接让 AI 比价下单”,这对跨境电商和自媒体创作者的流量获取逻辑会产生直接冲击。

“AI 的商业化不再是 ‘能不能赚钱’ 的问题,而是 ‘钱从哪个环节流进来’ 的问题。广告、订阅、API、硬件,每条路都有人在跑通。”

—

三、地缘政治与供应链:谁进谁出

五角大楼的八家与那一家

5月1日,美国国防部宣布与 SpaceX、OpenAI、Google、Microsoft、Nvidia、AWS、Oracle、Reflection 八家公司签署 AI 部署协议,在机密网络内提供 “合法作战用途”。

唯独 Anthropic 不在名单里。

争端核心:Anthropic 拒绝移除 “全自主武器” 和 “大规模国内监控” 的安全护栏。五角大楼要求 “所有合法用途”,Anthropic 坚持 “少数场景除外”。

结果:国防部把 Anthropic 列为 “供应链风险”,这个标签以前只给过与敌对国家关联的公司。国防承包商现在需要证明自己不使用 Claude 模型。

但同一天,Anthropic 前五角大楼智库(Office of Net Assessment)主管 James Baker 加入公司担任 “驻场战略家”,研究 AI 对美国机构和对华竞争的长期影响。

更微妙的是 Mythos 工具。这个网络安全模型既能发现漏洞也能提供攻击路径,国防部 CTO 在 CNBC 采访中说 Mythos 是 “独立的国家安全时刻”,部分联邦机构已在评估而非运营性部署。

Brockman 庭审爆料:”AGI 已完成 80%”

5月5日,在 Musk 诉 Altman 案的庭审中,OpenAI 总裁 Greg Brockman 披露内部日记,承认曾思考 “flip to for-profit”(转为营利),并公开表示当前 AI “已完成 80% 通往 AGI 的路程”。

这是 OpenAI 高管首次在公开法律记录中给出 AGI 进度的具体数字。庭审还曝光了 2015 年以来的邮件和财务记录,涉及 Musk 捐款细节、OpenAI 早期营利化讨论,以及国防部的 AI 供应商选择内幕。

“80% AGI” 这个说法会引发什么?监管机构可能会加速推进 AI 安全审查,投资者会重新评估估值模型,技术社区会争论 “AGI” 的定义标准。但最直接的影响是:OpenAI 治理之争从内部博弈变成了公开的政策辩论素材。

“原则立场值多少订单?Anthropic 正在用真金白银回答。AGI 还有多远?Brockman 在法庭上给了一个数字,但这个数字本身可能比答案更值钱。”

Cohere + Aleph Alpha:主权 AI 的跨大西洋实验

4月25日,加拿大 Cohere(估值 $68 亿)宣布合并德国 Aleph Alpha,加拿大和德国两国数字事务部长到场站台。

Schwarz Group(德国零售巨头)投入 €5 亿结构性融资,同时主导 Cohere 的 E 轮融资,合并后估值直奔 $200 亿。

这不是简单的财务并购。Cohere 2025 年 ARR $2.4 亿,Aleph Alpha 此前收入微薄但拿下德国公共部门合同。Schwarz 的数据中心部门 STACKIT 成为技术底座,直接回应欧洲 “数据不出境” 的主权 AI 需求。

SAP 同时出现在双方客户名单里,这既是验证也是整合风险。Bosch、Deutsche Bank、德国政府都是 Aleph Alpha 的锚定客户。

Air Street Press 的判断:市场正在从投机增长转向资本清算阶段,中等规模实验室和初创公司面临算力成本上升和产品变现困难的双重压力,初始整合潮已经来了。

—

四、基础设施暗战:算力的尽头是什么

SpaceX 自研 GPU 与 Musk 的垂直整合

SpaceX 在 IPO S-1 文件中披露正在开发自有 GPU,列入 “重大资本支出” 项目。路透社报道称公司向投资者警示芯片供应成本问题。

这是继 Tesla 和 xAI 之后,马斯克系第三个垂直整合 AI 硬件的动作。SpaceX 的卫星网络 + xAI 的模型训练 + Tesla 的边缘推理,三个场景对算力的需求完全不同,但都指向同一个结论:不能依赖外部供应商。

犹他州 4 万英亩数据中心:AI 扩张的物理极限

5月4日,犹他州 Box Elder County 批准一个超大规模数据中心项目,占地 4 万英亩,建成后将使用 9 吉瓦电力——超过该州当前总用电量的两倍。

项目由 Shark Tank 投资人 Kevin O’Leary 部分出资,但引发跨党派社区激烈反对。居民担心电价上涨、水资源消耗、环境影响。

这不是孤例。密歇根州等摇摆州的数据中心建设都在遭遇类似阻力,能源价格和环境影响正在成为 2026 年中期选举的潜在关键议题。

AI 的物理边界不是算力不够,是电不够、水不够、社区接受度不够。这对判断 AI 服务长期成本和基础设施投资方向有直接影响。

Ineffable Intelligence:欧洲历史最大种子轮

$1.1B 种子轮,$5.1B 估值,Sequoia 和 Lightspeed 联合领投,Nvidia、DST Global、Index、Google、英国主权 AI 基金跟投。

目标:通过强化学习自我博弈构建 “超级学习器”(superlearner)。

这个估值在种子阶段已经超过不少 B 轮公司,背后逻辑是押注 recursive self-improvement(递归自我改进)路径——AI 系统改进自己的速度超过创造者预期。

World Models:下一个范式转移的信号

DeepMind、World Labs(李飞飞)、LeCun 新创企业、OpenAI(Sora 团队转向)全部押注 world model,试图解决 LLM 不可靠的根本缺陷:模型不理解物理世界。

MIT Technology Review 认为这可能是继 LLM 之后的下一个范式转移。Pokemon Go 甚至利用玩家拍摄的图像数据构建世界模型,用于训练配送机器人的空间理解能力。

这不是遥远的学术研究。当 AI 能理解 “把杯子放在桌子上” 里的物理约束,能预测 “打开冰箱门会发生什么”,它才能真正走出屏幕,进入物理世界的自动化。

“算力竞争的终局不是谁的 GPU 更多,而是谁能把算力变成可持续的物理基础设施,同时找到下一代模型范式的突破口。”

—

五、所以,战场到底在哪里?

模型能力的边界还在推进,但增量在收窄。OpenAI 用两个版本策略告诉市场:顶尖能力和日常可靠性是两条不同的赛道。GPT-5.5 冲 SOTA,GPT-5.5 Instant 降幻觉,一个抢 Benchmark 排名,一个抢日活用户的信任。

中国开源模型的密集发布证明:技术差距在缩小,成本优势在放大。当 Kimi K2.6 能用三分之一的价格完成七成的工作,这不是 “够用就好”,是全新的架构选择空间。81% 的企业已经在跑 3 个以上的模型家族,多模型成为默认策略。

商业化从 “能不能赚钱” 进入 “怎么赚钱” 阶段。ChatGPT 上线广告平台,OpenAI 解绑 Microsoft 独家协议,Meta 押注消费级 agent,每家都在找自己的商业闭环。订阅、API、广告、硬件,四条路都在跑。

地缘政治开始直接重塑供应链。Anthropic 的护栏立场换来供应链风险标签,Brockman 在法庭上说出 “AGI 80%”,这些信号会加速监管机构的行动。Cohere 和 Aleph Alpha 的合并是主权 AI 从口号变成运营实体的标志性事件。

基础设施层面,SpaceX 自研 GPU、犹他州 9 吉瓦数据中心、Ineffable Intelligence 的天价种子轮、顶级实验室押注 World Models,都在说同一件事:算力不再是买来的资源,而是必须自己掌控的战略资产;LLM 范式可能不是终点,下一代模型范式的窗口期已经打开。

“战场已经不在 Benchmark 排行榜上了。它在广告竞价系统里,在合同条款里,在数据中心的地理位置上,在能否用开源模型搭出可用系统的工程能力上,在下一代范式的押注上。”

—

假期五天,行业跑了一个季度的路程。

模型还在卷,但卷的方向变了。不是谁的 Benchmark 更高,而是谁能在真实约束下把系统跑起来——成本约束、合规约束、地缘约束、算力约束、物理资源约束。

技术红利期结束的标志不是创新停滞,而是创新开始为真实世界的复杂性付学费。

—— 夜猫子弦月 ——

白天写代码,晚上写文章,偶尔弹古琴