AI 早报 2026-05-02|五角大楼签约 7 家 AI 巨头|GPT-5.5 收入增速破纪录|Kimi K2.6 追平 GPT-5.5
AI 早报 2026-05-02
概览
要闻
-
📰 五角大楼与 OpenAI、Google、Nvidia 等 7 家 AI 公司签约,将 AI 部署至保密级军事网络——Anthropic 显著缺席 -
📰 AISI 评估揭示 GPT-5.5-Cyber 可完成 20 小时级多步攻击模拟,但通用越狱路径仍存在;OpenAI 与 Anthropic 同以受限发布收场
模型发布
-
🚀 GPT-5.5 上线一周:API 收入增速历史新高,Codex 每周活跃用户超 400 万 -
🚀 Kimi K2.6 开源:万亿参数 MoE,SWE-Bench Pro 与 GPT-5.5 持平,支持 300 子 agent 并行 -
DeepSeek《以视觉原语思考》:视觉推理 KV cache 成本降低约 90%,多模态基准超越 Claude Sonnet 4.6
开发生态
-
Anthropic 双发:Claude Security 公测(Opus 4.7 驱动)+ Code with Claude 大会下周旧金山登场 -
🛠️ Codex 超级应用:50% 用户已在做非编码工作,90+ 插件 + gpt-image-1.5 同步上线
产品应用
-
📰 工信部与国家数据局联合启动”模数共振”行动:建设智能体工厂
技术与洞察
-
Anthropic《Introspection Adapters》:让任意 fine-tuned 模型用自然语言自述习得行为,含隐蔽攻击检测
行业动态
-
📰 大厂 AI 资本支出合计 $7250 亿:谷歌云同比增长 +63%,Meta 前景不确定拖累股价 -
📰 中国 AI 独角兽拆除境外架构回归境内:月之暗面和阶跃星辰在列
🎙 本周推荐播客
-
RL 微调实战手册:GRPO、rubric 设计、环境搭建与 reward hacking 防范 -
递归推理:700万参数打败千倍大模型的 ARC Prize 新 scaling law -
AI 推理云商业化:Baseten 30 倍增速与 inference-as-a-service 竞争格局 -
Anthropic 融资 450 亿美元背后:算力瓶颈与风险资本回报的双重叙事 -
GPT-5、Claude、Gemini 如何真正被训练与服务:Reiner Pope 黑板讲座 -
ChatGPT Workspace Agent 搭建演示:团队最佳实践如何封装为可共享 agent -
DeepSeek-V4 百万 token 上下文:成本压缩路径与长文档推理架构拆解 -
从支付数据看 agent 经济的早期形态:Stripe 处理全球 2% GDP 的视角 -
Demis Hassabis 谈 AGI 路径、AI for Science 突破与自主科研的下一步 -
大企业 AI 落地为何落后于硅谷:Box CEO 与 a16z 谈结构性鸿沟
要闻
📰 五角大楼与 OpenAI、Google、Nvidia 等 7 家 AI 公司签约,将 AI 部署至保密级军事网络——Anthropic 显著缺席
美国国防部今天宣布与 OpenAI、Google、Nvidia、Microsoft、AWS、Reflection AI 和 SpaceX 共 7 家公司签署协议,将 AI 能力部署至 IL-6(秘密级)和 IL-7(绝密级)军事网络,目标是构建”AI 优先的作战力量”。Anthropic 因早前就使用条款与五角大楼产生冲突而显著缺席,但 Axios 同日报道白宫正在考虑重新接纳——因 Mythos 的能力已无法忽视。
参与方:OpenAI、Google、Nvidia、Microsoft、AWS、Reflection AI、SpaceX——7 家覆盖算力、模型、云基础设施的 AI 头部公司
部署层级:IL-6 秘密级 + IL-7 绝密级军事网络,是 AI 首次进入此保密等级的正式商业部署
Anthropic 困境:早前因使用条款冲突被列为供应链安全风险;Mythos 能力令政府机构持续私下测试,白宫再接纳的可能性上升
行业影响:AI 大厂与国防部深度绑定开创先例,可能触发欧盟和其他盟国对 AI 军事化部署的监管跟进
https://techcrunch.com/2026/05/01/pentagon-inks-deals-with-nvidia-microsoft-and-aws-to-deploy-ai-on-classified-networks/
📰 AISI 评估揭示 GPT-5.5-Cyber 可完成 20 小时级多步攻击模拟,但通用越狱路径仍存在;OpenAI 与 Anthropic 同以受限发布收场
英国 AISI 评估显示 GPT-5.5-Cyber 可在 10 次尝试中 2 次独立完成估计需人类专家 20 小时的多步攻击模拟(Claude Mythos 为 3/10);同时发现一种通用越狱方法,可在 6 小时内绕过所有恶意请求拦截。Sam Altman 此前公开批评 Anthropic 限制 Mythos,OpenAI 对 GPT-5.5-Cyber 采取了完全相同的受限发布策略。
AISI 能力评估:GPT-5.5-Cyber 10 次测试中 2 次独立完成 20 小时级多步攻击模拟(Claude Mythos3/10 为对照)
越狱漏洞:同一评估发现通用越狱路径,6 小时内可绕过所有恶意请求拦截——令受限发布的合理性更加复杂
政策矛盾:Sam Altman 曾批评 Anthropic 锁定 Mythos 访问,OpenAI 随后对 GPT-5.5-Cyber 采取完全相同策略,”先发安全方”已成行业默认模板
https://techcrunch.com/2026/04/30/after-dissing-anthropic-for-limiting-mythos-openai-restricts-access-to-cyber-too/
模型发布
🚀 GPT-5.5 上线一周:API 收入增速历史新高,Codex 每周活跃用户超 400 万
OpenAI 公布 GPT-5.5 上线一周运营数据:API 收入增速超过此前任何一次发布,Codex 收入一周内翻倍,每周活跃用户超过 400 万,企业对 agentic coding 工具的强劲需求被列为主因。
收入数据:GPT-5.5 API 收入增速为 OpenAI历史最快;Codex收入 7 天内翻倍
用户规模:Codex 每周活跃用户超 400 万
市场信号:企业对 agentic coding 工具的需求验证了 Codex 向”超级应用”转型的商业逻辑
https://twitter.com/OpenAI/status/2050250926888468929
🚀 Kimi K2.6 开源:万亿参数 MoE,SWE-Bench Pro 与 GPT-5.5 持平,支持 300 子 agent 并行
月之暗面(Moonshot AI)发布并开源 Kimi K2.6,1 万亿参数稀疏 MoE 模型(激活 32B),SWE-Bench Pro 58.6 与 GPT-5.5 持平,支持 256K 上下文、300 子 agent 并行执行,成本约为 GPT-5.5 的 80%,权重以改版 MIT 协议发布。
架构:1T 参数 MoE(384 专家,8 路由 +1 共享),MLA 注意力,256K 上下文
基准表现:SWE-Bench Pro 58.6 与 GPT-5.5持平;HLE with tools 54.0;BrowseComp 83.2
agent 能力:支持 300 子 agent 并行执行,单次运行可完成从文档到网站到电子表格的端到端输出
成本优势:API 成本约为 GPT-5.5 的 80%;改版 MIT 协议开源
https://www.kimi.com/blog/kimi-k2-6
DeepSeek《以视觉原语思考》:视觉推理 KV cache 成本降低约 90%,多模态基准超越 Claude Sonnet 4.6
DeepSeek 发布多模态推理论文,提出在推理链中直接插入空间标记(点位、边界框)作为”视觉原语”,使模型在推理时同步”指向”图像位置,解决视觉-语言模型的”参照缺口”问题。800×800 图片仅需约 90 个 KV cache 条目(vs Claude Sonnet 4.6 约 870,Gemini-3-Flash 约 1100),在多个视觉推理基准上达到或超越商业旗舰。
技术创新:推理链中直接插入空间标记,模型”边思考边指向”图像中的具体位置,解决 Reference Gap
效率突破:800×800 图片约 90 个 KV cache 条目,较 Claude Sonnet 4.6降低约 −90%
性能基准:CharXiv with python 86.7、Math Vision with python 93.2,达到或超越 GPT-5.4、Claude Sonnet 4.6、Gemini-3-Flash
底座架构:V4-Flash(284B 总参数,13B 激活),视觉编码器为自研 DeepSeek-ViT;论文发布后短暂撤库,已有社区镜像流传
https://eu.36kr.com/en/p/3789208597372165
开发生态
Anthropic 双发:Claude Security 公测(Opus 4.7 驱动)+ Code with Claude 大会下周旧金山登场
Anthropic 同日宣布:Claude Security(基于 Opus 4.7 的企业级代码漏洞扫描工具)正式进入公测;Code with Claude 开发者大会 5 月 6 日回归旧金山,新增伦敦(5 月 19 日)和东京(6 月 10 日)站,全程提供直播。
Claude Security:基于 Opus 4.7,支持全代码库漏洞扫描、验证发现、自动生成补丁建议;CrowdStrike、Palo Alto、Wiz、SentinelOne等主流安全厂商已集成
Code with Claude 大会:旧金山 5 月 6 日(主场)+ 伦敦 5 月 19 日 + 东京 6 月 10 日,全站直播
行业定位:企业级 AI 安全工具从辅助升级为核心 DevSecOps 组件
https://claude.com/blog/claude-security-public-beta
🛠️ Codex 超级应用:50% 用户已在做非编码工作,90+ 插件 + gpt-image-1.5 同步上线
OpenAI 公布 Codex 转型为”超级应用”后的使用数据:50% 用户已在处理非编码任务。新功能包括 90+ 插件、Automations 周期任务自动化、内置浏览器(含响应式测试栏)、持久记忆、gpt-image-1.5 图像生成,以及 Figma 计划转化为 FigJam 看板的集成。
用户数据:50% 用户已用 Codex做非编码工作,agentic 使用比例超预期
新功能:90+ 插件 / Automations 周期任务 / 内置浏览器 / 持久记忆 / gpt-image-1.5
Figma 集成:可将实现计划自动转化为可视化 FigJam看板
https://openai.com/index/codex-for-almost-everything/
技术与洞察
Anthropic《Introspection Adapters》:让任意 fine-tuned 模型用自然语言自述习得行为,含隐蔽攻击检测
Anthropic Fellows 发布新研究:训练单个 LoRA adapter,使任意 fine-tuned LLM 能用自然语言自述训练中习得的行为,包括检测通过无害外观数据植入的隐蔽攻击行为。在含 56 个不同行为模型的 AuditBench 上达到 SOTA,且随模型规模和数据多样性提升而改善。
技术方案:从 base model 出发,对大量不同行为的 fine-tuned 版本训练统一 LoRA adapter,推理时”自报”习得行为
安全能力:可检测通过无害外观训练数据植入的隐蔽攻击;研究者可直接用自然语言问模型”你学了什么”
基准表现:AuditBench(56 个不同行为模型)达到 SOTA;随模型规模和训练数据多样性提升而改善
行业意义:让 LLM 行为可内省、可审计,是企业级合规部署的关键安全工具
https://alignment.anthropic.com/2026/introspection-adapters/
行业动态
📰 大厂 AI 资本支出合计 $7250 亿:谷歌云同比增长 +63%,Meta 前景不确定拖累股价
Google、Amazon、Microsoft、Meta 2026 年合计资本支出约 $7250 亿,较去年增长 +77%。谷歌云 Q1 收入同比增长 +63%,净利润增长 +81% 至 $626 亿美元,股价创历史估值新高;Meta 将 capex 上调至 $1250-$1450 亿,但因未给出新 AI 模型明确时间表,盘后下跌 −6%。
各家 capex:Google$1900 亿 / Amazon~$2000 亿 / Microsoft$1900 亿 / Meta$1250-$1450 亿
增速:合计同比 +77%,为 AI 基础设施史上最大单年增量
谷歌表现:Cloud 收入同比 +63%,净利润 +81%($626 亿),股价创 $4.3 万亿市值历史新高
Meta 困境:capex 上调 +100 亿但无新模型时间表,盘后跌 −6%——市场开始要求见到具体的 AI 回报
https://the-decoder.com/big-techs-ai-spending-balloons-to-725-billion-this-year/
📰 中国 AI 独角兽拆除境外架构回归境内:月之暗面和阶跃星辰在列
中国证监会向”红筹”架构公司发出信号,要求解除境外持股结构。**阶跃星辰(StepFun)**已开始拆架,**月之暗面(Moonshot AI)**正在评估。过程预计 6-12 个月,可能阻碍从外资机构募资,但被视为获得境内 A 股或港股 IPO 资格的前提。
监管背景:中国证监会向境外注册的中国 AI 公司施压,要求回归境内注册;北京叫停 Meta 收购 Manus 后信号进一步明确
已启动:StepFun已开始拆架;Moonshot AI正在评估(同日寻求以 180 亿美元估值融资 10 亿美元)
时间线:拆架过程预计 6-12 个月;境内 A 股或港股 IPO 资格是主要动机
外资影响:国际资本参与中国 AI 独角兽融资路径收窄
https://the-decoder.com/first-chinese-ai-startups-are-reportedly-ditching-offshore-structures-to-register-directly-in-china/
产品应用
📰 工信部与国家数据局联合启动”模数共振”行动:建设智能体工厂
中国工信部和国家数据局联合启动 2026 年”模数共振”行动,依托重点城市建设”智能体工厂”,推动大模型与工业数据深度融合,加速 AI agent 在制造、能源等传统行业落地。
政策层级:工信部 + 国家数据局联合行动,国家级战略推动
核心目标:用 AI agent 整合工业数据资产,打造可规模复制的”智能体工厂”范式
覆盖领域:制造、能源等传统行业为首批落地场景
https://finance.sina.com.cn/wm/2026-04-30/doc-inhwhraf1318636.shtml
🎙 本周推荐播客
RL 微调实战手册:GRPO、rubric 设计、环境搭建与 reward hacking 防范
OpenPipe 创始人 Kyle Corbitt 系统拆解 RL 微调的完整工程实践,涵盖 GRPO 算法原理、rubric 设计方法、训练环境搭建思路与 reward hacking 的识别和防范策略,是目前可找到的最完整 RL fine-tuning 工程指南之一。
频道:Cognitive Revolution|⏱ 1:48:42
核心主题:RL fine-tuning 的工程 playbook,从 GRPO 到 rubric 设计到 reward hacking 防范
嘉宾视角:Kyle Corbitt是 OpenPipe 创始人,从实际运行了大量微调任务的从业者角度讲
关键观点:RL 不是 supervised fine-tuning 的替代,而是处理”无法穷举正确答案”任务的唯一路径;GRPO 在资源效率上优于 PPO;rubric 设计质量决定了 reward model 的上限
适合听众:在做模型定制、fine-tuning 或 RLHF 相关工作的 ML 工程师和研究员
https://www.youtube.com/watch?v=1X1-IRaYY6U
递归推理:700万参数打败千倍大模型的 ARC Prize 新 scaling law
YC Decoded 系列探讨递归推理作为新 scaling law 的可能性,展示一个 700 万参数模型在 ARC Prize 等任务上超越千倍大模型的案例,并深入讨论 test-time compute 和递归结构对 AI 能力边界的重塑。
频道:Y Combinator|⏱ 37:53
核心主题:递归推理 vs 参数规模,test-time compute 是否是下一个 scaling law
嘉宾视角:YC 的 Ankit Gupta 与 Francois Chollet(ARC Prize 发起人)参与讨论,从评测设计和能力论角度切入
关键观点:7M 参数模型通过递归结构在 ARC Prize 上超越比它大 1000 倍的模型,表明 test-time compute 的扩展路径可能比参数扩展更有效率
适合听众:对 AI 能力极限和 scaling 路线有判断需求的研究者和工程师
https://www.youtube.com/watch?v=DGtUUMNYLcc
AI 推理云商业化:Baseten 30 倍增速与 inference-as-a-service 竞争格局
Baseten CEO Tuhin Srivastava 与 Sarah Guo 和 Elad Gil 探讨 AI 推理需求的爆发式增长、Baseten 实现 30 倍增长的路径,以及为何推理基础设施正在成为 AI 商业化的战略制高点。
频道:No Priors|⏱ 42:57
核心主题:AI 推理云的商业逻辑与 inference-as-a-service 的竞争格局
嘉宾视角:Baseten联合创始人 & CEO,从基础设施提供商内部讲
关键观点:inference 需求增速远超训练,自定义模型路线正在让 inference 基础设施成为差异化战场而非商品
适合听众:关注 AI infra 商业化、做模型部署决策的工程师和投资人
https://www.youtube.com/watch?v=XAbKflCncDo
Anthropic 融资 450 亿美元背后:算力瓶颈与风险资本回报的双重叙事
Jason Lemkin 和 Rory O’Driscoll 与 Harry Stebbings 讨论 Anthropic 450 亿美元融资背后仍然存在的算力供给瓶颈,并以 Thoma Bravo 将 Medallia 交还债权人作为反面案例,观察 AI 融资热潮下风险资本的真实回报压力。
频道:20VC with Harry Stebbings|⏱ 1:28:19
核心主题:AI 融资大潮下算力约束与私募回报的双重叙事
嘉宾视角:SaaS 投资人 Jason Lemkin + 成长期 VC Rory O’Driscoll,从资本回报角度切入
关键观点:Anthropic融了 450 亿但算力仍是瓶颈,说明资本 ≠ 执行能力;Medallia 案例揭示 PE 杠杆 + AI 转型的双重赌注风险
适合听众:关注 AI 行业资本运作、投资逻辑和企业软件市场的人
https://www.youtube.com/watch?v=aXToQKc430c
GPT-5、Claude、Gemini 如何真正被训练与服务:Reiner Pope 黑板讲座
前 Google Brain 研究员 Reiner Pope 以黑板讲座形式,系统讲解 GPT-5、Claude 和 Gemini 的实际训练与推理架构,从数据并行、模型并行到 inference batching 和 serving 优化,强调可从公开信息推导出大量 lab 内部细节。
频道:Dwarkesh Podcast|⏱ 2:13:40
核心主题:前沿大模型的训练与 serving 全栈,黑板推导形式
嘉宾视角:Reiner Pope曾在 Google Brain 做大规模训练基础设施,同时熟悉训练和 serving 两端
关键观点:各家 lab 训练架构差异比外界以为的小;真正护城河在 data quality 和 post-training pipeline;serving 优化(speculative decoding、batching)是成本竞争的关键
适合听众:想真正理解 LLM 工程全栈的 ML 工程师和研究员
https://www.youtube.com/watch?v=xmkSf5IS-zw
ChatGPT Workspace Agent 搭建演示:团队最佳实践如何封装为可共享 agent
OpenAI 官方 Build Hour 演示如何在 ChatGPT 中构建跨工具的 workspace agent,将团队最佳实践封装为可共享 agent 供协作者直接调用,覆盖从搭建到部署的完整流程。
频道:OpenAI|⏱ 37:52
核心主题:ChatGPTworkspace agent 的搭建方法和团队协作场景
嘉宾视角:OpenAI 官方工程师演示,产品 demo 导向
关键观点:shared agent 的核心价值是把 prompt 工程成果团队化,让非技术成员也能调用精调过的 agent
适合听众:正在给团队推 AI workflow 的产品经理和工程师
https://www.youtube.com/watch?v=kktBVmjA19A
DeepSeek-V4 百万 token 上下文:成本压缩路径与长文档推理架构拆解
Latent Space 解读 DeepSeek-V4-Pro 技术报告,聚焦其百万 token 上下文窗口的实现路径、训练效率优化手段,以及在长文档理解任务上对现有架构的突破点。
频道:Latent Space|⏱ 47:08
核心主题:DeepSeek-V4的百万 token 长上下文架构及效率优化
嘉宾视角:Latent Space 主播 + 技术社区的公开解读,工程拆解视角
关键观点:在不牺牲推理质量的前提下大幅压低了长上下文计算成本,关键在 attention 机制改进和 KV cache 压缩
适合听众:关注长上下文模型架构、做 RAG 或长文档分析应用的工程师
https://www.youtube.com/watch?v=TJxziFGc3HA
从支付数据看 agent 经济的早期形态:Stripe 处理全球 2% GDP 的视角
Stripe 数据与 AI 负责人 Emily Glassberg Sands 从处理全球约 2% GDP 的支付数据视角,讲述 AI agent 如何正在改变互联网经济的底层结构,以及哪些品类率先被 agent 接管、哪些仍卡在合规与信任门槛上。
频道:Every|⏱ 53:54
核心主题:从支付基础设施视角观察 agent economy 的早期形态
嘉宾视角:Stripe数据与 AI 负责人 Emily Glassberg Sands,2% global GDP 的鸟瞰位
关键观点:agent 经济的瓶颈不是技术而是信任和责任归属机制;某些品类率先被 agent 接管,某些仍卡在合规门槛
适合听众:关注 AI 商业落地、agent 经济结构和 fintech-AI 交叉的人
https://www.youtube.com/watch?v=-gOyup6yLBY
Demis Hassabis 谈 AGI 路径、AI for Science 突破与自主科研的下一步
DeepMind 创始人 Demis Hassabis 与 YC 对谈,分享他对 AGI 时间线、AI agent 能力演进和 AI for Science 下一个重大突破方向的判断,并回顾从国际象棋神童到创立 DeepMind 的职业路径。
频道:Y Combinator|⏱ 40:57
核心主题:Demis Hassabis对 AGI 路径、agent 能力边界和 AI 驱动科学突破的第一手判断
嘉宾视角:DeepMind 创始人、AlphaFold 负责人,从世界顶级 AI 实验室 CEO 的视角讲
关键观点:AI for Science 的下一个突破不是更快的工具,而是 agent 能够自主设计和执行实验;AGI 时间线比公众讨论更短,但”有用”和”安全”可以并行推进
适合听众:关注 AI for Science、医学/生物交叉领域以及 AGI 长期路线图的人
https://www.youtube.com/watch?v=JNyuX1zoOgU
大企业 AI 落地为何落后于硅谷:Box CEO 与 a16z 谈结构性鸿沟
Box CEO Aaron Levie、a16z 的 Martin Casado 和 Steven Sinofsky 讨论大型企业在 AI 落地上落后于硅谷的结构性原因,分析企业 AI 采购决策的摩擦点,以及”看起来在用 AI”和”真正在用 AI”之间的落差。
频道:a16z|⏱ 58:23
核心主题:企业 AI 落地的结构性鸿沟——硅谷 vs 传统大公司
嘉宾视角:Box CEO + 前微软 Windows 负责人 Steven Sinofsky,两者都有大型组织转型的第一手经验
关键观点:大公司落后的核心原因不是技术,而是决策流程和激励结构;”AI pilot 多 = AI 落地深”是假象
适合听众:在大型机构推 AI 项目、做企业软件产品的人
https://www.youtube.com/watch?v=dvVbA9OcBqs
欢迎关注 苍痕Luca B站账号,同步更新每日 AI 视频资讯。
夜雨聆风