AI 早报 2026-05-02|五角大楼签约 7 家 AI 巨头|GPT-5.5 收入增速破纪录|Kimi K2.6 追平 GPT-5.5

AI 早报 2026-05-02

概览

要闻

📰 五角大楼与 OpenAI、Google、Nvidia 等 7 家 AI 公司签约，将 AI 部署至保密级军事网络——Anthropic 显著缺席
📰 AISI 评估揭示 GPT-5.5-Cyber 可完成 20 小时级多步攻击模拟，但通用越狱路径仍存在；OpenAI 与 Anthropic 同以受限发布收场

模型发布

🚀 GPT-5.5 上线一周：API 收入增速历史新高，Codex 每周活跃用户超 400 万
🚀 Kimi K2.6 开源：万亿参数 MoE，SWE-Bench Pro 与 GPT-5.5 持平，支持 300 子 agent 并行
DeepSeek《以视觉原语思考》：视觉推理 KV cache 成本降低约 90%，多模态基准超越 Claude Sonnet 4.6

开发生态

Anthropic 双发：Claude Security 公测（Opus 4.7 驱动）+ Code with Claude 大会下周旧金山登场
🛠️ Codex 超级应用：50% 用户已在做非编码工作，90+ 插件 + gpt-image-1.5 同步上线

产品应用

📰 工信部与国家数据局联合启动”模数共振”行动：建设智能体工厂

技术与洞察

Anthropic《Introspection Adapters》：让任意 fine-tuned 模型用自然语言自述习得行为，含隐蔽攻击检测

行业动态

📰 大厂 AI 资本支出合计 $7250 亿：谷歌云同比增长 +63%，Meta 前景不确定拖累股价
📰 中国 AI 独角兽拆除境外架构回归境内：月之暗面和阶跃星辰在列

🎙 本周推荐播客

RL 微调实战手册：GRPO、rubric 设计、环境搭建与 reward hacking 防范
递归推理：700万参数打败千倍大模型的 ARC Prize 新 scaling law
AI 推理云商业化：Baseten 30 倍增速与 inference-as-a-service 竞争格局
Anthropic 融资 450 亿美元背后：算力瓶颈与风险资本回报的双重叙事
GPT-5、Claude、Gemini 如何真正被训练与服务：Reiner Pope 黑板讲座
ChatGPT Workspace Agent 搭建演示：团队最佳实践如何封装为可共享 agent
DeepSeek-V4 百万 token 上下文：成本压缩路径与长文档推理架构拆解
从支付数据看 agent 经济的早期形态：Stripe 处理全球 2% GDP 的视角
Demis Hassabis 谈 AGI 路径、AI for Science 突破与自主科研的下一步
大企业 AI 落地为何落后于硅谷：Box CEO 与 a16z 谈结构性鸿沟

要闻

📰 五角大楼与 OpenAI、Google、Nvidia 等 7 家 AI 公司签约，将 AI 部署至保密级军事网络——Anthropic 显著缺席

美国国防部今天宣布与 OpenAI、Google、Nvidia、Microsoft、AWS、Reflection AI 和 SpaceX 共 7 家公司签署协议，将 AI 能力部署至 IL-6（秘密级）和 IL-7（绝密级）军事网络，目标是构建”AI 优先的作战力量”。Anthropic 因早前就使用条款与五角大楼产生冲突而显著缺席，但 Axios 同日报道白宫正在考虑重新接纳——因 Mythos 的能力已无法忽视。

参与方：OpenAI、Google、Nvidia、Microsoft、AWS、Reflection AI、SpaceX——7 家覆盖算力、模型、云基础设施的 AI 头部公司

部署层级：IL-6 秘密级 + IL-7 绝密级军事网络，是 AI 首次进入此保密等级的正式商业部署

Anthropic 困境：早前因使用条款冲突被列为供应链安全风险；Mythos 能力令政府机构持续私下测试，白宫再接纳的可能性上升

行业影响：AI 大厂与国防部深度绑定开创先例，可能触发欧盟和其他盟国对 AI 军事化部署的监管跟进

https://techcrunch.com/2026/05/01/pentagon-inks-deals-with-nvidia-microsoft-and-aws-to-deploy-ai-on-classified-networks/

📰 AISI 评估揭示 GPT-5.5-Cyber 可完成 20 小时级多步攻击模拟，但通用越狱路径仍存在；OpenAI 与 Anthropic 同以受限发布收场

英国 AISI 评估显示 GPT-5.5-Cyber 可在 10 次尝试中 2 次独立完成估计需人类专家 20 小时的多步攻击模拟（Claude Mythos 为 3/10）；同时发现一种通用越狱方法，可在 6 小时内绕过所有恶意请求拦截。Sam Altman 此前公开批评 Anthropic 限制 Mythos，OpenAI 对 GPT-5.5-Cyber 采取了完全相同的受限发布策略。

AISI 能力评估：GPT-5.5-Cyber 10 次测试中 2 次独立完成 20 小时级多步攻击模拟（Claude Mythos3/10 为对照）

越狱漏洞：同一评估发现通用越狱路径，6 小时内可绕过所有恶意请求拦截——令受限发布的合理性更加复杂

政策矛盾：Sam Altman 曾批评 Anthropic 锁定 Mythos 访问，OpenAI 随后对 GPT-5.5-Cyber 采取完全相同策略，”先发安全方”已成行业默认模板

https://techcrunch.com/2026/04/30/after-dissing-anthropic-for-limiting-mythos-openai-restricts-access-to-cyber-too/

模型发布

🚀 GPT-5.5 上线一周：API 收入增速历史新高，Codex 每周活跃用户超 400 万

OpenAI 公布 GPT-5.5 上线一周运营数据：API 收入增速超过此前任何一次发布，Codex 收入一周内翻倍，每周活跃用户超过 400 万，企业对 agentic coding 工具的强劲需求被列为主因。

收入数据：GPT-5.5 API 收入增速为 OpenAI历史最快；Codex收入 7 天内翻倍

用户规模：Codex 每周活跃用户超 400 万

市场信号：企业对 agentic coding 工具的需求验证了 Codex 向”超级应用”转型的商业逻辑

https://twitter.com/OpenAI/status/2050250926888468929

🚀 Kimi K2.6 开源：万亿参数 MoE，SWE-Bench Pro 与 GPT-5.5 持平，支持 300 子 agent 并行

月之暗面（Moonshot AI）发布并开源 Kimi K2.6，1 万亿参数稀疏 MoE 模型（激活 32B），SWE-Bench Pro 58.6 与 GPT-5.5 持平，支持 256K 上下文、300 子 agent 并行执行，成本约为 GPT-5.5 的 80%，权重以改版 MIT 协议发布。

架构：1T 参数 MoE（384 专家，8 路由 +1 共享），MLA 注意力，256K 上下文

基准表现：SWE-Bench Pro 58.6 与 GPT-5.5持平；HLE with tools 54.0；BrowseComp 83.2

agent 能力：支持 300 子 agent 并行执行，单次运行可完成从文档到网站到电子表格的端到端输出

成本优势：API 成本约为 GPT-5.5 的 80%；改版 MIT 协议开源

https://www.kimi.com/blog/kimi-k2-6

DeepSeek《以视觉原语思考》：视觉推理 KV cache 成本降低约 90%，多模态基准超越 Claude Sonnet 4.6

DeepSeek 发布多模态推理论文，提出在推理链中直接插入空间标记（点位、边界框）作为”视觉原语”，使模型在推理时同步”指向”图像位置，解决视觉-语言模型的”参照缺口”问题。800×800 图片仅需约 90 个 KV cache 条目（vs Claude Sonnet 4.6 约 870，Gemini-3-Flash 约 1100），在多个视觉推理基准上达到或超越商业旗舰。

技术创新：推理链中直接插入空间标记，模型”边思考边指向”图像中的具体位置，解决 Reference Gap

效率突破：800×800 图片约 90 个 KV cache 条目，较 Claude Sonnet 4.6降低约 −90%

性能基准：CharXiv with python 86.7、Math Vision with python 93.2，达到或超越 GPT-5.4、Claude Sonnet 4.6、Gemini-3-Flash

底座架构：V4-Flash（284B 总参数，13B 激活），视觉编码器为自研 DeepSeek-ViT；论文发布后短暂撤库，已有社区镜像流传

https://eu.36kr.com/en/p/3789208597372165

开发生态

Anthropic 双发：Claude Security 公测（Opus 4.7 驱动）+ Code with Claude 大会下周旧金山登场

Anthropic 同日宣布：Claude Security（基于 Opus 4.7 的企业级代码漏洞扫描工具）正式进入公测；Code with Claude 开发者大会 5 月 6 日回归旧金山，新增伦敦（5 月 19 日）和东京（6 月 10 日）站，全程提供直播。

Claude Security：基于 Opus 4.7，支持全代码库漏洞扫描、验证发现、自动生成补丁建议；CrowdStrike、Palo Alto、Wiz、SentinelOne等主流安全厂商已集成

Code with Claude 大会：旧金山 5 月 6 日（主场）+ 伦敦 5 月 19 日 + 东京 6 月 10 日，全站直播

行业定位：企业级 AI 安全工具从辅助升级为核心 DevSecOps 组件

https://claude.com/blog/claude-security-public-beta

🛠️ Codex 超级应用：50% 用户已在做非编码工作，90+ 插件 + gpt-image-1.5 同步上线

OpenAI 公布 Codex 转型为”超级应用”后的使用数据：50% 用户已在处理非编码任务。新功能包括 90+ 插件、Automations 周期任务自动化、内置浏览器（含响应式测试栏）、持久记忆、gpt-image-1.5 图像生成，以及 Figma 计划转化为 FigJam 看板的集成。

用户数据：50% 用户已用 Codex做非编码工作，agentic 使用比例超预期

新功能：90+ 插件 / Automations 周期任务 / 内置浏览器 / 持久记忆 / gpt-image-1.5

Figma 集成：可将实现计划自动转化为可视化 FigJam看板

https://openai.com/index/codex-for-almost-everything/

技术与洞察

Anthropic《Introspection Adapters》：让任意 fine-tuned 模型用自然语言自述习得行为，含隐蔽攻击检测

Anthropic Fellows 发布新研究：训练单个 LoRA adapter，使任意 fine-tuned LLM 能用自然语言自述训练中习得的行为，包括检测通过无害外观数据植入的隐蔽攻击行为。在含 56 个不同行为模型的 AuditBench 上达到 SOTA，且随模型规模和数据多样性提升而改善。

技术方案：从 base model 出发，对大量不同行为的 fine-tuned 版本训练统一 LoRA adapter，推理时”自报”习得行为

安全能力：可检测通过无害外观训练数据植入的隐蔽攻击；研究者可直接用自然语言问模型”你学了什么”

基准表现：AuditBench（56 个不同行为模型）达到 SOTA；随模型规模和训练数据多样性提升而改善

行业意义：让 LLM 行为可内省、可审计，是企业级合规部署的关键安全工具

https://alignment.anthropic.com/2026/introspection-adapters/

行业动态

📰 大厂 AI 资本支出合计 $7250 亿：谷歌云同比增长 +63%，Meta 前景不确定拖累股价

Google、Amazon、Microsoft、Meta 2026 年合计资本支出约 $7250 亿，较去年增长 +77%。谷歌云 Q1 收入同比增长 +63%，净利润增长 +81% 至 $626 亿美元，股价创历史估值新高；Meta 将 capex 上调至 $1250-$1450 亿，但因未给出新 AI 模型明确时间表，盘后下跌 −6%。

各家 capex：Google$1900 亿 / Amazon~$2000 亿 / Microsoft$1900 亿 / Meta$1250-$1450 亿

增速：合计同比 +77%，为 AI 基础设施史上最大单年增量

谷歌表现：Cloud 收入同比 +63%，净利润 +81%（$626 亿），股价创 $4.3 万亿市值历史新高

Meta 困境：capex 上调 +100 亿但无新模型时间表，盘后跌 −6%——市场开始要求见到具体的 AI 回报

https://the-decoder.com/big-techs-ai-spending-balloons-to-725-billion-this-year/

📰 中国 AI 独角兽拆除境外架构回归境内：月之暗面和阶跃星辰在列

中国证监会向”红筹”架构公司发出信号，要求解除境外持股结构。**阶跃星辰（StepFun）**已开始拆架，**月之暗面（Moonshot AI）**正在评估。过程预计 6-12 个月，可能阻碍从外资机构募资，但被视为获得境内 A 股或港股 IPO 资格的前提。

监管背景：中国证监会向境外注册的中国 AI 公司施压，要求回归境内注册；北京叫停 Meta 收购 Manus 后信号进一步明确

已启动：StepFun已开始拆架；Moonshot AI正在评估（同日寻求以 180 亿美元估值融资 10 亿美元）

时间线：拆架过程预计 6-12 个月；境内 A 股或港股 IPO 资格是主要动机

外资影响：国际资本参与中国 AI 独角兽融资路径收窄

https://the-decoder.com/first-chinese-ai-startups-are-reportedly-ditching-offshore-structures-to-register-directly-in-china/

产品应用

📰 工信部与国家数据局联合启动”模数共振”行动：建设智能体工厂

中国工信部和国家数据局联合启动 2026 年”模数共振”行动，依托重点城市建设”智能体工厂”，推动大模型与工业数据深度融合，加速 AI agent 在制造、能源等传统行业落地。

政策层级：工信部 + 国家数据局联合行动，国家级战略推动

核心目标：用 AI agent 整合工业数据资产，打造可规模复制的”智能体工厂”范式

覆盖领域：制造、能源等传统行业为首批落地场景

https://finance.sina.com.cn/wm/2026-04-30/doc-inhwhraf1318636.shtml

🎙 本周推荐播客

RL 微调实战手册：GRPO、rubric 设计、环境搭建与 reward hacking 防范

OpenPipe 创始人 Kyle Corbitt 系统拆解 RL 微调的完整工程实践，涵盖 GRPO 算法原理、rubric 设计方法、训练环境搭建思路与 reward hacking 的识别和防范策略，是目前可找到的最完整 RL fine-tuning 工程指南之一。

频道：Cognitive Revolution｜⏱ 1:48:42

核心主题：RL fine-tuning 的工程 playbook，从 GRPO 到 rubric 设计到 reward hacking 防范

嘉宾视角：Kyle Corbitt是 OpenPipe 创始人，从实际运行了大量微调任务的从业者角度讲

关键观点：RL 不是 supervised fine-tuning 的替代，而是处理”无法穷举正确答案”任务的唯一路径；GRPO 在资源效率上优于 PPO；rubric 设计质量决定了 reward model 的上限

适合听众：在做模型定制、fine-tuning 或 RLHF 相关工作的 ML 工程师和研究员

https://www.youtube.com/watch?v=1X1-IRaYY6U

递归推理：700万参数打败千倍大模型的 ARC Prize 新 scaling law

YC Decoded 系列探讨递归推理作为新 scaling law 的可能性，展示一个 700 万参数模型在 ARC Prize 等任务上超越千倍大模型的案例，并深入讨论 test-time compute 和递归结构对 AI 能力边界的重塑。

频道：Y Combinator｜⏱ 37:53

核心主题：递归推理 vs 参数规模，test-time compute 是否是下一个 scaling law

嘉宾视角：YC 的 Ankit Gupta 与 Francois Chollet（ARC Prize 发起人）参与讨论，从评测设计和能力论角度切入

关键观点：7M 参数模型通过递归结构在 ARC Prize 上超越比它大 1000 倍的模型，表明 test-time compute 的扩展路径可能比参数扩展更有效率

适合听众：对 AI 能力极限和 scaling 路线有判断需求的研究者和工程师

https://www.youtube.com/watch?v=DGtUUMNYLcc

AI 推理云商业化：Baseten 30 倍增速与 inference-as-a-service 竞争格局

Baseten CEO Tuhin Srivastava 与 Sarah Guo 和 Elad Gil 探讨 AI 推理需求的爆发式增长、Baseten 实现 30 倍增长的路径，以及为何推理基础设施正在成为 AI 商业化的战略制高点。

频道：No Priors｜⏱ 42:57

核心主题：AI 推理云的商业逻辑与 inference-as-a-service 的竞争格局

嘉宾视角：Baseten联合创始人 & CEO，从基础设施提供商内部讲

关键观点：inference 需求增速远超训练，自定义模型路线正在让 inference 基础设施成为差异化战场而非商品

适合听众：关注 AI infra 商业化、做模型部署决策的工程师和投资人

https://www.youtube.com/watch?v=XAbKflCncDo

Anthropic 融资 450 亿美元背后：算力瓶颈与风险资本回报的双重叙事

Jason Lemkin 和 Rory O’Driscoll 与 Harry Stebbings 讨论 Anthropic 450 亿美元融资背后仍然存在的算力供给瓶颈，并以 Thoma Bravo 将 Medallia 交还债权人作为反面案例，观察 AI 融资热潮下风险资本的真实回报压力。

频道：20VC with Harry Stebbings｜⏱ 1:28:19

核心主题：AI 融资大潮下算力约束与私募回报的双重叙事

嘉宾视角：SaaS 投资人 Jason Lemkin + 成长期 VC Rory O’Driscoll，从资本回报角度切入

关键观点：Anthropic融了 450 亿但算力仍是瓶颈，说明资本 ≠ 执行能力；Medallia 案例揭示 PE 杠杆 + AI 转型的双重赌注风险

适合听众：关注 AI 行业资本运作、投资逻辑和企业软件市场的人

https://www.youtube.com/watch?v=aXToQKc430c

GPT-5、Claude、Gemini 如何真正被训练与服务：Reiner Pope 黑板讲座

前 Google Brain 研究员 Reiner Pope 以黑板讲座形式，系统讲解 GPT-5、Claude 和 Gemini 的实际训练与推理架构，从数据并行、模型并行到 inference batching 和 serving 优化，强调可从公开信息推导出大量 lab 内部细节。

频道：Dwarkesh Podcast｜⏱ 2:13:40

核心主题：前沿大模型的训练与 serving 全栈，黑板推导形式

嘉宾视角：Reiner Pope曾在 Google Brain 做大规模训练基础设施，同时熟悉训练和 serving 两端

关键观点：各家 lab 训练架构差异比外界以为的小；真正护城河在 data quality 和 post-training pipeline；serving 优化（speculative decoding、batching）是成本竞争的关键

适合听众：想真正理解 LLM 工程全栈的 ML 工程师和研究员

https://www.youtube.com/watch?v=xmkSf5IS-zw

ChatGPT Workspace Agent 搭建演示：团队最佳实践如何封装为可共享 agent

OpenAI 官方 Build Hour 演示如何在 ChatGPT 中构建跨工具的 workspace agent，将团队最佳实践封装为可共享 agent 供协作者直接调用，覆盖从搭建到部署的完整流程。

频道：OpenAI｜⏱ 37:52

核心主题：ChatGPTworkspace agent 的搭建方法和团队协作场景

嘉宾视角：OpenAI 官方工程师演示，产品 demo 导向

关键观点：shared agent 的核心价值是把 prompt 工程成果团队化，让非技术成员也能调用精调过的 agent

适合听众：正在给团队推 AI workflow 的产品经理和工程师

https://www.youtube.com/watch?v=kktBVmjA19A

DeepSeek-V4 百万 token 上下文：成本压缩路径与长文档推理架构拆解

Latent Space 解读 DeepSeek-V4-Pro 技术报告，聚焦其百万 token 上下文窗口的实现路径、训练效率优化手段，以及在长文档理解任务上对现有架构的突破点。

频道：Latent Space｜⏱ 47:08

核心主题：DeepSeek-V4的百万 token 长上下文架构及效率优化

嘉宾视角：Latent Space 主播 + 技术社区的公开解读，工程拆解视角

关键观点：在不牺牲推理质量的前提下大幅压低了长上下文计算成本，关键在 attention 机制改进和 KV cache 压缩

适合听众：关注长上下文模型架构、做 RAG 或长文档分析应用的工程师

https://www.youtube.com/watch?v=TJxziFGc3HA

从支付数据看 agent 经济的早期形态：Stripe 处理全球 2% GDP 的视角

Stripe 数据与 AI 负责人 Emily Glassberg Sands 从处理全球约 2% GDP 的支付数据视角，讲述 AI agent 如何正在改变互联网经济的底层结构，以及哪些品类率先被 agent 接管、哪些仍卡在合规与信任门槛上。

频道：Every｜⏱ 53:54

核心主题：从支付基础设施视角观察 agent economy 的早期形态

嘉宾视角：Stripe数据与 AI 负责人 Emily Glassberg Sands，2% global GDP 的鸟瞰位

关键观点：agent 经济的瓶颈不是技术而是信任和责任归属机制；某些品类率先被 agent 接管，某些仍卡在合规门槛

适合听众：关注 AI 商业落地、agent 经济结构和 fintech-AI 交叉的人

https://www.youtube.com/watch?v=-gOyup6yLBY

Demis Hassabis 谈 AGI 路径、AI for Science 突破与自主科研的下一步

DeepMind 创始人 Demis Hassabis 与 YC 对谈，分享他对 AGI 时间线、AI agent 能力演进和 AI for Science 下一个重大突破方向的判断，并回顾从国际象棋神童到创立 DeepMind 的职业路径。

频道：Y Combinator｜⏱ 40:57

核心主题：Demis Hassabis对 AGI 路径、agent 能力边界和 AI 驱动科学突破的第一手判断

嘉宾视角：DeepMind 创始人、AlphaFold 负责人，从世界顶级 AI 实验室 CEO 的视角讲

关键观点：AI for Science 的下一个突破不是更快的工具，而是 agent 能够自主设计和执行实验；AGI 时间线比公众讨论更短，但”有用”和”安全”可以并行推进

适合听众：关注 AI for Science、医学/生物交叉领域以及 AGI 长期路线图的人

https://www.youtube.com/watch?v=JNyuX1zoOgU

大企业 AI 落地为何落后于硅谷：Box CEO 与 a16z 谈结构性鸿沟

Box CEO Aaron Levie、a16z 的 Martin Casado 和 Steven Sinofsky 讨论大型企业在 AI 落地上落后于硅谷的结构性原因，分析企业 AI 采购决策的摩擦点，以及”看起来在用 AI”和”真正在用 AI”之间的落差。

频道：a16z｜⏱ 58:23

核心主题：企业 AI 落地的结构性鸿沟——硅谷 vs 传统大公司

嘉宾视角：Box CEO + 前微软 Windows 负责人 Steven Sinofsky，两者都有大型组织转型的第一手经验

关键观点：大公司落后的核心原因不是技术，而是决策流程和激励结构；”AI pilot 多 = AI 落地深”是假象

适合听众：在大型机构推 AI 项目、做企业软件产品的人

https://www.youtube.com/watch?v=dvVbA9OcBqs

欢迎关注 苍痕Luca B站账号，同步更新每日 AI 视频资讯。