乐于分享
好东西不私藏

AI 早报 2026-05-02|五角大楼签约 7 家 AI 巨头|GPT-5.5 收入增速破纪录|Kimi K2.6 追平 GPT-5.5

AI 早报 2026-05-02|五角大楼签约 7 家 AI 巨头|GPT-5.5 收入增速破纪录|Kimi K2.6 追平 GPT-5.5

AI 早报 2026-05-02

概览

要闻

  • 📰 五角大楼与 OpenAI、Google、Nvidia 等 7 家 AI 公司签约,将 AI 部署至保密级军事网络——Anthropic 显著缺席
  • 📰 AISI 评估揭示 GPT-5.5-Cyber 可完成 20 小时级多步攻击模拟,但通用越狱路径仍存在;OpenAI 与 Anthropic 同以受限发布收场

模型发布

  • 🚀 GPT-5.5 上线一周:API 收入增速历史新高,Codex 每周活跃用户超 400 万
  • 🚀 Kimi K2.6 开源:万亿参数 MoE,SWE-Bench Pro 与 GPT-5.5 持平,支持 300 子 agent 并行
  • DeepSeek《以视觉原语思考》:视觉推理 KV cache 成本降低约 90%,多模态基准超越 Claude Sonnet 4.6

开发生态

  • Anthropic 双发:Claude Security 公测(Opus 4.7 驱动)+ Code with Claude 大会下周旧金山登场
  • 🛠️ Codex 超级应用:50% 用户已在做非编码工作,90+ 插件 + gpt-image-1.5 同步上线

产品应用

  • 📰 工信部与国家数据局联合启动”模数共振”行动:建设智能体工厂

技术与洞察

  • Anthropic《Introspection Adapters》:让任意 fine-tuned 模型用自然语言自述习得行为,含隐蔽攻击检测

行业动态

  • 📰 大厂 AI 资本支出合计 $7250 亿:谷歌云同比增长 +63%,Meta 前景不确定拖累股价
  • 📰 中国 AI 独角兽拆除境外架构回归境内:月之暗面和阶跃星辰在列

🎙 本周推荐播客

  • RL 微调实战手册:GRPO、rubric 设计、环境搭建与 reward hacking 防范
  • 递归推理:700万参数打败千倍大模型的 ARC Prize 新 scaling law
  • AI 推理云商业化:Baseten 30 倍增速与 inference-as-a-service 竞争格局
  • Anthropic 融资 450 亿美元背后:算力瓶颈与风险资本回报的双重叙事
  • GPT-5、Claude、Gemini 如何真正被训练与服务:Reiner Pope 黑板讲座
  • ChatGPT Workspace Agent 搭建演示:团队最佳实践如何封装为可共享 agent
  • DeepSeek-V4 百万 token 上下文:成本压缩路径与长文档推理架构拆解
  • 从支付数据看 agent 经济的早期形态:Stripe 处理全球 2% GDP 的视角
  • Demis Hassabis 谈 AGI 路径、AI for Science 突破与自主科研的下一步
  • 大企业 AI 落地为何落后于硅谷:Box CEO 与 a16z 谈结构性鸿沟

要闻

📰 五角大楼与 OpenAI、Google、Nvidia 等 7 家 AI 公司签约,将 AI 部署至保密级军事网络——Anthropic 显著缺席

美国国防部今天宣布与 OpenAI、Google、Nvidia、Microsoft、AWS、Reflection AI 和 SpaceX 共 7 家公司签署协议,将 AI 能力部署至 IL-6(秘密级)和 IL-7(绝密级)军事网络,目标是构建”AI 优先的作战力量”。Anthropic 因早前就使用条款与五角大楼产生冲突而显著缺席,但 Axios 同日报道白宫正在考虑重新接纳——因 Mythos 的能力已无法忽视。

参与方OpenAIGoogleNvidiaMicrosoftAWS、Reflection AI、SpaceX——7 家覆盖算力、模型、云基础设施的 AI 头部公司

部署层级:IL-6 秘密级 + IL-7 绝密级军事网络,是 AI 首次进入此保密等级的正式商业部署

Anthropic 困境:早前因使用条款冲突被列为供应链安全风险;Mythos 能力令政府机构持续私下测试,白宫再接纳的可能性上升

行业影响:AI 大厂与国防部深度绑定开创先例,可能触发欧盟和其他盟国对 AI 军事化部署的监管跟进

https://techcrunch.com/2026/05/01/pentagon-inks-deals-with-nvidia-microsoft-and-aws-to-deploy-ai-on-classified-networks/


📰 AISI 评估揭示 GPT-5.5-Cyber 可完成 20 小时级多步攻击模拟,但通用越狱路径仍存在;OpenAI 与 Anthropic 同以受限发布收场

英国 AISI 评估显示 GPT-5.5-Cyber 可在 10 次尝试中 2 次独立完成估计需人类专家 20 小时的多步攻击模拟(Claude Mythos 为 3/10);同时发现一种通用越狱方法,可在 6 小时内绕过所有恶意请求拦截。Sam Altman 此前公开批评 Anthropic 限制 Mythos,OpenAI 对 GPT-5.5-Cyber 采取了完全相同的受限发布策略。

AISI 能力评估:GPT-5.5-Cyber 10 次测试中 2 次独立完成 20 小时级多步攻击模拟(Claude Mythos3/10 为对照)

越狱漏洞:同一评估发现通用越狱路径,6 小时内可绕过所有恶意请求拦截——令受限发布的合理性更加复杂

政策矛盾:Sam Altman 曾批评 Anthropic 锁定 Mythos 访问,OpenAI 随后对 GPT-5.5-Cyber 采取完全相同策略,”先发安全方”已成行业默认模板

https://techcrunch.com/2026/04/30/after-dissing-anthropic-for-limiting-mythos-openai-restricts-access-to-cyber-too/


模型发布

🚀 GPT-5.5 上线一周:API 收入增速历史新高,Codex 每周活跃用户超 400 万

OpenAI 公布 GPT-5.5 上线一周运营数据:API 收入增速超过此前任何一次发布,Codex 收入一周内翻倍,每周活跃用户超过 400 万,企业对 agentic coding 工具的强劲需求被列为主因。

收入数据:GPT-5.5 API 收入增速为 OpenAI历史最快;Codex收入 7 天内翻倍

用户规模:Codex 每周活跃用户超 400 万

市场信号:企业对 agentic coding 工具的需求验证了 Codex 向”超级应用”转型的商业逻辑

https://twitter.com/OpenAI/status/2050250926888468929


🚀 Kimi K2.6 开源:万亿参数 MoE,SWE-Bench Pro 与 GPT-5.5 持平,支持 300 子 agent 并行

月之暗面(Moonshot AI)发布并开源 Kimi K2.6,1 万亿参数稀疏 MoE 模型(激活 32B),SWE-Bench Pro 58.6 与 GPT-5.5 持平,支持 256K 上下文、300 子 agent 并行执行,成本约为 GPT-5.5 的 80%,权重以改版 MIT 协议发布。

架构:1T 参数 MoE(384 专家,8 路由 +1 共享),MLA 注意力,256K 上下文

基准表现:SWE-Bench Pro 58.6 与 GPT-5.5持平;HLE with tools 54.0;BrowseComp 83.2

agent 能力:支持 300 子 agent 并行执行,单次运行可完成从文档到网站到电子表格的端到端输出

成本优势:API 成本约为 GPT-5.5 的 80%;改版 MIT 协议开源

https://www.kimi.com/blog/kimi-k2-6


DeepSeek《以视觉原语思考》:视觉推理 KV cache 成本降低约 90%,多模态基准超越 Claude Sonnet 4.6

DeepSeek 发布多模态推理论文,提出在推理链中直接插入空间标记(点位、边界框)作为”视觉原语”,使模型在推理时同步”指向”图像位置,解决视觉-语言模型的”参照缺口”问题。800×800 图片仅需约 90 个 KV cache 条目(vs Claude Sonnet 4.6 约 870,Gemini-3-Flash 约 1100),在多个视觉推理基准上达到或超越商业旗舰。

技术创新:推理链中直接插入空间标记,模型”边思考边指向”图像中的具体位置,解决 Reference Gap

效率突破:800×800 图片约 90 个 KV cache 条目,较 Claude Sonnet 4.6降低约 −90%

性能基准:CharXiv with python 86.7、Math Vision with python 93.2,达到或超越 GPT-5.4、Claude Sonnet 4.6、Gemini-3-Flash

底座架构:V4-Flash(284B 总参数,13B 激活),视觉编码器为自研 DeepSeek-ViT;论文发布后短暂撤库,已有社区镜像流传

https://eu.36kr.com/en/p/3789208597372165


开发生态

Anthropic 双发:Claude Security 公测(Opus 4.7 驱动)+ Code with Claude 大会下周旧金山登场

Anthropic 同日宣布:Claude Security(基于 Opus 4.7 的企业级代码漏洞扫描工具)正式进入公测;Code with Claude 开发者大会 5 月 6 日回归旧金山,新增伦敦(5 月 19 日)和东京(6 月 10 日)站,全程提供直播。

Claude Security:基于 Opus 4.7,支持全代码库漏洞扫描、验证发现、自动生成补丁建议;CrowdStrikePalo AltoWizSentinelOne等主流安全厂商已集成

Code with Claude 大会:旧金山 5 月 6 日(主场)+ 伦敦 5 月 19 日 + 东京 6 月 10 日,全站直播

行业定位:企业级 AI 安全工具从辅助升级为核心 DevSecOps 组件

https://claude.com/blog/claude-security-public-beta


🛠️ Codex 超级应用:50% 用户已在做非编码工作,90+ 插件 + gpt-image-1.5 同步上线

OpenAI 公布 Codex 转型为”超级应用”后的使用数据:50% 用户已在处理非编码任务。新功能包括 90+ 插件、Automations 周期任务自动化、内置浏览器(含响应式测试栏)、持久记忆、gpt-image-1.5 图像生成,以及 Figma 计划转化为 FigJam 看板的集成。

用户数据:50% 用户已用 Codex做非编码工作,agentic 使用比例超预期

新功能:90+ 插件 / Automations 周期任务 / 内置浏览器 / 持久记忆 / gpt-image-1.5

Figma 集成:可将实现计划自动转化为可视化 FigJam看板

https://openai.com/index/codex-for-almost-everything/


技术与洞察

Anthropic《Introspection Adapters》:让任意 fine-tuned 模型用自然语言自述习得行为,含隐蔽攻击检测

Anthropic Fellows 发布新研究:训练单个 LoRA adapter,使任意 fine-tuned LLM 能用自然语言自述训练中习得的行为,包括检测通过无害外观数据植入的隐蔽攻击行为。在含 56 个不同行为模型的 AuditBench 上达到 SOTA,且随模型规模和数据多样性提升而改善。

技术方案:从 base model 出发,对大量不同行为的 fine-tuned 版本训练统一 LoRA adapter,推理时”自报”习得行为

安全能力:可检测通过无害外观训练数据植入的隐蔽攻击;研究者可直接用自然语言问模型”你学了什么”

基准表现:AuditBench(56 个不同行为模型)达到 SOTA;随模型规模和训练数据多样性提升而改善

行业意义:让 LLM 行为可内省、可审计,是企业级合规部署的关键安全工具

https://alignment.anthropic.com/2026/introspection-adapters/


行业动态

📰 大厂 AI 资本支出合计 $7250 亿:谷歌云同比增长 +63%,Meta 前景不确定拖累股价

Google、Amazon、Microsoft、Meta 2026 年合计资本支出约 $7250 亿,较去年增长 +77%。谷歌云 Q1 收入同比增长 +63%,净利润增长 +81% 至 $626 亿美元,股价创历史估值新高;Meta 将 capex 上调至 $1250-$1450 亿,但因未给出新 AI 模型明确时间表,盘后下跌 −6%。

各家 capexGoogle$1900 亿 / Amazon~$2000 亿 / Microsoft$1900 亿 / Meta$1250-$1450 亿

增速:合计同比 +77%,为 AI 基础设施史上最大单年增量

谷歌表现:Cloud 收入同比 +63%,净利润 +81%($626 亿),股价创 $4.3 万亿市值历史新高

Meta 困境:capex 上调 +100 亿但无新模型时间表,盘后跌 −6%——市场开始要求见到具体的 AI 回报

https://the-decoder.com/big-techs-ai-spending-balloons-to-725-billion-this-year/


📰 中国 AI 独角兽拆除境外架构回归境内:月之暗面和阶跃星辰在列

中国证监会向”红筹”架构公司发出信号,要求解除境外持股结构。**阶跃星辰(StepFun)**已开始拆架,**月之暗面(Moonshot AI)**正在评估。过程预计 6-12 个月,可能阻碍从外资机构募资,但被视为获得境内 A 股或港股 IPO 资格的前提。

监管背景:中国证监会向境外注册的中国 AI 公司施压,要求回归境内注册;北京叫停 Meta 收购 Manus 后信号进一步明确

已启动StepFun已开始拆架;Moonshot AI正在评估(同日寻求以 180 亿美元估值融资 10 亿美元)

时间线:拆架过程预计 6-12 个月;境内 A 股或港股 IPO 资格是主要动机

外资影响:国际资本参与中国 AI 独角兽融资路径收窄

https://the-decoder.com/first-chinese-ai-startups-are-reportedly-ditching-offshore-structures-to-register-directly-in-china/


产品应用

📰 工信部与国家数据局联合启动”模数共振”行动:建设智能体工厂

中国工信部和国家数据局联合启动 2026 年”模数共振”行动,依托重点城市建设”智能体工厂”,推动大模型与工业数据深度融合,加速 AI agent 在制造、能源等传统行业落地。

政策层级:工信部 + 国家数据局联合行动,国家级战略推动

核心目标:用 AI agent 整合工业数据资产,打造可规模复制的”智能体工厂”范式

覆盖领域:制造、能源等传统行业为首批落地场景

https://finance.sina.com.cn/wm/2026-04-30/doc-inhwhraf1318636.shtml


🎙 本周推荐播客

RL 微调实战手册:GRPO、rubric 设计、环境搭建与 reward hacking 防范

OpenPipe 创始人 Kyle Corbitt 系统拆解 RL 微调的完整工程实践,涵盖 GRPO 算法原理、rubric 设计方法、训练环境搭建思路与 reward hacking 的识别和防范策略,是目前可找到的最完整 RL fine-tuning 工程指南之一。

频道:Cognitive Revolution|⏱ 1:48:42

核心主题:RL fine-tuning 的工程 playbook,从 GRPO 到 rubric 设计到 reward hacking 防范

嘉宾视角Kyle Corbitt是 OpenPipe 创始人,从实际运行了大量微调任务的从业者角度讲

关键观点:RL 不是 supervised fine-tuning 的替代,而是处理”无法穷举正确答案”任务的唯一路径;GRPO 在资源效率上优于 PPO;rubric 设计质量决定了 reward model 的上限

适合听众:在做模型定制、fine-tuning 或 RLHF 相关工作的 ML 工程师和研究员

https://www.youtube.com/watch?v=1X1-IRaYY6U


递归推理:700万参数打败千倍大模型的 ARC Prize 新 scaling law

YC Decoded 系列探讨递归推理作为新 scaling law 的可能性,展示一个 700 万参数模型在 ARC Prize 等任务上超越千倍大模型的案例,并深入讨论 test-time compute 和递归结构对 AI 能力边界的重塑。

频道:Y Combinator|⏱ 37:53

核心主题:递归推理 vs 参数规模,test-time compute 是否是下一个 scaling law

嘉宾视角:YC 的 Ankit Gupta 与 Francois Chollet(ARC Prize 发起人)参与讨论,从评测设计和能力论角度切入

关键观点:7M 参数模型通过递归结构在 ARC Prize 上超越比它大 1000 倍的模型,表明 test-time compute 的扩展路径可能比参数扩展更有效率

适合听众:对 AI 能力极限和 scaling 路线有判断需求的研究者和工程师

https://www.youtube.com/watch?v=DGtUUMNYLcc


AI 推理云商业化:Baseten 30 倍增速与 inference-as-a-service 竞争格局

Baseten CEO Tuhin Srivastava 与 Sarah Guo 和 Elad Gil 探讨 AI 推理需求的爆发式增长、Baseten 实现 30 倍增长的路径,以及为何推理基础设施正在成为 AI 商业化的战略制高点。

频道:No Priors|⏱ 42:57

核心主题:AI 推理云的商业逻辑与 inference-as-a-service 的竞争格局

嘉宾视角Baseten联合创始人 & CEO,从基础设施提供商内部讲

关键观点:inference 需求增速远超训练,自定义模型路线正在让 inference 基础设施成为差异化战场而非商品

适合听众:关注 AI infra 商业化、做模型部署决策的工程师和投资人

https://www.youtube.com/watch?v=XAbKflCncDo


Anthropic 融资 450 亿美元背后:算力瓶颈与风险资本回报的双重叙事

Jason Lemkin 和 Rory O’Driscoll 与 Harry Stebbings 讨论 Anthropic 450 亿美元融资背后仍然存在的算力供给瓶颈,并以 Thoma Bravo 将 Medallia 交还债权人作为反面案例,观察 AI 融资热潮下风险资本的真实回报压力。

频道:20VC with Harry Stebbings|⏱ 1:28:19

核心主题:AI 融资大潮下算力约束与私募回报的双重叙事

嘉宾视角:SaaS 投资人 Jason Lemkin + 成长期 VC Rory O’Driscoll,从资本回报角度切入

关键观点Anthropic融了 450 亿但算力仍是瓶颈,说明资本 ≠ 执行能力;Medallia 案例揭示 PE 杠杆 + AI 转型的双重赌注风险

适合听众:关注 AI 行业资本运作、投资逻辑和企业软件市场的人

https://www.youtube.com/watch?v=aXToQKc430c


GPT-5、Claude、Gemini 如何真正被训练与服务:Reiner Pope 黑板讲座

前 Google Brain 研究员 Reiner Pope 以黑板讲座形式,系统讲解 GPT-5、Claude 和 Gemini 的实际训练与推理架构,从数据并行、模型并行到 inference batching 和 serving 优化,强调可从公开信息推导出大量 lab 内部细节。

频道:Dwarkesh Podcast|⏱ 2:13:40

核心主题:前沿大模型的训练与 serving 全栈,黑板推导形式

嘉宾视角Reiner Pope曾在 Google Brain 做大规模训练基础设施,同时熟悉训练和 serving 两端

关键观点:各家 lab 训练架构差异比外界以为的小;真正护城河在 data quality 和 post-training pipeline;serving 优化(speculative decoding、batching)是成本竞争的关键

适合听众:想真正理解 LLM 工程全栈的 ML 工程师和研究员

https://www.youtube.com/watch?v=xmkSf5IS-zw


ChatGPT Workspace Agent 搭建演示:团队最佳实践如何封装为可共享 agent

OpenAI 官方 Build Hour 演示如何在 ChatGPT 中构建跨工具的 workspace agent,将团队最佳实践封装为可共享 agent 供协作者直接调用,覆盖从搭建到部署的完整流程。

频道:OpenAI|⏱ 37:52

核心主题ChatGPTworkspace agent 的搭建方法和团队协作场景

嘉宾视角:OpenAI 官方工程师演示,产品 demo 导向

关键观点:shared agent 的核心价值是把 prompt 工程成果团队化,让非技术成员也能调用精调过的 agent

适合听众:正在给团队推 AI workflow 的产品经理和工程师

https://www.youtube.com/watch?v=kktBVmjA19A


DeepSeek-V4 百万 token 上下文:成本压缩路径与长文档推理架构拆解

Latent Space 解读 DeepSeek-V4-Pro 技术报告,聚焦其百万 token 上下文窗口的实现路径、训练效率优化手段,以及在长文档理解任务上对现有架构的突破点。

频道:Latent Space|⏱ 47:08

核心主题DeepSeek-V4的百万 token 长上下文架构及效率优化

嘉宾视角:Latent Space 主播 + 技术社区的公开解读,工程拆解视角

关键观点:在不牺牲推理质量的前提下大幅压低了长上下文计算成本,关键在 attention 机制改进和 KV cache 压缩

适合听众:关注长上下文模型架构、做 RAG 或长文档分析应用的工程师

https://www.youtube.com/watch?v=TJxziFGc3HA


从支付数据看 agent 经济的早期形态:Stripe 处理全球 2% GDP 的视角

Stripe 数据与 AI 负责人 Emily Glassberg Sands 从处理全球约 2% GDP 的支付数据视角,讲述 AI agent 如何正在改变互联网经济的底层结构,以及哪些品类率先被 agent 接管、哪些仍卡在合规与信任门槛上。

频道:Every|⏱ 53:54

核心主题:从支付基础设施视角观察 agent economy 的早期形态

嘉宾视角Stripe数据与 AI 负责人 Emily Glassberg Sands,2% global GDP 的鸟瞰位

关键观点:agent 经济的瓶颈不是技术而是信任和责任归属机制;某些品类率先被 agent 接管,某些仍卡在合规门槛

适合听众:关注 AI 商业落地、agent 经济结构和 fintech-AI 交叉的人

https://www.youtube.com/watch?v=-gOyup6yLBY


Demis Hassabis 谈 AGI 路径、AI for Science 突破与自主科研的下一步

DeepMind 创始人 Demis Hassabis 与 YC 对谈,分享他对 AGI 时间线、AI agent 能力演进和 AI for Science 下一个重大突破方向的判断,并回顾从国际象棋神童到创立 DeepMind 的职业路径。

频道:Y Combinator|⏱ 40:57

核心主题Demis Hassabis对 AGI 路径、agent 能力边界和 AI 驱动科学突破的第一手判断

嘉宾视角:DeepMind 创始人、AlphaFold 负责人,从世界顶级 AI 实验室 CEO 的视角讲

关键观点:AI for Science 的下一个突破不是更快的工具,而是 agent 能够自主设计和执行实验;AGI 时间线比公众讨论更短,但”有用”和”安全”可以并行推进

适合听众:关注 AI for Science、医学/生物交叉领域以及 AGI 长期路线图的人

https://www.youtube.com/watch?v=JNyuX1zoOgU


大企业 AI 落地为何落后于硅谷:Box CEO 与 a16z 谈结构性鸿沟

Box CEO Aaron Levie、a16z 的 Martin Casado 和 Steven Sinofsky 讨论大型企业在 AI 落地上落后于硅谷的结构性原因,分析企业 AI 采购决策的摩擦点,以及”看起来在用 AI”和”真正在用 AI”之间的落差。

频道:a16z|⏱ 58:23

核心主题:企业 AI 落地的结构性鸿沟——硅谷 vs 传统大公司

嘉宾视角:Box CEO + 前微软 Windows 负责人 Steven Sinofsky,两者都有大型组织转型的第一手经验

关键观点:大公司落后的核心原因不是技术,而是决策流程和激励结构;”AI pilot 多 = AI 落地深”是假象

适合听众:在大型机构推 AI 项目、做企业软件产品的人

https://www.youtube.com/watch?v=dvVbA9OcBqs



欢迎关注 苍痕Luca B站账号,同步更新每日 AI 视频资讯。