AI内参|DeepSeek首轮融资估值$500亿、SAIR科学*AI峰会汇集图灵诺奖天团、Skill系列论文引爆自进化Agent研究

AI内参｜DeepSeek首轮融资估值$500亿、SAIR科学×AI峰会汇集图灵诺奖天团、Skill系列论文引爆自进化Agent研究

2026-05-14 · AI日报

◆ 🛠️ 技术生态

DeepSeek V4 开源引行业震动：首轮融资估值飙至 $500 亿，V4.1 定档 6 月

DeepSeek 自 4 月 24 日正式发布 V4 系列以来，持续引发行业连锁反应。V4 系列包含 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个开源模型，采用 MIT 许可证发布在 Hugging Face 上，以极其激进的价格策略冲击市场——V4-Flash-Max 的输入价格仅为 $0.14/百万 token，输出 $0.28/百万 token，而 V4-Pro-Max 模式在推理基准测试中已接近闭源前沿模型水平。

https://api-docs.deepseek.com/news/news260424

在技术架构层面，V4 的最大突破在于超长上下文的高效处理。根据技术报告，V4-Pro 在 100 万 token 上下文设置下，仅使用约 DeepSeek-V3.2 每 token 推理 FLOPs 的 27%，KV 缓存占用仅约 10%。这意味着百万 token 级上下文从"可演示但不可商用"变成了"经济可行"。V4 的训练运行在华为昇腾 AI 处理器上，体现了中国自主芯片生态的快速追赶。

https://fortune.com/2026/04/24/deepseek-v4-ai-model-price-performance-china-open-source/

在市场与资本层面，DeepSeek 在 5 月初启动了其成立以来的首轮外部融资。据 Reuters、FT 和 Bloomberg 多方报道，估值从最初的 $200 亿一路攀升至最高 $500 亿，计划融资 $30-40 亿，主要用于扩展算力基础设施和员工股权激励。本轮融资由国家集成电路产业投资基金（大基金）领投，腾讯也在洽谈参与。这是中国 AI 领域迄今为止估值最高的初创公司融资轮。

https://techcrunch.com/2026/05/06/deepseek-could-hit-45b-valuation-from-its-first-investment-round/
https://www.reuters.com/world/asia-pacific/deepseek-nears-45-billion-valuation-chinas-big-fund-leads-investment-talks-ft-2026-05-06/

行业分析认为，DeepSeek 的快速崛起正在重塑中国 AI 竞争格局——5 月 9 日量子位报道梁文锋已出资 200 亿参与首轮融资，且 V4.1 版本已定档 6 月发布。这一速度远超行业预期，意味着中国 AI 军备竞赛进入了新阶段。

https://www.qbitai.com/2026/05/416963.html

OpenClaw 低调更新 Peekaboo v3：龙虾长出"手"和"脚"

OpenClaw 项目虽在 5 月热度稍有回落（GitHub Stars 维持在 37.2 万），但其创始人 Peter Steinberger 并未放慢节奏。5 月中旬，他悄然发布了 Peekaboo v3 的 3.1.x 系列迭代——一套面向 macOS 的 Computer Use 工具包。

https://github.com/openclaw/openclaw

Peekaboo v3 的核心能力包括：像素级截图（窗口、全屏、菜单栏）、读取 macOS UI 元素的类型、位置和标签、以及执行点击、输入文字、快捷键、滚动、拖拽、切换窗口和桌面等操作。工具可嵌入 Claude Code、Cursor、Codex 等 AI 编码工具作为 MCP Server 使用，也可通过 Homebrew 独立安装用于脚本自动化。

https://www.qbitai.com/2026/05/416034.html

在 AI 操作电脑的赛道中，Peekaboo 相比 Anthropic 的 Computer Use 和 OpenAI 的 Operator，核心差异化在于是完全开源、本地优先的工具包，数据不出本地，且对 Swift 开发者提供了原生 SDK 集成能力。

MCP 协议 2026 路线图：月 SDK 下载量 1.1 亿，即将增加流式任务与触发器

MCP（Model Context Protocol）协议作为 AI 代理与工具连接的行业标准，正在经历爆发式增长。在 4 月的 Agentic AI Foundation 主题演讲中，MCP 共同创建者 David Soria Parra（Anthropic）披露了一系列关键数据与规划。

https://www.youtube.com/watch?v=kAVRFYgCPg0

核心数据：MCP SDK 月下载量已突破 1.1 亿次，在其推出的 16 个月内超越了 React 头 3 年的采用曲线。这一增长主要由企业级部署推动。

2026 关键特性：无状态 HTTP 协议重设计；跨应用身份验证；MCP Triggers（Webhooks）启用服务器主动推送；Long-Running Tasks 原语；Native Streaming 增量工具结果；Skills Over MCP 领域知识捆绑；SDK v2 重写。

从安全角度看，Noma Security 最新白皮书警示：四分之一的 MCP 服务器存在代码执行安全风险，Skills 加载文本指令直接进入模型推理上下文，传统安全审计方法对此失效。

https://www.helpnetsecurity.com/2026/05/05/ai-agent-security-skills-blind-spots/
https://blog.cloudflare.com/agents-week-in-review/
https://workos.com/blog/everything-your-team-needs-to-know-about-mcp-in-2026

字节跳动 Seed 团队联合多校发布 Cola DLM：连续潜在扩散语言模型新范式

字节跳动 Seed 团队联合香港大学、澳大利亚国立大学和北京大学发布了 Cola DLM（Continuous Latent Diffusion Language Model），提出了一种全新的文本生成范式——不再是逐 token 自回归生成，而是在连续潜在空间中进行扩散建模。

https://arxiv.org/abs/2605.06548
https://huggingface.co/papers/2605.06548

核心架构分为三层：Text VAE 将文本映射到稳定的潜在表示；块级因果 DiT 在连续潜在空间中建模全局语义先验；条件解码器 将潜在表示还原为文本。在约 2000 EFLOPs 的缩放曲线下，Cola DLM 在 8 个基准测试中与 ~2B 参数的自回归和 LLaDA 基线进行了对比，验证了强大的非自回归扩展行为。

◆ 🏢 大厂动态

Anduril 完成 $50 亿 Series H：估值翻倍至 $610 亿，防务 AI 成核心赛道

5 月 13 日，防务科技公司 Anduril Industries 宣布完成 $50 亿 Series H 轮融资，估值跃升至 $610 亿——相比一年前的 $305 亿估值实现翻倍。本轮由 Thrive Capital 和 Andreessen Horowitz 联合领投。

https://techcrunch.com/2026/05/13/anduril-raises-5b-doubles-valuation-to-61b/
https://www.nytimes.com/2026/05/13/technology/anduril-raises-5-billion.html

关键数字：Anduril 2025 年营收达到 $22 亿，同比翻倍。公司正在俄亥俄州的 Arsenal-1 工厂大规模扩建，用于量产无人机和先进防务系统。近期重大合同包括：参与"金穹"天基导弹防御系统、荷兰国防部合同、以及美国陆军价值高达 $200 亿 的 Lattice 战斗管理软件合同（10 年期）。

行业分析指出，a16z 和 Thrive Capital 等风投机构正越来越多地押注"防务 + AI + 工业自动化"的交汇点，这标志着风投资本与国家安全基础设施之间的融合趋势。

https://techfundingnews.com/andurils-valuation-soars-to-61b-in-5b-round-from-thrive-capital-and-a16z-amid-defence-boom/

Fervo Energy IPO 首日暴涨 33%：AI 数据中心能源需求引爆地热赛道

5 月 13 日，地热能源初创公司 Fervo Energy 在纳斯达克上市（代码：FRVO），首日股价飙升 33%，市值突破 $102 亿。这是十多年来首个地热公司 IPO，也被视为 AI 能源革命的风向标事件。

https://techcrunch.com/2026/05/13/geothermal-startup-fervo-energy-pops-33-in-ipo-debut-fueled-by-ai-data-center-demand/
https://www.reuters.com/business/energy/fervo-energy-valued-1021-billion-shares-rise-nasdaq-debut-2026-05-13/

IPO 细节：发行价从最初预期的 $21-24 区间一路上调，最终以 $27/股定价，发行 7000 万股，募资 $19 亿。位于犹他州的 Cape Station 电站采用水平钻井和分布式光纤传感技术开发增强型地热系统，预计 2026 年首次并网发电。公司已签署超 658 MW 购电协议，客户包括 Google、南加州爱迪生公司等。

这是近期第二宗备受追捧的能源领域 IPO——数周前核能初创公司 X-energy 在美股募资 $10 亿。AI 数据中心的能源饥渴正在重塑整个清洁能源投资格局。

https://www.fool.com/investing/2026/05/13/heres-everything-investors-need-to-know-about-the/

SAIR Science x AI Summit 2026 召开：图灵奖与诺奖天团共议 AI 驱动科学新范式

5 月 12-13 日，SAIR（科学与 AI 研究）基金会在硅谷帕洛阿尔托举办了首届 Science x AI Summit 2026，汇集了 4 位图灵奖得主、2 位诺贝尔奖得主、2 位菲尔兹奖得主，以及 30 多位顶级 VC 高管和 AI 创始人。

https://sair.foundation/event/science-ai-summit-2026/

菲尔兹奖得主 Terence Tao 发表了关于"机器辅助与数学研究未来"的开幕演讲。图灵奖得主 John Hennessy（Google 董事长）与诺贝尔物理学奖得主 Barry Barish 等重磅人物也出席了峰会。

核心议题：AI for Mathematics（Tao 的 Axiom 项目展示 AI 在定理发现中的应用）；AI for Physics（NVIDIA 和 CERN 展示 AI 加速引力波分析）；AI for Biology（AlphaFold 之后的蛋白质设计时代）；以及面向 AI for Science 的专用算力基础设施建设。

https://finance.yahoo.com/news/sair-arrives-ai-science-kick-193800479.html

EU AI Act 全面合规倒计时：仅剩 5 个月，违规最高可罚全球营收 7%

欧盟《人工智能法案》（EU AI Act）最关键的合规日期——2026 年 8 月 2 日——仅剩不到 5 个月时间。届时，高风险 AI 系统的大部分条款将全面生效，违规企业面临最高 全球年营收 7% 的罚款或 €3500 万（取其高者）。

https://www.dataguard.com/eu-ai-act/timeline
https://artificialintelligenceact.eu/implementation-timeline/

核心要求：高风险 AI 系统（涉及就业、信贷、教育、关键基础设施等）需建立风险管理体系、数据治理措施、技术文档和人工监督机制；通用 AI 模型需披露训练数据来源和版权合规信息；所有面向欧盟市场的 AI 系统需完成 CE 标志认证。美国企业同样面临 EU AI Act 的域外管辖问题。

https://legalnodes.com/article/eu-ai-act-compliance-roadmap-for-august-2026-deadline

◆ 📍 论文解读

MARBLE：多奖励扩散 RL 的统一梯度空间优化

arXiv:2605.06507 · https://arxiv.org/abs/2605.06507
https://huggingface.co/papers/2605.06507 · 项目主页：https://aim-uofa.github.io/MARBLE/

研究背景：扩散模型的强化学习微调已成为对齐人类偏好的主流方法，但实际应用中通常需要同时优化多个奖励维度。现有方法要么为每个奖励训练单独的专家模型（成本过高），要么使用手工调参的加权求和（易导致某些奖励维度被"遗忘"）。

核心方案：来自阿尔伯塔大学和 UIUC 的团队提出 MARBLE 框架，在梯度空间中保持奖励特异性监督。为每个奖励维护独立的优势估计器，计算每个奖励的策略梯度，通过求解二次规划协调为单一更新方向——完全无需手工调参。

关键指标：在 SD3.5 Medium 模型上对五个并行奖励测试，同时提升了所有五个奖励维度，将最差对齐奖励的梯度余弦从加权求和下的负数转为持续正数。训练速度仅为基础训练的 0.97 倍。

Skill1：基于强化学习的自进化 Agent 统一框架

arXiv:2605.06130 · https://arxiv.org/abs/2605.06130
https://huggingface.co/papers/2605.06130

研究背景：技能增强型 Agent 面临三个割裂的问题——技能选择、利用和蒸馏通常由独立模块处理，缺乏统一优化目标。

核心方案：提出 Skill1 框架，用单一 RL 策略联合进化技能选择、利用和蒸馏。Agent 的决策策略生成查询搜索技能库、重排序候选技能、在技能指导下解决任务、从轨迹中蒸馏新技能——形成闭环。在 ALFWorld 和 WebShop 实验中显著超越现有基线。

SkillOS：面向自进化 Agent 的体验驱动技能策展系统

arXiv:2605.06614 · https://arxiv.org/abs/2605.06614
https://huggingface.co/papers/2605.06614

研究背景：自进化 Agent 的核心挑战在于如何从经验中提取可迁移的结构化知识。现有方法依赖人工设计的技能模板。

核心方案：伊利诺伊大学香槟分校和 Google Cloud AI Research 联合提出 SkillOS——Agent 在执行任务过程中自主产生"技能候选"，通过 RL 评估其质量，决定哪些技能入库、合并或淘汰。相当于给 Agent 装了一个"技能操作系统"，首次将技能策展形式化为可学习问题。

Cola DLM：字节跳动 Seed 团队的分层连续潜在扩散语言模型

arXiv:2605.06548 · https://arxiv.org/abs/2605.06548
https://huggingface.co/papers/2605.06548

研究背景：自回归语言模型的逐 token 生成方式限制了并行化和灵活性。扩散语言模型在文本领域的应用仍落后于图像领域。

核心方案：字节 Seed 联合港大、ANU 和北大提出 Cola DLM，将文本生成分解为 Text VAE 映射、块级因果 DiT 全局语义建模、条件解码器还原，三层分层结构。在约 2000 EFLOPs 扩展曲线下展示了强非自回归扩展行为，为多模态统一建模提供了可行路径。

◆ 📊 趋势洞察

趋势一：Agent 自进化从概念走向系统化。今天三篇核心论文——Skill1、SkillOS 和 MARBLE——虽然面向不同问题，但都指向同一个方向：让 AI 系统拥有自我改进的能力。Skill1 让 Agent 联合进化技能全生命周期，SkillOS 提出了技能策展的操作系统级抽象，MARBLE 解决了多奖励扩散 RL 的梯度冲突。这可能标志着 Agent 研究从"如何构建 Agent"进入"如何让 Agent 自我进化"的新阶段。

趋势二：AI 能源经济成为独立赛道。Fervo Energy 的 IPO 暴涨和 X-energy 的 $10 亿 IPO 表明，投资者正在将"AI 能源基础设施"视为继 GPU 算力之后的第二大瓶颈。NVIDIA Vera Rubin 被定位为"AI 工厂"的计算底座，地热和核能公司被市场热捧——AI 的能源需求正在催生一个全新的投资板块。

趋势三：开源模型 + 大规模资本形成中国 AI 新范式。DeepSeek V4 的开源策略与创纪录的 $500 亿估值构成了一个前所未有的组合——一边是 MIT 许可的完全开放模型，一边是国家大基金领投的数十亿美元融资。这种"开源+国家队资本"的模式如果成功，可能重塑全球 AI 竞争格局。

标签： #AI日报 #DeepSeek #V4 #SAIR #SciencexAI #Anduril #DefenseAI #FervoEnergy #Geothermal #IPO #MARBLE #Skill1 #SkillOS #SelfEvolvingAgents #MCP #OpenClaw #Peekaboo #ColaDLM #DiffusionLM #ByteDance #EUAIAct #Agent #OpenSource