AI内参|DeepSeek首轮融资估值$500亿、SAIR科学×AI峰会汇集图灵诺奖天团、Skill系列论文引爆自进化Agent研究
2026-05-14 · AI日报
◆ 🛠️ 技术生态
DeepSeek V4 开源引行业震动:首轮融资估值飙至 $500 亿,V4.1 定档 6 月
DeepSeek 自 4 月 24 日正式发布 V4 系列以来,持续引发行业连锁反应。V4 系列包含 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 两个开源模型,采用 MIT 许可证发布在 Hugging Face 上,以极其激进的价格策略冲击市场——V4-Flash-Max 的输入价格仅为 $0.14/百万 token,输出 $0.28/百万 token,而 V4-Pro-Max 模式在推理基准测试中已接近闭源前沿模型水平。
https://api-docs.deepseek.com/news/news260424
在技术架构层面,V4 的最大突破在于超长上下文的高效处理。根据技术报告,V4-Pro 在 100 万 token 上下文设置下,仅使用约 DeepSeek-V3.2 每 token 推理 FLOPs 的 27%,KV 缓存占用仅约 10%。这意味着百万 token 级上下文从"可演示但不可商用"变成了"经济可行"。V4 的训练运行在华为昇腾 AI 处理器上,体现了中国自主芯片生态的快速追赶。
https://fortune.com/2026/04/24/deepseek-v4-ai-model-price-performance-china-open-source/
在市场与资本层面,DeepSeek 在 5 月初启动了其成立以来的首轮外部融资。据 Reuters、FT 和 Bloomberg 多方报道,估值从最初的 $200 亿一路攀升至最高 $500 亿,计划融资 $30-40 亿,主要用于扩展算力基础设施和员工股权激励。本轮融资由国家集成电路产业投资基金(大基金)领投,腾讯也在洽谈参与。这是中国 AI 领域迄今为止估值最高的初创公司融资轮。
https://techcrunch.com/2026/05/06/deepseek-could-hit-45b-valuation-from-its-first-investment-round/
https://www.reuters.com/world/asia-pacific/deepseek-nears-45-billion-valuation-chinas-big-fund-leads-investment-talks-ft-2026-05-06/
行业分析认为,DeepSeek 的快速崛起正在重塑中国 AI 竞争格局——5 月 9 日量子位报道梁文锋已出资 200 亿参与首轮融资,且 V4.1 版本已定档 6 月发布。这一速度远超行业预期,意味着中国 AI 军备竞赛进入了新阶段。
https://www.qbitai.com/2026/05/416963.html
OpenClaw 低调更新 Peekaboo v3:龙虾长出"手"和"脚"
OpenClaw 项目虽在 5 月热度稍有回落(GitHub Stars 维持在 37.2 万),但其创始人 Peter Steinberger 并未放慢节奏。5 月中旬,他悄然发布了 Peekaboo v3 的 3.1.x 系列迭代——一套面向 macOS 的 Computer Use 工具包。
https://github.com/openclaw/openclaw
Peekaboo v3 的核心能力包括:像素级截图(窗口、全屏、菜单栏)、读取 macOS UI 元素的类型、位置和标签、以及执行点击、输入文字、快捷键、滚动、拖拽、切换窗口和桌面等操作。工具可嵌入 Claude Code、Cursor、Codex 等 AI 编码工具作为 MCP Server 使用,也可通过 Homebrew 独立安装用于脚本自动化。
https://www.qbitai.com/2026/05/416034.html
在 AI 操作电脑的赛道中,Peekaboo 相比 Anthropic 的 Computer Use 和 OpenAI 的 Operator,核心差异化在于是完全开源、本地优先的工具包,数据不出本地,且对 Swift 开发者提供了原生 SDK 集成能力。
MCP 协议 2026 路线图:月 SDK 下载量 1.1 亿,即将增加流式任务与触发器
MCP(Model Context Protocol)协议作为 AI 代理与工具连接的行业标准,正在经历爆发式增长。在 4 月的 Agentic AI Foundation 主题演讲中,MCP 共同创建者 David Soria Parra(Anthropic)披露了一系列关键数据与规划。
https://www.youtube.com/watch?v=kAVRFYgCPg0
核心数据:MCP SDK 月下载量已突破 1.1 亿次,在其推出的 16 个月内超越了 React 头 3 年的采用曲线。这一增长主要由企业级部署推动。
2026 关键特性:无状态 HTTP 协议重设计;跨应用身份验证;MCP Triggers(Webhooks)启用服务器主动推送;Long-Running Tasks 原语;Native Streaming 增量工具结果;Skills Over MCP 领域知识捆绑;SDK v2 重写。
从安全角度看,Noma Security 最新白皮书警示:四分之一的 MCP 服务器存在代码执行安全风险,Skills 加载文本指令直接进入模型推理上下文,传统安全审计方法对此失效。
https://www.helpnetsecurity.com/2026/05/05/ai-agent-security-skills-blind-spots/
https://blog.cloudflare.com/agents-week-in-review/
https://workos.com/blog/everything-your-team-needs-to-know-about-mcp-in-2026
字节跳动 Seed 团队联合多校发布 Cola DLM:连续潜在扩散语言模型新范式
字节跳动 Seed 团队联合香港大学、澳大利亚国立大学和北京大学发布了 Cola DLM(Continuous Latent Diffusion Language Model),提出了一种全新的文本生成范式——不再是逐 token 自回归生成,而是在连续潜在空间中进行扩散建模。
https://arxiv.org/abs/2605.06548
https://huggingface.co/papers/2605.06548
核心架构分为三层:Text VAE 将文本映射到稳定的潜在表示;块级因果 DiT 在连续潜在空间中建模全局语义先验;条件解码器 将潜在表示还原为文本。在约 2000 EFLOPs 的缩放曲线下,Cola DLM 在 8 个基准测试中与 ~2B 参数的自回归和 LLaDA 基线进行了对比,验证了强大的非自回归扩展行为。
◆ 🏢 大厂动态
Anduril 完成 $50 亿 Series H:估值翻倍至 $610 亿,防务 AI 成核心赛道
5 月 13 日,防务科技公司 Anduril Industries 宣布完成 $50 亿 Series H 轮融资,估值跃升至 $610 亿——相比一年前的 $305 亿估值实现翻倍。本轮由 Thrive Capital 和 Andreessen Horowitz 联合领投。
https://techcrunch.com/2026/05/13/anduril-raises-5b-doubles-valuation-to-61b/
https://www.nytimes.com/2026/05/13/technology/anduril-raises-5-billion.html
关键数字:Anduril 2025 年营收达到 $22 亿,同比翻倍。公司正在俄亥俄州的 Arsenal-1 工厂大规模扩建,用于量产无人机和先进防务系统。近期重大合同包括:参与"金穹"天基导弹防御系统、荷兰国防部合同、以及美国陆军价值高达 $200 亿 的 Lattice 战斗管理软件合同(10 年期)。
行业分析指出,a16z 和 Thrive Capital 等风投机构正越来越多地押注"防务 + AI + 工业自动化"的交汇点,这标志着风投资本与国家安全基础设施之间的融合趋势。
https://techfundingnews.com/andurils-valuation-soars-to-61b-in-5b-round-from-thrive-capital-and-a16z-amid-defence-boom/
Fervo Energy IPO 首日暴涨 33%:AI 数据中心能源需求引爆地热赛道
5 月 13 日,地热能源初创公司 Fervo Energy 在纳斯达克上市(代码:FRVO),首日股价飙升 33%,市值突破 $102 亿。这是十多年来首个地热公司 IPO,也被视为 AI 能源革命的风向标事件。
https://techcrunch.com/2026/05/13/geothermal-startup-fervo-energy-pops-33-in-ipo-debut-fueled-by-ai-data-center-demand/
https://www.reuters.com/business/energy/fervo-energy-valued-1021-billion-shares-rise-nasdaq-debut-2026-05-13/
IPO 细节:发行价从最初预期的 $21-24 区间一路上调,最终以 $27/股定价,发行 7000 万股,募资 $19 亿。位于犹他州的 Cape Station 电站采用水平钻井和分布式光纤传感技术开发增强型地热系统,预计 2026 年首次并网发电。公司已签署超 658 MW 购电协议,客户包括 Google、南加州爱迪生公司等。
这是近期第二宗备受追捧的能源领域 IPO——数周前核能初创公司 X-energy 在美股募资 $10 亿。AI 数据中心的能源饥渴正在重塑整个清洁能源投资格局。
https://www.fool.com/investing/2026/05/13/heres-everything-investors-need-to-know-about-the/
SAIR Science x AI Summit 2026 召开:图灵奖与诺奖天团共议 AI 驱动科学新范式
5 月 12-13 日,SAIR(科学与 AI 研究)基金会在硅谷帕洛阿尔托举办了首届 Science x AI Summit 2026,汇集了 4 位图灵奖得主、2 位诺贝尔奖得主、2 位菲尔兹奖得主,以及 30 多位顶级 VC 高管和 AI 创始人。
https://sair.foundation/event/science-ai-summit-2026/
菲尔兹奖得主 Terence Tao 发表了关于"机器辅助与数学研究未来"的开幕演讲。图灵奖得主 John Hennessy(Google 董事长)与诺贝尔物理学奖得主 Barry Barish 等重磅人物也出席了峰会。
核心议题:AI for Mathematics(Tao 的 Axiom 项目展示 AI 在定理发现中的应用);AI for Physics(NVIDIA 和 CERN 展示 AI 加速引力波分析);AI for Biology(AlphaFold 之后的蛋白质设计时代);以及面向 AI for Science 的专用算力基础设施建设。
https://finance.yahoo.com/news/sair-arrives-ai-science-kick-193800479.html
EU AI Act 全面合规倒计时:仅剩 5 个月,违规最高可罚全球营收 7%
欧盟《人工智能法案》(EU AI Act)最关键的合规日期——2026 年 8 月 2 日——仅剩不到 5 个月时间。届时,高风险 AI 系统的大部分条款将全面生效,违规企业面临最高 全球年营收 7% 的罚款或 €3500 万(取其高者)。
https://www.dataguard.com/eu-ai-act/timeline
https://artificialintelligenceact.eu/implementation-timeline/
核心要求:高风险 AI 系统(涉及就业、信贷、教育、关键基础设施等)需建立风险管理体系、数据治理措施、技术文档和人工监督机制;通用 AI 模型需披露训练数据来源和版权合规信息;所有面向欧盟市场的 AI 系统需完成 CE 标志认证。美国企业同样面临 EU AI Act 的域外管辖问题。
https://legalnodes.com/article/eu-ai-act-compliance-roadmap-for-august-2026-deadline
◆ 📍 论文解读
MARBLE:多奖励扩散 RL 的统一梯度空间优化
arXiv:2605.06507 · https://arxiv.org/abs/2605.06507
https://huggingface.co/papers/2605.06507 · 项目主页:https://aim-uofa.github.io/MARBLE/
研究背景:扩散模型的强化学习微调已成为对齐人类偏好的主流方法,但实际应用中通常需要同时优化多个奖励维度。现有方法要么为每个奖励训练单独的专家模型(成本过高),要么使用手工调参的加权求和(易导致某些奖励维度被"遗忘")。
核心方案:来自阿尔伯塔大学和 UIUC 的团队提出 MARBLE 框架,在梯度空间中保持奖励特异性监督。为每个奖励维护独立的优势估计器,计算每个奖励的策略梯度,通过求解二次规划协调为单一更新方向——完全无需手工调参。
关键指标:在 SD3.5 Medium 模型上对五个并行奖励测试,同时提升了所有五个奖励维度,将最差对齐奖励的梯度余弦从加权求和下的负数转为持续正数。训练速度仅为基础训练的 0.97 倍。
Skill1:基于强化学习的自进化 Agent 统一框架
arXiv:2605.06130 · https://arxiv.org/abs/2605.06130
https://huggingface.co/papers/2605.06130
研究背景:技能增强型 Agent 面临三个割裂的问题——技能选择、利用和蒸馏通常由独立模块处理,缺乏统一优化目标。
核心方案:提出 Skill1 框架,用单一 RL 策略联合进化技能选择、利用和蒸馏。Agent 的决策策略生成查询搜索技能库、重排序候选技能、在技能指导下解决任务、从轨迹中蒸馏新技能——形成闭环。在 ALFWorld 和 WebShop 实验中显著超越现有基线。
SkillOS:面向自进化 Agent 的体验驱动技能策展系统
arXiv:2605.06614 · https://arxiv.org/abs/2605.06614
https://huggingface.co/papers/2605.06614
研究背景:自进化 Agent 的核心挑战在于如何从经验中提取可迁移的结构化知识。现有方法依赖人工设计的技能模板。
核心方案:伊利诺伊大学香槟分校和 Google Cloud AI Research 联合提出 SkillOS——Agent 在执行任务过程中自主产生"技能候选",通过 RL 评估其质量,决定哪些技能入库、合并或淘汰。相当于给 Agent 装了一个"技能操作系统",首次将技能策展形式化为可学习问题。
Cola DLM:字节跳动 Seed 团队的分层连续潜在扩散语言模型
arXiv:2605.06548 · https://arxiv.org/abs/2605.06548
https://huggingface.co/papers/2605.06548
研究背景:自回归语言模型的逐 token 生成方式限制了并行化和灵活性。扩散语言模型在文本领域的应用仍落后于图像领域。
核心方案:字节 Seed 联合港大、ANU 和北大提出 Cola DLM,将文本生成分解为 Text VAE 映射、块级因果 DiT 全局语义建模、条件解码器还原,三层分层结构。在约 2000 EFLOPs 扩展曲线下展示了强非自回归扩展行为,为多模态统一建模提供了可行路径。
◆ 📊 趋势洞察
趋势一:Agent 自进化从概念走向系统化。今天三篇核心论文——Skill1、SkillOS 和 MARBLE——虽然面向不同问题,但都指向同一个方向:让 AI 系统拥有自我改进的能力。Skill1 让 Agent 联合进化技能全生命周期,SkillOS 提出了技能策展的操作系统级抽象,MARBLE 解决了多奖励扩散 RL 的梯度冲突。这可能标志着 Agent 研究从"如何构建 Agent"进入"如何让 Agent 自我进化"的新阶段。
趋势二:AI 能源经济成为独立赛道。Fervo Energy 的 IPO 暴涨和 X-energy 的 $10 亿 IPO 表明,投资者正在将"AI 能源基础设施"视为继 GPU 算力之后的第二大瓶颈。NVIDIA Vera Rubin 被定位为"AI 工厂"的计算底座,地热和核能公司被市场热捧——AI 的能源需求正在催生一个全新的投资板块。
趋势三:开源模型 + 大规模资本形成中国 AI 新范式。DeepSeek V4 的开源策略与创纪录的 $500 亿估值构成了一个前所未有的组合——一边是 MIT 许可的完全开放模型,一边是国家大基金领投的数十亿美元融资。这种"开源+国家队资本"的模式如果成功,可能重塑全球 AI 竞争格局。
标签: #AI日报 #DeepSeek #V4 #SAIR #SciencexAI #Anduril #DefenseAI #FervoEnergy #Geothermal #IPO #MARBLE #Skill1 #SkillOS #SelfEvolvingAgents #MCP #OpenClaw #Peekaboo #ColaDLM #DiffusionLM #ByteDance #EUAIAct #Agent #OpenSource
夜雨聆风