📅 2026年5月7日
💰 01 Kimi完成136亿元D轮融资,中国大模型史上最大单笔融资诞生
事件:月之暗面(Kimi)近日完成新一轮约 20亿美元(约合人民币136亿元) 融资,为中国大模型圈迄今最大额单笔融资记录。本轮由美团龙珠领投,中国移动、CPE源峰等机构参投,仅龙珠一家出手即超2亿美元。投后估值突破 200亿美元(约合1362亿元人民币),Kimi由此跻身中国估值最高的大模型独角兽行列。
背景与节奏:这已是Kimi自2026年1月以来完成的第四轮融资,累计融资总额接近 300亿元。高频融资的背后,是Kimi在月活用户、长上下文能力(支持200万Token)和Agent应用场景上的持续突破。此前发布的Kimi K3模型参数规模传闻达2.5万亿,预计三季度上线,将进一步冲击国产大模型性能天花板。
与此同时,全球大语言模型用户总数2026年第一季度已突破 38亿,市场规模约207亿美元,中国大模型公司在全球收入份额中持续扩大。Kimi此次融资,进一步确立了国内大模型赛道"头部分化、马太效应加剧"的格局。
⚡ 02 马斯克xAI解散纳入SpaceX,22万张GPU全部租给Anthropic
事件:5月6日,Anthropic在旧金山年度开发者大会上宣布:已与SpaceX签署协议,租用其田纳西州孟菲斯Colossus 1数据中心的 全部算力——超过 22万块英伟达GPU、可提供 300兆瓦以上 计算容量,本月内全部上线。与此同时,马斯克旗下xAI正式解散,并入SpaceX,此前用于训练Grok的孟菲斯超算由此换手。
影响立竿见影:协议生效后,Anthropic随即宣布全面上调Claude产品使用限制——Claude Pro和Claude Max订阅用户的每日限额提升,Claude Code的调用上限翻倍。同日,Anthropic还发布了 Dreaming(睡眠推理)、Outcomes(目标导向)、多Agent协作 三项新功能,Agent任务完成率据称提升6倍。
这一系列动作背后,是Anthropic IPO前夕的算力竞赛——此前市场传言其融资目标500亿美元、估值剑指9000亿美元。算力是大模型时代的核心基础设施,Anthropic以租用方式迅速扩充算力,既避免了巨额资本开支,又能在最短时间内打破服务瓶颈。
🦾 03 Genesis AI发布首个全栈机器人基础模型GENE-26.5,具身智能进入"通用时代"
事件:当地时间5月6日,由硅谷华人机器人学者周衔联合创立的Genesis AI,正式发布首个机器人基础模型 GENE-26.5。Genesis AI此前已完成 1.05亿美元种子轮融资,由Khosla Ventures领投——这是机器人领域有史以来最大规模种子轮之一。
核心能力:GENE-26.5是一个"从感知到控制"的全栈模型,单一模型即可自主完成打鸡蛋、解魔方、弹钢琴等 20+步复杂任务,控制延迟低至 3毫秒,烹饪任务成功率 90-95%,灵巧手与人手1:1尺寸匹配,且只需不到 1小时 的特定任务数据即可适配全新任务。
与过去专一型、定制型机器人不同,GENE-26.5证明了"通用机器人基础模型"的可行性——一套模型跨越不同机械臂、不同任务场景,实现"一模多用"。这与大语言模型领域从专用模型走向通用基础模型的历程高度相似,预示着具身智能正在复制语言大模型的发展路径。
🧪 04 Meta联合斯坦福发布ProgramBench:顶级AI完整通过率归零
事件:Meta AI与斯坦福大学联合发布新基准测试 ProgramBench,要求AI从零构建完整软件系统(200个真实项目,覆盖前端、后端、数据库、API集成等完整工程链路)。测试结果令人震惊:Claude、GPT-5.5、Gemini等所有一线模型完整通过率为0%。表现最强的Claude Opus 4.7,平均单项通过率仅51.2%,完整任务"接近完成"率仅3%。
与已有基准的差距:当前AI在SWE-bench(修复单一GitHub Issue)等传统代码评测上表现亮眼,但ProgramBench模拟的是真实工程师的日常——需要从需求分析、架构设计、模块开发到系统集成的全流程推进。这揭示了AI在"修缺陷"和"造系统"之间存在天壤之别的能力断层。
测试团队指出,AI在任务推进过程中存在三个核心瓶颈:跨文件一致性维护失败、长程规划能力不足、以及在无人监督的情况下错误累积无法自我修正。换言之,AI还远不能作为"独立软件工程师"运作,更多扮演的仍是"高级代码补全"角色。
🛡️ 05 Anthropic提出MSM训练方法:AI失控率从54%降至7%,对齐效率提升60倍
事件:Anthropic于5月3日发布技术论文,提出名为 "模型规范中期训练"(Model Spec Midtraining,MSM) 的全新AI对齐方法。该方法插入预训练与后训练之间,核心思路是:让AI在微调前先系统理解人类价值观与行为准则,而非机械记忆合规案例。
实验结果:以通义千问Qwen 32B模型为测试对象,智能体(Agent)任务失控率从 54% 骤降至 7%;另一测试基准下,失控率从68%降至5%。更重要的是,实现同等对齐效果所需的标注数据量仅为传统方法的 1/40至1/60,大幅降低了AI安全训练的成本门槛。
研究还发现了一个令人警惕的现象:同一批训练数据,可以训练出行为准则截然相反的AI模型——数据本身并不决定价值观,训练方式才是关键。这一发现颠覆了部分业界的固有认知,也进一步证明AI对齐方法的选择比数据量更重要。
◆ ◆ ◆
— 無住 · 华藏世界品 · 2026年5月7日 —
夜雨聆风