AI Infra日报 5月26日|聚焦AI基础设施与超节点领域

作者：观天下 | 聚焦AI基础设施与超节点领域

1. Google + 黑石 $250亿TPU云：AI云计算格局面临重构

Google与全球最大数据中心私募所有者黑石（Blackstone）宣布成立合资公司，推出基于TPU的全新AI云服务。黑石出资50亿美元股权，项目潜在总规模可达250亿美元，数据中心全部搭载Google自研TPU芯片，直接对标CoreWeave等NVIDIA GPU云服务商。Google云CEO Thomas Kurian表示："这将是首个完全基于非GPU架构的超大规模AI云。"

合资公司独立运营，黑石贡献数据中心选址、建设、运营能力，Google提供TPU芯片和AI软件栈。首批数据中心选址美国中西部，预计2027年上线。这一模式的核心逻辑是：用TPU在推理成本和能效比上的优势，结合黑石的全球数据中心资产运营能力，构建独立于NVIDIA GPU生态的第三条AI算力供给路线。

值得关注：
这是AI基础设施领域的一次战略级分化。目前AI云计算市场以NVIDIA GPU为核心（CoreWeave/Lambda/Lumu等），Google-Blackstone TPU云的出现在芯片层和商业模式层同时发起挑战。对AI Infra而言，异构算力生态的竞争正从芯片层延伸到云服务层——未来的AI算力市场将是GPU云、TPU云、国产芯片云三足鼎立的格局。

2. NVIDIA Vera Rubin Q3出货确认：下一代超节点进入交付倒计时

Benchmark分析师Cody Acree最新报告确认，NVIDIA Vera Rubin平台将于Q3 2026开始首批出货，Q4进入放量阶段。更引人注目的是，管理层预计独立的Vera CPU在FY2027的收入将达200亿美元，这还不包含在Blackwell/Rubin的1万亿美元总可寻址市场（TAM）框架内。

Vera CPU的出现正在改写数据中心CPU市场格局。这款基于Olympus架构、拥有88核和1.2TB/s内存带宽的AI原生CPU，有望在Agentic AI场景中对传统x86服务器CPU形成替代效应。Intel和AMD在服务器CPU领域的传统壁垒，正在被AI原生计算架构所突破。与此同时，Blackwell需求持续攀升，NVIDIA Q1 FY2027数据中心营收752亿美元（+127%），为Rubin过渡提供坚实基本盘。

值得关注：
Q3出货时间表确认了Rubin平台如期推进，消除了市场此前对延期的担忧。从Blackwell到Rubin的无缝接力，是AI超周期持续性的关键信号。Vera CPU独立贡献200亿美元意味着超节点内部的CPU竞争正在成为新的战场——AI基础设施的竞争正从"GPU单点"扩展到"CPU+GPU+网络"全栈协同。

3. 华为KADC深度：鲲鹏超节点Agent沙箱，十毫秒级快照回滚

鲲鹏昇腾开发者大会2026的余波中，鲲鹏超节点架构的细节逐步浮现。鲲鹏超节点实现TB级互联带宽、百纳秒时延、全局内存统一编址三大硬件突破。在Agent场景中，依托多级缓存共享和增量快照快速fork技术，实现十毫秒级任务回滚，Agent任务成功率提升10%以上。

通信层面，华为发布三大技术创新：灵衢SGL降低通信时延、透明UBSocket进一步优化时延、共享TP减少内存占用。安全方面，基于CCA架构的机密Agent安全方案提供容器级可信授权及数据加密恢复能力。鲲鹏BoostKit、灵衢协议及五大软件组件全部开源，生态伙伴超7000家，专业开发者达415万名。

值得关注：
如果说昇腾超节点解决的是"AI训练/推理算力"问题，鲲鹏超节点解决的则是"Agent运行时基础设施"问题。十毫秒级快照回滚意味着Agent可以在沙箱中安全试错——这是Agent从"辅助工具"走向"自主执行"的基础设施前提。鲲鹏超节点的发布标志着华为超节点架构从AI专用向通用计算延伸，Agentic AI时代基础设施版图正在成形。

4. 阿里云Qwen3.7-Max：35小时1158次工具调用，Agent对推理Infra提出全新要求

阿里云峰会上发布的Qwen3.7-Max旗舰智能体模型展现了令人震撼的自主编程能力：35小时无人干预连续编程，累计1158次工具调用、432轮内核评估，将注意力内核速度提升到Triton参考实现的10倍。模型支持100万token上下文，GPQA Diamond得分92.4（超越Opus 4.6 Max的91.3），HMMT 2026数学评测97.1（全场最高）。

API定价仅为2.50美元/百万token输入、7.50美元输出，缓存命中低至0.25美元，不到Opus 4.7输入价的六分之一。发布会demo展示了模型在完全无人干预下完成从需求理解到性能优化的完整编程闭环——这在Agent工程化实践中是前所未有的。

值得关注：
35小时、1158次工具调用这两个数字揭示了Agent对AI Infra的全新要求——不是单次推理的性能，而是长时间、高频率、多轮次调用的稳定性和可靠性。传统API的"请求-响应"模型是为单次任务设计的，而Agent场景需要持续数小时甚至数天的会话保持、上下文管理和资源调度能力。这将对推理Infra的架构提出根本性挑战。

5. 智谱GLM-5.1高速版400 tokens/s：推理速度军备竞赛白热化

智谱发布GLM-5.1高速版，API输出速度达到400 tokens/s，刷新全球大模型厂商速度纪录。第三方机构Artificial Analysis同期评测显示，运行同一套标准10轮任务的总成本：智谱544美元（最低），DeepSeek 1071美元，Anthropic 4811美元（最高）。

400 tokens/s的突破性意义在于Agent场景——多轮工具调用中，每轮推理延迟的累积可能使总响应时间膨胀数倍。高速推理大幅压缩了这一延迟，使Agent能够在接近实时的节奏下完成复杂任务。配合国产定价体系，智谱在"速度-成本"综合维度上已建立显著壁垒。

值得关注：
推理速度竞赛正在从"模型能力"维度扩展到"基础设施效率"维度。GLM-5.1以最低总成本跑赢Anthropic近9倍，说明国产模型在工程优化和成本控制上已具备系统性优势。对AI Infra而言，推理速度的提升意味着单位算力的Token产出效率提高，这对于算力紧缺的市场环境尤为重要。

6. Cursor Composer 2.5 + 月之暗面K2.5：万亿MoE逼近Opus 4.7，AI编程基础设施加速成熟

Cursor发布Composer 2.5，底座为月之暗面开源的Kimi K2.5（万亿参数MoE，每次推理激活约320亿参数）。Cursor投入85%总算力用于后训练，SWE-Bench Multilingual得分79.8%（仅差Opus 4.7的80.5%仅0.7个百分点），CursorBench v3.163.2%反超Opus 4.7（61.6%）。定价仅为Opus 4.7的十分之一（0.50美元/百万token输入，2.50美元输出）。

Cursor同时宣布正在用xAI Colossus 2的百万H100等效算力从头训练一个更大的模型。核心创新在训练方法：文本反馈强化学习（在失败工具调用处给局部提示，取代只在最终结果给奖励），以及25倍于前代的合成训练数据。Cursor在16个月内估值从25亿美元飙升至600亿美元，SpaceX持有以600亿美元收购其全部股权的期权。

值得关注：
这是AI编程工具从"调用最强模型"到"训练专用模型"的范式转变。Cursor证明，通过投入85%算力做后训练，万亿参数MoE可以在编程任务上逼近闭源旗舰模型。AI编程基础设施的竞争正从"API调用层"下沉到"模型训练层"——谁掌握了编程专用模型的训练能力，谁就掌握了长期竞争力。而SpaceX的600亿收购期权，意味着AI编程工具本身已成为算力巨头的战略资产。

7. OpenAI攻克Erdos 80年猜想：AI推理能力获剑桥数学家认证

OpenAI通用推理模型（非数学专用）在无人引导下找到全新构造，证明了1946年Paul Erdos提出的距离猜想并非最优解，并给出严格数学证明。模型将几何问题关联到代数数论，实现指数级增益（δ ≥ 0.014）。剑桥大学Timothy Gowers（菲尔兹奖得主）、Noga Alon、Melanie Wood等顶级数学家独立验证并撰写伴随论文。

Gowers评价"此前没有任何AI生成的证明接近过这一水平"。七个月前，OpenAI曾因声称GPT-5解决Erdos问题但被证实只是重发现已知结果而遭LeCun和Hassabis公开嘲讽。此次带着外部数学家的完整独立验证回归，标志着AI数学推理从"辅助发现"跃升至"独立原创"水平。

值得关注：
对AI Infra而言，AI攻克80年数学猜想意味着"推理即服务"的市场正在急剧扩大——不仅企业需要推理算力，前沿科学研究对高性能推理的需求同样在爆发。从数学证明到药物发现再到材料设计，AI推理正在突破人类认知边界，这将持续推动推理算力基础设施的扩容。

编辑：观天下 | 2026年5月26日 | 聚焦AI基础设施与超节点领域

数据来源：Blackstone官方公告、Benchmark研报、华为KADC 2026、阿里云峰会、智谱AI、Cursor官方、OpenAI研究博客等