AI Infra 消息速报 · 2026年05月15日

⚡ AI Infra 消息速报

2026-05-15 · 每日一报，聚焦前沿

[1] Cerebras 登陆纳斯达克：首日暴涨 108%，估值一度破千亿，晶圆级芯片押注推理未来硬件

2026 年美国最大科技 IPO 诞生。AI 芯片公司 Cerebras 正式上市，IPO 定价 185 美元，开盘跳涨至 385 美元，收盘 311 美元，单日涨幅 108%，估值一度触及 1000 亿美元。

核心武器 WSE-3（Wafer Scale Engine 3）：整块 300mm 晶圆级设计，4 万亿晶体管（NVIDIA B200 的 19 倍），90 万个 AI 优化核心，125 petaflops AI 算力（B200 的 28 倍），台积电 5nm 工艺。官方声称推理速度比 NVIDIA GPU 集群快 10～20 倍。

Infra 视角核心观点（CEO Feldman 路演三板斧）：

1. 推理需求将暴增 100 万倍

2. 算力并非只能靠 GPU

3. CUDA 的护城河被严重高估

重量级合同：OpenAI 签署超 200 亿美元多年合同，锁定 750 兆瓦 Cerebras 算力；AWS 宣布在自有数据中心部署 CS-3 并通过 Amazon Bedrock 开放；OpenAI 账面浮盈约 18 亿美元。接下来 SpaceX/OpenAI/Anthropic 三家合计估值超 3 万亿美元的 IPO 排队入场。

对 Infra 工程师的隐含信号：推理算力的多元化正在被资本大规模押注，GPU 以外的专用推理芯片赛道已从"技术概念"进入"大规模商用"拐点。

🔗 https://mp.weixin.qq.com/s/DVgu0M8ucqH0syu568HN7A

[2] SGLang（master 5/10～5/14）：ROCm DeepSeek-V4 Radix Cache TTFT -69% + NVFP4 热更新修复 + CPU AMX 后端框架

• AMD ROCm：DeepSeek-V4 Radix/Prefix Cache 启用（PR #25164, 5/14）：通过 `BaseSWAKVPool` 统一 SWA 与 V4 KV pool 接口，解除 prefill prefix cache 在 ROCm 上的限制；8×MI350X TP=8 基准测试，2K 共享系统 prompt 场景 TTFT P50 从 5355ms 降至 1682ms（-69%）

• NVFP4 热更新内存安全修复（PR #25190, 5/13）：`update_weights_from_disk` 第二次调用时原有实现会 AttributeError 或写入垃圾权重；引入 `alias_or_bind_derived_param` 让派生张量与源共享 buffer，保留 ~15 GiB/rank 省内存效果的同时修复热更新正确性

• Intel CPU AMX DeepSeek-V4 后端（PR #25258, 5/14）：新增 AMX 加速 kernel（Hadamard transform、MXFP4 MoE topk、MQA logits），将 V4 稀疏注意力 + MXFP4 量化路径接入 CPU inference pipeline

• Blackwell FP8 weight-only GEMM 默认开启（PR #25181, 5/14）：B200 上 DeepSeek-V4 工作负载验证通过，`SGLANG_OPT_FP8_WO_A_GEMM` 改为默认启用

🔗 https://github.com/sgl-project/sglang/commits/main

[3] Megatron-LM（master 5/13）：5/13 当天 8+ commits 合入，分布式 checkpoint + FP8 训练 + MoE 路由优化框架

• 5/13 单日 8 个 commit 合入 main，5/12 前后持续高频迭代（每日 10+ commits），近期重点方向：分布式 checkpoint 稳定性、FP8 训练路径优化、MoE expert routing 改进

• 国产芯片 Megatron 适配（FlagScale/MindSpeed 等）需持续跟进这些合入，及时确认接口兼容性

🔗 https://github.com/NVIDIA/Megatron-LM/commits/main

[4] OpenClaw-RL（5/12 新项目）：全异步 RL 框架，从自然对话反馈训练个性化 Agent 框架

• 全异步 RL 框架：完全解耦 rollout 与训练，通过自然对话反馈训练 agent 个性偏好

• 适用于 RLHF 场景的异步 pipeline：可借鉴其架构拆分思路优化大规模 RL 训练的 GPU 利用率

🔗 https://github.com/Gen-Verse/OpenClaw-RL

[5] KV-Fold：无需训练的长上下文 KV Cache 递归，128K tokens @ 40GB GPU 100% 检索准确率训练推理算法

算法改进：KV-Fold 将 KV cache 视为序列分块上的 left fold 累积器——每步处理下一个 chunk，将新产生的 key/value 追加到累积 cache 并向前传递，模型对当前 chunk 做注意力时以历史 cache 为 prefix。整个过程复用多智能体通信中的 KV cache concatenation 原语，无需任何结构改动或微调。

质量/效率收益：Llama-3.1-8B 上 needle-in-haystack 测试：16K～128K tokens、chain depth 最深 511，100% exact-match 检索（152 次实验），全程控制在单张 40GB GPU 显存内；对精度变化、chunk 大小、模型族均鲁棒。

pipeline/serving 适配：完全 training-free，只需在现有推理框架中支持 KV cache concatenation 作为 prefill prefix 即可启用；对国产芯片 HBM 带宽受限场景意味着可通过分块递归降低单步显存峰值，避免一次性加载超长上下文。

🔗 https://arxiv.org/abs/2605.12471

[6] Patterns behind Chaos：大规模 MoE LLM Inference 数据移动分析，wafer-scale GPU 6.6x / 现有 GPU 1.25x 加速训练推理算法

算法改进：针对 200B～1000B 参数的 4 个主流 MoE 模型（24,000+ 请求），从时间和空间维度对 expert selection 驱动的数据移动做全面 profiling，提炼出 6 条关键洞察：expert 选择并非完全随机而有可预测模式，可指导 prefill-aware expert placement。

质量/效率收益：wafer-scale GPU 架构 4 模型平均 6.6x 加速；现有 GPU 集群 prefill-aware expert placement 最高 1.25x 加速。

pipeline/serving 适配：expert placement 优化直接影响 EP 通信量，可结合 vLLM/SGLang 的 EP 路由策略落地；对国产芯片多卡集群意义重大：通过数据移动预测减少 all-to-all 通信次数，降低对 HBM 带宽和片间互联的压力。

🔗 https://arxiv.org/abs/2510.05497

[7] GitHub 热榜 Top 3：local-deep-research / cocoindex / PageIndex 框架

本周 AI Infra 相关项目 Top 3：

local-deep-research（LearningCircuit）：95% SimpleQA 准确率的本地深度研究引擎，支持 llama.cpp/Ollama + 10+ 搜索源（arXiv/PubMed/本地文档），全本地+加密，高速增长

cocoindex（cocoindex-io）：面向长周期 Agent 的增量数据引擎，ETL 结果自动增量更新，避免全量重建，持续高增

PageIndex（VectifyAI）：无向量化的推理式 RAG 文档索引，用 LLM 直接理解文档结构，降低向量数据库依赖，快速增长

这些工具在实际工作中怎么用：

• local-deep-research：查技术文档、arXiv 论文、私有代码库时比普通搜索更深入；支持离线运行，适合保密研究场景

• cocoindex：维护 RAG 知识库时只重算变更文档的向量，避免每次全量重建；特别适合持续接入新文档的 AI Agent 工作流

• PageIndex：对技术规范/API 文档/合同做免向量检索，减少 embedding 层的错位误差，适合精度要求高的文档 QA 场景

🔗 https://github.com/trending

[8] When Quantization Is Free：Apple Silicon 统一内存上 int4 KV cache 比 fp16 更快（arXiv 2605.05699）训练推理算法

单个融合 Metal kernel（sign-randomized FFT + per-channel lambda + per-group abs-max + int4 nibble pack）在 Apple Silicon 统一内存架构下实现 int4 KV cache 比 fp16 速度更快：量化压缩减少了内存带宽消耗，而统一内存特性使压缩收益放大。核心洞察可迁移到其他带宽受限的芯片平台（含国产芯片统一内存架构）——量化不总是精度-速度 trade-off，在带宽受限场景可能是无损加速。

🔗 https://arxiv.org/abs/2605.05699

由 dodo · AI Infra 消息速报自动生成 | 2026-05-15