月之暗面最新论文:AI推理即将打破数据中心的围墙

当你向 Kimi 提一个问题，背后可能有两个相距千里的数据中心在默契配合——一个负责"理解"你的问题，另一个负责"回答"你。

这不是科幻，这是月之暗面（Moonshot AI）联合清华大学刚发布的最新论文提出的新架构：Prefill-as-a-Service（PrfaaS）。

这篇论文解决的是一个行业级的工程难题：怎么让大模型推理突破单个数据中心的物理限制，实现跨机房协作？ 答案既优雅又实用。

大模型推理分两个阶段，就像考试的"读题"和"答题"：

Prefill（预填充）= 读题阶段

• 把你输入的所有文字一口气"读完"
• 计算量巨大，需要猛算——像学霸快速扫完整张试卷
• 生成一个叫 KVCache 的"记忆包"

Decode（解码）= 答题阶段

• 一个字一个字地往外"吐"答案
• 计算量不大，但需要频繁读内存——像在草稿纸上反复翻找

这两个阶段对硬件的需求完全不同：读题需要"算力猛兽"，答题需要"内存大户"。

现状的痛点：被困在同一个机房里

目前业界的标准做法是 PD 分离——用不同的 GPU 分别干"读题"和"答题"的活。这个思路是对的，但有个致命限制：

读完题后，要把"记忆包"（KVCache）从读题机器传到答题机器。

问题来了：传统模型的 KVCache 太大了。

论文给了一组惊人的数据：一个传统密集注意力模型（MiniMax-M2.5），处理 32K token 的请求时，单个实例产生 KVCache 的速率高达 60 Gbps。这比绝大多数跨机房网络的带宽还大。

这意味着什么？读题和答题的机器必须放在同一个高速网络里（RDMA 级别），本质上就是同一个机房。你想用 A 机房的算力猛兽读题、B 机房的内存大户答题？不行，网络扛不住。

转机：新一代模型架构"减肥"成功

突破口不是来自网络升级，而是来自模型架构的变革。

新一代的"混合注意力"模型（比如 Kimi 的线性注意力架构、Qwen3.5 的混合架构等），用了一个聪明的设计：

• 大部分层用线性复杂度的注意力（计算快、KVCache 小）
• 少数层保留完整注意力（保证质量）

比如 Ring-2.5-1T 模型的混合比是 7:1——每 8 层里只有 1 层是"重量级"全注意力。

效果立竿见影。同样 32K token 的请求：

• MiniMax-M2.5（传统模型）：60 Gbps
• MiMo-V2-Flash（混合模型）：4.66 Gbps

KVCache 的传输需求直降 13 倍。 Ring-2.5-1T 更夸张，综合压缩达到 36 倍。

跨机房传输突然变得可行了。

PrfaaS 的核心思路：不是全都搬，而是挑着搬

但论文的关键洞察是：光靠模型瘦身还不够。

即使 KVCache 缩小了一个数量级，如果把所有请求都发到远程机房去"读题"，仍然会遇到：

• 流量突发导致拥塞
• 短请求白白占用带宽（本地处理更快）
• 前缀缓存分布不均匀
• 跨机房带宽波动

PrfaaS 的解法是 选择性卸载——三个关键机制：

1. 长度阈值路由：只发大活

设定一个阈值 t。只有"读题量"超过 t 的长上下文请求才发到远程 PrfaaS 集群。短请求留在本地处理。

为什么？因为短请求本来就快，跨网络传输的延迟反而得不偿失。长请求才是真正值得用远程算力猛兽加速的。

2. 带宽感知调度：看路况开车

实时监测跨机房链路的拥塞状况。当带宽紧张时，提高卸载阈值，减少跨网络传输；当带宽充裕时，降低阈值，多利用远程算力。

3. 全局缓存管理：记住谁有什么

一个全局 KVCache 管理器跟踪所有集群中缓存的位置。如果某个请求的前缀已经缓存在远程集群了，那直接在那里补算增量部分——只传增量的 KVCache，进一步减少传输量。

混合前缀缓存池：一个巧妙的工程细节

混合注意力模型给缓存管理带来了新挑战：

• 线性注意力层的状态是请求级的——大小固定，只有完全匹配才能复用
• 全注意力层的 KVCache 是块级的——随输入增长，支持前缀部分匹配

论文设计了一个统一的混合缓存池，用两类缓存块分别管理：

• 前缀缓存块：可跨请求复用，必须完整填充
• 传输缓存块：临时存放跨集群传输的 KVCache，传完即丢

这个设计让两种截然不同的缓存类型共享同一个内存池，既灵活又高效。

实战效果：用 1 万亿参数模型验证

论文用 Moonshot AI 内部的 1T 参数混合模型（基于 Kimi Linear 架构）做了实战测试。

部署方式：

• 一个 PrfaaS 集群：专门处理长上下文"读题"
• 一个常规 PD 集群：处理短请求 + 所有"答题"
• 两个集群通过普通以太网连接

结果：

• 比同构 PD 部署吞吐量提升 54%
• 比"傻瓜式"异构部署吞吐量提升 32%
• 跨机房带宽消耗：适中

更具体地算：512 个 H200 GPU 的 PrfaaS 集群，处理 32K 平均长度的请求，只需要约 170 Gbps 的跨机房带宽。如果只路由 128K 以上的超长请求，带宽需求降到 100 Gbps 以下。即使扩展到万卡规模，总出口带宽也只有约 1.8 Tbps——现代数据中心间的物理链路完全能承受。

这篇论文真正重要的地方

表面上看，PrfaaS 是一个推理系统优化的工程论文。但它揭示的趋势更深远：

1. 模型架构决定部署架构

不是系统工程师在适配模型，而是模型架构的变革直接打开了新的部署范式。混合注意力让 KVCache 从 60 Gbps 降到 5 Gbps，这不是量变，是质变。

2. 异构计算终于能落地了

NVIDIA 的 Rubin CPX（主打算力）和 Groq 的 LPU（主打内存带宽）终于可以各自发挥所长，而不用被强行塞进同一个机房。

3. AI 推理正在变成"云原生"的

Prefill-as-a-Service——光看这个名字就知道，大模型推理正在走向微服务化。读题和答题不仅可以分开，还可以跨地域、跨云、按需弹性扩缩。

4. 行业风向标

这篇论文来自月之暗面和清华大学。月之暗面就是 Kimi 和 Mooncake 推理框架的开发者。他们之前的 Mooncake 论文已经是 PD 分离的重要推动者，这次是把边界再往外推了一大步。

一句话总结

新一代混合注意力模型让 KVCache "瘦身" 36 倍，加上选择性卸载和智能调度，大模型推理终于可以跨数据中心协作了——吞吐量暴涨 54%，而跨机房带宽消耗完全可控。

这不只是一个工程优化。这是 AI 基础设施从"单体"走向"分布式"的又一个标志性时刻。

最有价值的是把目前有挑战的国产卡用于Decode(^.^)

论文信息：

• 标题：Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter
• 作者：Ruoyu Qin 等（Moonshot AI、清华大学）
• arXiv: 2604.15039
• 发布日期：2026年4月16日