当你向 Kimi 提一个问题,背后可能有两个相距千里的数据中心在默契配合——一个负责"理解"你的问题,另一个负责"回答"你。
这不是科幻,这是月之暗面(Moonshot AI)联合清华大学刚发布的最新论文提出的新架构:Prefill-as-a-Service(PrfaaS)。
这篇论文解决的是一个行业级的工程难题:怎么让大模型推理突破单个数据中心的物理限制,实现跨机房协作? 答案既优雅又实用。
大模型推理分两个阶段,就像考试的"读题"和"答题":
Prefill(预填充)= 读题阶段
- • 把你输入的所有文字一口气"读完"
- • 计算量巨大,需要猛算——像学霸快速扫完整张试卷
- • 生成一个叫 KVCache 的"记忆包"
Decode(解码)= 答题阶段
- • 一个字一个字地往外"吐"答案
- • 计算量不大,但需要频繁读内存——像在草稿纸上反复翻找
这两个阶段对硬件的需求完全不同:读题需要"算力猛兽",答题需要"内存大户"。
现状的痛点:被困在同一个机房里
目前业界的标准做法是 PD 分离——用不同的 GPU 分别干"读题"和"答题"的活。这个思路是对的,但有个致命限制:
读完题后,要把"记忆包"(KVCache)从读题机器传到答题机器。
问题来了:传统模型的 KVCache 太大了。
论文给了一组惊人的数据:一个传统密集注意力模型(MiniMax-M2.5),处理 32K token 的请求时,单个实例产生 KVCache 的速率高达 60 Gbps。这比绝大多数跨机房网络的带宽还大。
这意味着什么?读题和答题的机器必须放在同一个高速网络里(RDMA 级别),本质上就是同一个机房。你想用 A 机房的算力猛兽读题、B 机房的内存大户答题?不行,网络扛不住。
转机:新一代模型架构"减肥"成功
突破口不是来自网络升级,而是来自模型架构的变革。
新一代的"混合注意力"模型(比如 Kimi 的线性注意力架构、Qwen3.5 的混合架构等),用了一个聪明的设计:
- • 大部分层用线性复杂度的注意力(计算快、KVCache 小)
- • 少数层保留完整注意力(保证质量)
比如 Ring-2.5-1T 模型的混合比是 7:1——每 8 层里只有 1 层是"重量级"全注意力。
效果立竿见影。同样 32K token 的请求:
- • MiniMax-M2.5(传统模型):60 Gbps
- • MiMo-V2-Flash(混合模型):4.66 Gbps
KVCache 的传输需求直降 13 倍。 Ring-2.5-1T 更夸张,综合压缩达到 36 倍。
跨机房传输突然变得可行了。
PrfaaS 的核心思路:不是全都搬,而是挑着搬
但论文的关键洞察是:光靠模型瘦身还不够。
即使 KVCache 缩小了一个数量级,如果把所有请求都发到远程机房去"读题",仍然会遇到:
- • 流量突发导致拥塞
- • 短请求白白占用带宽(本地处理更快)
- • 前缀缓存分布不均匀
- • 跨机房带宽波动
PrfaaS 的解法是 选择性卸载——三个关键机制:
1. 长度阈值路由:只发大活
设定一个阈值 t。只有"读题量"超过 t 的长上下文请求才发到远程 PrfaaS 集群。短请求留在本地处理。
为什么?因为短请求本来就快,跨网络传输的延迟反而得不偿失。长请求才是真正值得用远程算力猛兽加速的。
2. 带宽感知调度:看路况开车
实时监测跨机房链路的拥塞状况。当带宽紧张时,提高卸载阈值,减少跨网络传输;当带宽充裕时,降低阈值,多利用远程算力。
3. 全局缓存管理:记住谁有什么
一个全局 KVCache 管理器跟踪所有集群中缓存的位置。如果某个请求的前缀已经缓存在远程集群了,那直接在那里补算增量部分——只传增量的 KVCache,进一步减少传输量。
混合前缀缓存池:一个巧妙的工程细节
混合注意力模型给缓存管理带来了新挑战:
- • 线性注意力层的状态是请求级的——大小固定,只有完全匹配才能复用
- • 全注意力层的 KVCache 是块级的——随输入增长,支持前缀部分匹配
论文设计了一个统一的混合缓存池,用两类缓存块分别管理:
- • 前缀缓存块:可跨请求复用,必须完整填充
- • 传输缓存块:临时存放跨集群传输的 KVCache,传完即丢
这个设计让两种截然不同的缓存类型共享同一个内存池,既灵活又高效。
实战效果:用 1 万亿参数模型验证
论文用 Moonshot AI 内部的 1T 参数混合模型(基于 Kimi Linear 架构)做了实战测试。
部署方式:
- • 一个 PrfaaS 集群:专门处理长上下文"读题"
- • 一个常规 PD 集群:处理短请求 + 所有"答题"
- • 两个集群通过普通以太网连接
结果:
- • 比同构 PD 部署吞吐量提升 54%
- • 比"傻瓜式"异构部署吞吐量提升 32%
- • 跨机房带宽消耗:适中
更具体地算:512 个 H200 GPU 的 PrfaaS 集群,处理 32K 平均长度的请求,只需要约 170 Gbps 的跨机房带宽。如果只路由 128K 以上的超长请求,带宽需求降到 100 Gbps 以下。即使扩展到万卡规模,总出口带宽也只有约 1.8 Tbps——现代数据中心间的物理链路完全能承受。
这篇论文真正重要的地方
表面上看,PrfaaS 是一个推理系统优化的工程论文。但它揭示的趋势更深远:
1. 模型架构决定部署架构
不是系统工程师在适配模型,而是模型架构的变革直接打开了新的部署范式。混合注意力让 KVCache 从 60 Gbps 降到 5 Gbps,这不是量变,是质变。
2. 异构计算终于能落地了
NVIDIA 的 Rubin CPX(主打算力)和 Groq 的 LPU(主打内存带宽)终于可以各自发挥所长,而不用被强行塞进同一个机房。
3. AI 推理正在变成"云原生"的
Prefill-as-a-Service——光看这个名字就知道,大模型推理正在走向微服务化。读题和答题不仅可以分开,还可以跨地域、跨云、按需弹性扩缩。
4. 行业风向标
这篇论文来自月之暗面和清华大学。月之暗面就是 Kimi 和 Mooncake 推理框架的开发者。他们之前的 Mooncake 论文已经是 PD 分离的重要推动者,这次是把边界再往外推了一大步。
一句话总结
新一代混合注意力模型让 KVCache "瘦身" 36 倍,加上选择性卸载和智能调度,大模型推理终于可以跨数据中心协作了——吞吐量暴涨 54%,而跨机房带宽消耗完全可控。
这不只是一个工程优化。这是 AI 基础设施从"单体"走向"分布式"的又一个标志性时刻。
最有价值的是 把目前有挑战的国产卡用于Decode(^.^)
论文信息:
- • 标题:Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter
- • 作者:Ruoyu Qin 等(Moonshot AI、清华大学)
- • arXiv: 2604.15039
- • 发布日期:2026年4月16日
夜雨聆风