AI 把存储栈打爆了:下一个十年的基建赢家正在重写它
一、先看几个让人头皮发麻的数字
如果你最近在做 AI 相关的工程,可能已经被一些数字反复撞击过——
DeepSeek V3 有 671B 参数,FP16 存储 ≈ 1.3 TB。一张 H100 的 HBM 只有 80GB。 Llama 70B 跑 1M token 的长上下文,单个 session 的 KV Cache 就要 80 GB。 LLaMA 3 训练用了 15T tokens,原始数据集 几十 TB。 671B 大模型 一次完整 checkpoint 5 TB,训练里每小时存一次。 千亿向量库(每个 768 维 FP16)≈ 150 TB。
这是什么概念?
把这些数字摆到一起你会发现一件事——AI 工作负载已经把"装在单机内存里"这个延续了几十年的范式彻底打爆了。
不是慢慢挤压,是直接打爆。
二、传统存储架构的三个假设,全都崩了
回想一下,过去十几年我们设计存储系统时,有三个不言自明的前提:
1. “热数据装得进单机内存” —— 所以 Redis、Memcached、所有 in-memory 数据库都赌这个 2. “盘和服务器是一对一绑定” —— 所以 RocksDB、LSM Tree、所有本地存储都按这个来 3. “网络比本地慢一个数量级” —— 所以分布式系统总是想方设法避免跨节点访问
这三个假设在 AI 工作负载面前全部失效:
旧范式不是"性能不够",是前提就错了。
继续在旧框架里优化,就像拿着算盘想算 GPT 的注意力——再快也是错的工具。
三、AI 工作负载到底要什么?
先把痛点拆细,看看每个场景具体卡在哪。
1. LLM 推理:KV Cache 是噩梦
vLLM、SGLang、TensorRT-LLM 这些推理引擎,最大的工程瓶颈不是算力,是 KV Cache 装不下。
单台 H100 服务器的 HBM 现状:┌──────────────────────────────────────┐│ 模型权重 (40GB) ← 固定不动 ││ ─────────────────────────────────── ││ KV Cache (40GB) ← 动态分配 ││ 要分给 N 个并发 session ││ 长 context 时秒爆 │└──────────────────────────────────────┘往 CPU 内存 offload?PCIe 拷贝几十微秒,吃不消。 往 SSD offload?10 微秒级延迟,更不行。
KV Cache 是每次推理 forward 都要访问的热数据,offload 的延迟必须在百纳秒以内。
这个甜区只有一个候选:CXL 内存池。
2. 训练数据加载:IO 喂不饱 GPU
H100 的算力是 1979 TFLOPS(FP16)。要让它满载,每秒至少要喂 40-100 GB 的训练数据。
传统流水线 (低效):SSD → CPU 内存 → cudaMemcpy → GPU 显存 (~1 GB/s) (~10 GB/s) ↑ 整条管道被 SSD 卡死8 张 H100 的服务器要 300+ GB/s 的数据吞吐才能不饿肚子。本地盘做不到,必须远端 NVMe pool + GPUDirect Storage。
3. Checkpoint:训练的"暂停时刻"
训 671B 模型一次 checkpoint 5TB。
写本地 SSD:1 GB/s × 5TB ≈ 80 分钟,期间训练卡死 写传统网盘:更慢 不存 checkpoint:单点故障一来损失数十万美金
异步 checkpoint + NVMe-oF + RDMA 是唯一解:写穿到远端存储池,训练几乎不暂停。
4. 向量检索:内存装不下的索引
千亿向量库 = 数十 TB。
向量检索的访问模式是高频小粒度随机访问,延迟要求在毫秒级。这个需求精准卡在 CXL 内存池 + NVMe-oF 二级存储 的射程里。
5. Agent 时代的长期记忆
每个 Agent 都需要跨 session、可持久化、可检索、可共享的长期记忆。
像 Redis 一样的接口 像 PostgreSQL 一样的持久化 像 ElasticSearch 一样的检索 像 S3 一样的容量
现成的没有任何一个产品满足这些需求。这个赛道几乎是空的。
旧的存储栈应付不了上面任何一个场景。新的栈正在被四块新硬件慢慢拼出来。
四、四块拼图:重新拼出 AI 时代的存储栈
拼图 1:PCIe 5 NVMe + io_uring —— 把 SSD 用到极限
PCIe 5 时代的硬件数字(2026):
| PCIe 5 NVMe(单盘) | ~12-14 GB/s | 1.5M+ | ~10 μs |
| 100+ GB/s | 10M+ |
单块 PCIe 5 NVMe + io_uring 的 IOPS,已经是单线程 Redis QPS 的 7-8 倍。
io_uring 是 Linux 内核的异步 IO 框架,把"提交 IO"和"等待完成"完全解耦,单核就能打满几百万 IOPS——而传统 syscall 模型,单核 100K IOPS 就到顶了。
结论:以前"必须放内存"的数据,现在很多都可以放 NVMe,性能没掉太多,成本掉了 10×。
拼图 2:CXL —— “远端内存 ≈ 本地内存”
CXL(Compute Express Link)基于 PCIe 物理层,但是用 load/store 语义访问外部设备的内存——CPU 用 mov 指令直接读写,硬件维护 cache coherent,对软件完全透明。
延迟梯度:
| CXL 1.1 直连内存 | ~150-200 ns | |
| CXL 3.0 跨节点内存池 | ~500-700 ns | |
CXL 精准卡在了 “DDR 太贵不够用,SSD 又太慢” 的中间地带。
对 AI 来说这是天赐的中间层:
KV Cache 装不下 HBM?放 CXL pool(500ns,远比 PCIe 拷贝快) 模型权重多实例共享?放 CXL pool,多 GPU 服务器共用同一份 千亿向量索引装不下 DDR?放 CXL pool,ANN 算法对 500ns 延迟完全可接受
杀手级应用是内存池化。Meta 的 Pond 项目已经在生产部署,能省 7-9% 的内存成本。
拼图 3:NVMe-oF over RDMA —— “远端 SSD ≈ 本地 SSD”
NVMe-oF (NVMe over Fabrics) 把 NVMe 协议跑在网络上,用 RDMA 做传输——网卡直接读写远端内存,不经过 CPU、不经过内核。
延迟对比:
| NVMe-oF / RDMA | ~30-50 μs |
远端 SSD 只比本地多 20μs——这个差距在很多 AI 场景下完全可忽略。
后果:盘和服务器彻底解耦。GPU 服务器(一台 GB200 NVL72 ~ 300 万美金)不再需要插一堆本地盘。
拼图 4:DPU + GPUDirect Storage —— 数据直送 GPU
NVIDIA BlueField、Intel IPU、AWS Nitro 这些 DPU,把"数据通路"完全卸载到独立处理单元。
最杀手级的应用:GPUDirect Storage (GDS)。
传统流水线:SSD → DMA → CPU 内存 → cudaMemcpy → GPU 显存 1 hop 1 hop CPU 是瓶颈GDS + NVMe-oF + DPU:NVMe pool → RDMA → DPU → 直接进 GPU 显存 ↑ 完全绕过 CPU,零拷贝实际效果:DGX H100 + WekaIO 的方案,数据读取吞吐 200+ GB/s,能喂饱 8 张 H100 的训练胃口。
Host CPU 100% 给业务用,存储栈零开销。
五、新架构范式:分解式 AI 基础设施
云厂商管这套架构叫 Disaggregated Infrastructure(分解式基础设施)。
┌────────── GPU 计算层(无状态) ──────────┐│ H100 / GB200,几乎不带本地存储 ││ 连接:NVLink (内) + 400G RDMA (外) │└────┬───────────────────────────────┬─────┘ │ CXL 3.0 │ NVMe-oF / RDMA ↓ ↓┌─ CXL 内存池 (TB-PB级) ─┐ ┌─ NVMe 存储池 (PB级) ─┐│ KV Cache │ │ 训练数据 ││ 模型权重温层 │ │ Checkpoint ││ 向量索引热层 │ │ 向量索引中层 ││ 延迟 ~500ns │ │ 延迟 ~30μs │└────────────────────────┘ └────────┬──────────────┘ │ ↓ ┌─ S3 / 对象存储 (∞) ─┐ │ 数据集归档 │ │ 模型权重发布 │ │ 历史 checkpoint │ └─────────────────────┘每一层之间的速度差只有 5-30×,性能曲线非常平滑。没有传统架构那种"DDR 命中飞快、miss 一下掉到 S3 卡几十毫秒"的剧烈跌落。
更重要的是——计算节点彻底无状态:
加节点:拉起容器 → 注册到 fabric → 立刻能干活 减节点:直接关,没有任何状态丢失 故障转移:另一台机器秒级接管,因为数据本来就不在它身上
这是 AI 服务能真正做"按 token 弹性计费"的底层基础。
六、几个最值得关注的方向
如果你在思考"做点什么 AI infra 相关的事",下面这几个方向我觉得接下来 2-3 年会爆发:
1. KV Cache 数据库(我最看好)
LLM 推理的 KV cache 现在还是各家推理引擎各搞一套(vLLM、TensorRT-LLM、SGLang),缺乏统一的"持久化 + 跨节点共享 + 自动分层"基础设施。
谁做出 “KV Cache 界的 Redis”,谁就拿大蛋糕。
已有早期项目:LMCache(开源)、Mooncake(Kimi 论文)、DeepSeek 相关 paper。
但还没有事实标准。这是百亿美金级的赛道。
2. 推理引擎的内存管理
vLLM 的 PagedAttention 是把 OS 的虚拟内存思想搬到 GPU。下一步:支持 CXL 多层,自动 page 迁移。
工程量不大,效果立竿见影。
3. AI 时代的 Lakehouse
传统数据湖(Iceberg、Delta、Hudi)是为 BI 分析设计的。AI 训练的数据湖需要:
Multimodal(图像、视频、音频混合) 高吞吐流式读 训练 batch 友好的数据布局 Embedding 索引一体化
Lance、DuckLake、Mosaic Streaming 都在尝试,但都还没成型。
4. Agent 长期记忆基础设施
Agent 时代每个 Agent 都要长期记忆,且要能跨 Agent 共享。统一的 Agent Memory Store 是个巨大空缺。
谁先做出来谁就成为"Agent 时代的 Redis"。
5. 向量数据库的存储层重写
Milvus、Qdrant、Pinecone 现在的存储层还很传统。用 CXL pool + NVMe-oF 重构一遍,能把成本打掉一个数量级。
老玩家路径依赖太重,新玩家有机会从零开始。
6. AI 原生的对象存储
S3 是为 web 时代设计的。AI 时代的对象存储需要:
训练数据流式访问优化 多模态预处理嵌入 GPU 直读支持 Checkpoint 快速保存
Tigris、Cloudflare R2 在路上。但巨大优化空间还没人填。
七、泼点冷水:现状没你想的那么乐观
虽然方向清楚,但短期内不要太兴奋。
| CXL 价格 | |
| 生态 | |
| NUMA 复杂度 | |
| 故障域 | |
| NVMe-oF 网络要求 | |
| 运维复杂度 |
真实生产环境大规模铺开估计要 2027-2028。
但这不影响你今天就开始做架构准备——3 年后再追,机会窗口已经关上了。
八、为什么这一波尤其值得押注
这一波 AI 浪潮和上一波(移动互联网)有个本质区别:
上一波:软件吃硬件这一波:硬件追不上软件
移动互联网时代,iPhone 4 的硬件已经过剩,软件慢慢消化了 10 年。Redis 用了好几年才把 NVMe 用起来。
AI 时代完全反过来——
GPT-5 的需求把 H100 全部打爆 HBM3e 一出来就供不应求 CXL/NVMe-oF/RDMA 全在被催着上 模型每年大 10×,硬件每两年快 2×
软件的需求曲线远远跑在硬件的供给曲线前面。这意味着每一项硬件创新一落地,就有大批软件等着用,根本不需要"教育市场"。
这种局面对做基础设施的人是黄金时机:
• 新硬件需要新的软件抽象 → 系统级机会 • 旧软件无法跑在新硬件上 → 重写机会 • 新工作负载需要新的存储/内存模型 → 范式机会 • 大模型客户愿意为性能付钱 → 商业机会
九、写在最后
我把整个故事的脉络再画一遍:
HDD 时代 → 全内存设计是最优解NVMe + 多核时代 → SSD 持久化数据库重新定义存储PCIe 5 + io_uring → SSD 吞吐已超内存CXL + NVMe-oF → 内存和盘都能"远端化"AI 时代 → 这一切叠加成新基础设施需求每一波硬件演进,都让上一代设计的前提崩塌。
而 AI,是这个崩塌过程的最大放大器。
如果你在思考接下来 5 年做点什么,做存储、内存、IO 相关的基础设施可能是程序员能赌到的最大窗口之一。机会不是再优化一个 Redis、再快一个 RocksDB——这种 small problem 价值已经被 EloqKV、Dragonfly、Garnet 们瓜分得差不多了。
真正的机会是:
为 LLM、Agent、向量这种新型负载,重新设计一套存储 + 内存 + IO 的体系。
CXL 让"远端内存"可行,NVMe-oF 让"远端 SSD"可行,DPU 让"零开销 IO"可行,io_uring 让"百万 IOPS 单核"可行。把这些拼起来,做一套配合 AI 工作负载的新基建——这才是接下来 5 年最值得做的事。
下一波,你想站在哪一边?
夜雨聆风