2026年5月,华尔街被存储芯片的疯狂暴涨彻底打蒙了。美光科技过去12个月股价狂飙700%,市值突破8400亿美元。西部数据一年内暴涨900%。闪迪上演了上市以来涨3300%的终极造富神话,单日暴涨16%突破1560美元。无数踏空的投资者在深夜懊悔:错过了英伟达,为什么又错过了这波内存狂欢?
答案是一个被绝大多数人忽视的事实:AI系统真正面临的致命瓶颈,早已经不是算力了,而是Memory Wall——内存墙。
一线工程师已经发现了这个微妙的变化:在很多AI系统里,GPU的算力还没跑满,内存已经先崩了。一份复杂研报要跑几个小时甚至一整夜,Token消耗到数万级别后响应时间急剧上升。问题不是"算力不够",而是大模型卡在了"数据搬运"上。AI的核心瓶颈正在发生历史性转移,从Compute-centric(以计算为中心)转向Memory-centric(以内存与数据移动为中心)。
如果说2023到2025的主线是"GPU算力革命",那2026到2028很可能进入"内存架构革命"。
杀手是KV Cache。大模型在推理时每生成一个Token,都会保存对应的Key和Value用于后续的Attention计算。上下文越长,缓存越大。长上下文、Multi-Agent、持续会话、实时推理、多用户并发——这些趋势全部导致KV Cache爆炸式增长。一个70B级别的模型跑百万Token上下文再叠加高并发,KV Cache很容易瞬间膨胀到数百GB甚至TB级别。你不可能把所有数据都塞进HBM里。
HBM确实很强,但它有几个致命问题:成本极高、功耗极高、容量扩展极其困难、严重受制于CoWoS先进封装的产能。它像是城市里的顶级学区房——非常好,但不可能让所有数据都住进去。
于是AI系统被迫进入"分层内存时代"。Tier 0是HBM,超快超贵,存放最核心的即时计算数据。Tier 1是DDR5/CXL Memory,大容量高性价比。Tier 2是NVMe/SSD,更大更慢。未来AI系统的核心大考不再是"你有没有买到GPU",而是"哪些数据必须放在最快内存里"和"如何降低数据在各层之间的搬运成本"。
英伟达已经明确感受到了这个变化。在GTC 2026上,英伟达提出了POD-wide context memory——整个Rack/POD级别的共享上下文内存。Grace-Blackwell架构本质上就是把CPU和GPU通过超高带宽的NVLink-C2C焊在一起。它不卖单颗CPU,卖的是一整套"CPU+GPU+内存织物"的全栈解决方案。AI基础设施已经开始从GPU-centric转向Context-centric。
但NVLink是英伟达为自己修的"私家高铁"——极快,但你必须买全套车票,把所有计算死死锁定在英伟达的封闭黑盒里。而CXL(Compute Express Link)是AI时代的"通用货运网络",由Intel、AMD、Google、Meta等全行业共同推行的开放标准。它的核心使命不是帮某一家公司跑赢算力,而是解决全行业共同的噩梦——内存墙。
CXL带来了一个关键概念:Memory Pooling(内存池化)。过去每台服务器像一栋独立别墅自带水塔,未来整个数据中心变成一个共享水网系统。不管谁家的CPU、谁家的GPU,都可以动态共享一个巨大的外部内存池。GPU-A的HBM被KV Cache撑爆了,旁边GPU-B的内存却在闲置——因为无法动态共享,这些闲置内存变成了极其昂贵的"搁浅内存"。CXL解决的就是这个问题。
一个常见的问题是:DeepSeek V4不是通过MLA架构把KV Cache砍掉了80%到90%吗?为什么还需要CXL?答案是算法压缩和硬件池化不是互斥关系,而是双剑合璧。算法压缩到了极限,是对数据传输带宽的极度压榨。即使砍掉90%的KV Cache,跑百万Token长文本叠加数万并发时,剩下那10%依然会撑爆单机HBM。更致命的是,GPU-A压缩得再小,省下来的闲置内存依然无法给旁边的GPU-B使用。算法负责"节流",CXL负责"开源"。
对普通读者来说,这件事的信号是:AI产业链的利润正在从"GPU算力"向"内存和数据搬运"迁移。下一个英伟达级别的投资机会,可能不在GPU里,而在CXL Switch、Retimer芯片和内存池化基础设施里。
夜雨聆风