
在我十几岁的时候,我是家里唯一懂电脑的人,而且也是唯一的电脑发烧友。我记得当时我告诉父亲,我们需要把家里电脑的RAM从4MB升级到8MB。我记得他的反应是:
“我刚买了啊!怎么又需要买了?”
他说得没错。那时他刚买了一块 340MB 的电脑硬盘,确实增加了不少容量。但他并不清楚,内存和存储虽然计量单位一样,却是两种完全不同的两类硬件。在他看来,MB就是MB。不得不承认,当年主流容量单位还是MB,而非如今的GB、TB,可见这一误解开始的年代之久远。
而时至今日,这类认知误区依旧存在,如今更是直接影响到 AI 基础设施的架构设计。内存和存储仍然经常被混为一谈,这往往导致系统设计中出现错误假设。在投资市场中,WD经常被归入 “内存概念股”,可实际上机械硬盘(HDD)的核心用途是存储。
这和人类的认知逻辑相似:我们将过往经历视作 “长期记忆”,把“短期记忆”视为一种心理草稿本,用来存放我们在接下来几秒钟或几分钟内需要的东西。
因此我们需要重新厘清这一概念,区别清楚存储和内存在现代数据中心,以及当今AI工作流程中分别扮演什么角色。
易失性内存与持久化存储
两者的核心区别是易失性。虽然前面提到了股票市场,这里并非指波动率指数(VIX),而是区分硬件属于易失性还是非易失性。这也是内存和存储主要区别:
· 根据定义,内存具有短暂性:设备一旦断电,数据会彻底清空。这就是我们所称的“易失性”,即在所有条件下均无法长期存在于系统中。
· 存储具备持久性:断电后数据仍可保留。我们通常将闪存称为非易失性存储器(NVM),硬盘驱动器或磁带,都属于NVM。其核心预期是:所存储的数据无论在何种条件下都能保持可访问状态。
非易失性内存或存储,在许多情况下可以被用作内存。但易失性内存能被用作存储的情况非常罕见。从本质上讲,非易失性是存储设备的先决条件。
AI数据中心中的存储与内存
以AI场景下的现代数据中心为例,我们可以用一套简易准则区分内存与存储。这一区别在AI系统中尤为重要,因为数据流动与访问模式直接决定了系统的规模化性能表现。
计算架构通过广泛的网络连接在一起,使算力资源既能与其他算力资源通信,也能与数据通信。一个实用的启发式方法是:网络计算侧的资源承担内存、缓存角色,网络远端资源则作为存储使用。
然而,这条规则在细究之下也会出现例外。 在许多情况下,借助 NVMe-oF™、英伟达 GPUDirect® 等新一代高速互联架构,部分存储设备也可通过以太网互联架构充当内存或缓存。
而高速互联总线CXL的出现,实现了算力与内存资源的跨网解耦部署。这类资源即便部署在网络远端,依旧会被当作易失性内存来调用。
另一方面,在存储层级中有很多DRAM、闪存缓存常作为工作内存提升存储系统速度。但从计算架构的角度来看,这些资源并不发挥“内存”的作用,GPU与CPU无法直接访问。
因此,从AI数据中心的角度来看,我们可以将两者分开:内存位于网络的算力侧,而存储位于网络的另一侧。
性能与数据持久性
这种差异直接左右架构设计思路。如果将内存为易失性介质、数据依托存储做持久备份,基于这一特性,系统架构师可针对不同层级制定差异化的设计目标。在存储层级,持久性和数据完整性是重中之重,这意味着重点放在保障数据在多故障域下安全无损。行业通常结合纠删码与异地副本技术,确保数据丢失几乎无法发生。
在大规模部署中,这通常被称为软件定义存储(SDS),它通常需要算力资源来管理数据放置。对于纠删码,数据被分割成带有奇偶校验开销的“分片”。例如,在一个10+3的纠删码中,一个1MB的对象或文件将被分割成总共13个分片,总计1.3MB。这些分片将分布在多个存储设备上,只需13个中的10个即可重建原始数据。
因此,纠删码允许13个设备中有多达3个发生故障而不丢失数据。这与RAID在原理上相似,但在大规模下更高效,因为它不需要在一组静态的相同HDD上维持固定的“条带化”。在大型部署中,PB级的AI训练数据集将分布在数百甚至数千个独立的HDD上。
而在内存或缓存层级,性能是重中之重。在进行缓存时,被缓存的数据已经在存储层得到了保护,数据完整性在那里是有保障的。数据会根据预期的访问模式被移动到缓存层。在AI中,这可以是AI训练数据的临时缓冲区,也可以是推理时 KV 缓存所需的关键用户上下文数据。
在缓存层,系统架构师可以有意省略数据保护方案, 因为这不是必需的;数据已经在其他地方受到了保护。因此,为了保护数据完整性而产生的成本、开销和性能损耗均可免除。而放弃这些保护,能够有效降低延迟、提升每秒读写操作次数(IOPS)。
从架构的角度来看,这意味着AI存储架构师是基于数据持久性、故障域和总拥有成本(TCO)来做决定的,而AI内存/缓存架构师则是基于性能和延迟,以及他们AI软件堆栈的总体服务质量(QoS)来做决定的。
吞吐量与IOPS/延迟
在绝大多数 AI 工作负载中,最需要规避的问题就是GPU 空载。GPU是每一个AI数据中心的高价值组件,只有持续生成词元(Token),才算是在创造价值。然而,网络不同位置的硬件,保障GPU算力满载的设计思路也截然不同。
AI 训练场景下,GPU周边的DRAM与闪存作为缓冲区,承接来自存储层的训练数据,设计目标以吞吐量为主。缓冲区会提前预加载数据,避免上游链路瓶颈导致GPU算力空置。
在推理工作负载中则不同,用户请求随机且无规律,模型与KV 缓存无法依靠顺序吞吐运行,延迟与IOPS成为核心指标,因此DRAM和闪存成为主角。该缓存层采用扁平化架构,兼顾高性能、低开销与低成本。
然而,在网络的存储侧,在存储和GPU之间存在多层网络和数据中心基础设施。每一层设施,都可能增加数据从存储系统传输到算力系统的延迟和性能瓶颈。但为弹性而设计的存储架构反而带来了优势:那些确保数据弹性的架构——纠删码与复制——提升了数据的可用总吞吐量。
出于提升系统韧性的目的,AI训练数据通常采用分布式存储方式,一个训练集的数据可能会被分散存储在数百甚至数千块机械硬盘(HDD)上。尽管单块机械硬盘的延迟或性能无法与固态硬盘(SSD)相媲美,但整个硬件集群聚合起来的吞吐量,足以让缓存层始终保持满载状态,从而确保GPU不会算力空置。
在模型推理阶段,一旦开启新的会话,网络就会访问存储端,将相关的用户上下文数据拉取到KV缓存中。在实际推理过程中,大部分数据是由DRAM和闪存提供的;而底层的存储层则处于随时待命的状态,以防某些数据在缓存层中不存在,或者读取失败。
层级需求决定架构
AI 规模化部署场景下,厘清存储与内存的差异尤为关键。系统的瓶颈不再仅仅受限于算力,而在于数据能否在需要的时间和地点被高效地存储、保护和访问。
区分清楚内存与存储的差异绝非细枝末节的技术问题,而是搭建可永续扩容的 AI 基础设施的核心基石。
© 2026 Western Digital Corporation 或其关联公司,保留所有权利。WD、WD Design及NVMe-oF是 Western Digital Corporation 或其关联公司在美国和/或其他国家的注册商标或商标。此处提及的其他标识均为其各自所有者的财产。

夜雨聆风