AI工作流中存储与内存的差异

在我十几岁的时候，我是家里唯一懂电脑的人，而且也是唯一的电脑发烧友。我记得当时我告诉父亲，我们需要把家里电脑的RAM从4MB升级到8MB。我记得他的反应是：

“我刚买了啊！怎么又需要买了？”

他说得没错。那时他刚买了一块 340MB 的电脑硬盘，确实增加了不少容量。但他并不清楚，内存和存储虽然计量单位一样，却是两种完全不同的两类硬件。在他看来，MB就是MB。不得不承认，当年主流容量单位还是MB，而非如今的GB、TB，可见这一误解开始的年代之久远。

而时至今日，这类认知误区依旧存在，如今更是直接影响到 AI 基础设施的架构设计。内存和存储仍然经常被混为一谈，这往往导致系统设计中出现错误假设。在投资市场中，WD经常被归入 “内存概念股”，可实际上机械硬盘（HDD）的核心用途是存储。

这和人类的认知逻辑相似：我们将过往经历视作 “长期记忆”，把“短期记忆”视为一种心理草稿本，用来存放我们在接下来几秒钟或几分钟内需要的东西。

因此我们需要重新厘清这一概念，区别清楚存储和内存在现代数据中心，以及当今AI工作流程中分别扮演什么角色。

易失性内存与持久化存储

两者的核心区别是易失性。虽然前面提到了股票市场，这里并非指波动率指数（VIX），而是区分硬件属于易失性还是非易失性。这也是内存和存储主要区别：

· 根据定义，内存具有短暂性：设备一旦断电，数据会彻底清空。这就是我们所称的“易失性”，即在所有条件下均无法长期存在于系统中。

· 存储具备持久性：断电后数据仍可保留。我们通常将闪存称为非易失性存储器（NVM），硬盘驱动器或磁带，都属于NVM。其核心预期是：所存储的数据无论在何种条件下都能保持可访问状态。

非易失性内存或存储，在许多情况下可以被用作内存。但易失性内存能被用作存储的情况非常罕见。从本质上讲，非易失性是存储设备的先决条件。

AI数据中心中的存储与内存

以AI场景下的现代数据中心为例，我们可以用一套简易准则区分内存与存储。这一区别在AI系统中尤为重要，因为数据流动与访问模式直接决定了系统的规模化性能表现。

计算架构通过广泛的网络连接在一起，使算力资源既能与其他算力资源通信，也能与数据通信。一个实用的启发式方法是：网络计算侧的资源承担内存、缓存角色，网络远端资源则作为存储使用。

然而，这条规则在细究之下也会出现例外。在许多情况下，借助 NVMe-oF™、英伟达 GPUDirect® 等新一代高速互联架构，部分存储设备也可通过以太网互联架构充当内存或缓存。

而高速互联总线CXL的出现，实现了算力与内存资源的跨网解耦部署。这类资源即便部署在网络远端，依旧会被当作易失性内存来调用。

另一方面，在存储层级中有很多DRAM、闪存缓存常作为工作内存提升存储系统速度。但从计算架构的角度来看，这些资源并不发挥“内存”的作用，GPU与CPU无法直接访问。

因此，从AI数据中心的角度来看，我们可以将两者分开：内存位于网络的算力侧，而存储位于网络的另一侧。

性能与数据持久性

这种差异直接左右架构设计思路。如果将内存为易失性介质、数据依托存储做持久备份，基于这一特性，系统架构师可针对不同层级制定差异化的设计目标。在存储层级，持久性和数据完整性是重中之重，这意味着重点放在保障数据在多故障域下安全无损。行业通常结合纠删码与异地副本技术，确保数据丢失几乎无法发生。

在大规模部署中，这通常被称为软件定义存储（SDS），它通常需要算力资源来管理数据放置。对于纠删码，数据被分割成带有奇偶校验开销的“分片”。例如，在一个10+3的纠删码中，一个1MB的对象或文件将被分割成总共13个分片，总计1.3MB。这些分片将分布在多个存储设备上，只需13个中的10个即可重建原始数据。

因此，纠删码允许13个设备中有多达3个发生故障而不丢失数据。这与RAID在原理上相似，但在大规模下更高效，因为它不需要在一组静态的相同HDD上维持固定的“条带化”。在大型部署中，PB级的AI训练数据集将分布在数百甚至数千个独立的HDD上。

而在内存或缓存层级，性能是重中之重。在进行缓存时，被缓存的数据已经在存储层得到了保护，数据完整性在那里是有保障的。数据会根据预期的访问模式被移动到缓存层。在AI中，这可以是AI训练数据的临时缓冲区，也可以是推理时 KV 缓存所需的关键用户上下文数据。

在缓存层，系统架构师可以有意省略数据保护方案，因为这不是必需的；数据已经在其他地方受到了保护。因此，为了保护数据完整性而产生的成本、开销和性能损耗均可免除。而放弃这些保护，能够有效降低延迟、提升每秒读写操作次数（IOPS）。

从架构的角度来看，这意味着AI存储架构师是基于数据持久性、故障域和总拥有成本（TCO）来做决定的，而AI内存/缓存架构师则是基于性能和延迟，以及他们AI软件堆栈的总体服务质量（QoS）来做决定的。

吞吐量与IOPS/延迟

在绝大多数 AI 工作负载中，最需要规避的问题就是GPU 空载。GPU是每一个AI数据中心的高价值组件，只有持续生成词元（Token），才算是在创造价值。然而，网络不同位置的硬件，保障GPU算力满载的设计思路也截然不同。

AI 训练场景下，GPU周边的DRAM与闪存作为缓冲区，承接来自存储层的训练数据，设计目标以吞吐量为主。缓冲区会提前预加载数据，避免上游链路瓶颈导致GPU算力空置。

在推理工作负载中则不同，用户请求随机且无规律，模型与KV 缓存无法依靠顺序吞吐运行，延迟与IOPS成为核心指标，因此DRAM和闪存成为主角。该缓存层采用扁平化架构，兼顾高性能、低开销与低成本。

然而，在网络的存储侧，在存储和GPU之间存在多层网络和数据中心基础设施。每一层设施，都可能增加数据从存储系统传输到算力系统的延迟和性能瓶颈。但为弹性而设计的存储架构反而带来了优势：那些确保数据弹性的架构——纠删码与复制——提升了数据的可用总吞吐量。

出于提升系统韧性的目的，AI训练数据通常采用分布式存储方式，一个训练集的数据可能会被分散存储在数百甚至数千块机械硬盘（HDD）上。尽管单块机械硬盘的延迟或性能无法与固态硬盘（SSD）相媲美，但整个硬件集群聚合起来的吞吐量，足以让缓存层始终保持满载状态，从而确保GPU不会算力空置。

在模型推理阶段，一旦开启新的会话，网络就会访问存储端，将相关的用户上下文数据拉取到KV缓存中。在实际推理过程中，大部分数据是由DRAM和闪存提供的；而底层的存储层则处于随时待命的状态，以防某些数据在缓存层中不存在，或者读取失败。

层级需求决定架构

AI 规模化部署场景下，厘清存储与内存的差异尤为关键。系统的瓶颈不再仅仅受限于算力，而在于数据能否在需要的时间和地点被高效地存储、保护和访问。

区分清楚内存与存储的差异绝非细枝末节的技术问题，而是搭建可永续扩容的 AI 基础设施的核心基石。