
过去几年,关于 AI 基础设施的讨论,大多集中在算力层面——GPU、CPU、内存、互连、功率密度以及性能指标,也就是“如何生成智能”。在 AI 发展初期,这种关注是合理的。当时最核心的问题,是如何让模型完成训练,并实现规模化运行,从而真正具备实用价值。
而如今,变化来自于“规模”——但不仅仅是处理能力的规模。更关键的是数据规模,以及这些数据随时间演化的方式。与算力和内存基础设施不同,后者通常遵循刷新周期,并可在不同工作负载之间复用——例如,一块用于训练的 GPU 后续可能被重新用于推理任务——数据并不是这样运作的。
数据会不断累积。它会随着每一次训练、每一个 token、每一次推理循环,以及每一次交互而持续增长。试想,超过十亿用户在每次推理过程中不断累积的上下文信息。随着时间推移,这种积累开始以算力本身无法实现的方式定义整个系统。当我们跳出局部视角,真正审视生产环境中的 AI 系统如何演化时,会发现它们的行为模式并不像“算力系统”,而是“数据系统”。这种区别不仅仅是架构层面的,更会深刻影响运营方式与经济模型。
从阶段性算力,走向持续性数据
在过去十年中的大部分时间里,算力建设与存储部署始终同步增长。在第一轮云计算扩张时期,服务器部署与 HDD 投资基本呈并行增长趋势。这种现象很容易被理解为一种天然绑定关系——基础设施方程式中的两面。在部署阶段,这种逻辑确实成立:当你部署一个算力集群时,存储也会同步扩张。
真正的分水岭在于后续演进。一旦推理开始,存储仍会持续增长,而算力不会。
AI 正是暴露这一变化的拐点。如今,算力与存储已经走上了根本不同的发展轨迹,而且这种分化是结构性的。
在 AI 时代,算力本质上仍然是阶段性的,尤其是在训练场景中。算力资源会从训练迁移至推理,在不同工作负载间被复用,并随着软件优化不断提升效率。同一套基础设施,会随着软件进步产生更高输出。这种效率提升非常重要:它能够吸收需求、延长算力生命周期,并自然抑制新增投资节奏。
而数据的行为则完全不同——尤其是在 AI 驱动型数据经济中。
每一次 AI 推理不仅会消耗数据,还会创造数据。一次仅 5 秒的 AI 视频生成,其产生的“运行副产物”——包括日志、追踪信息、中间结果和元数据——在容量上甚至可能与最终生成内容本身相当,而这还未包括后续用于模型微调、合规要求或审计留存的数据。当这种过程每天发生数十亿次时,这种增长就不再只是附带现象。它会变成一种结构性现实。
这也是 AI 时代与过去企业时代之间最根本的区别。过去以人为核心的工作负载,往往依赖人为判断——哪些数据保留、哪些删除、哪些已经不再重要。之所以存在数据保留策略,是因为存储有成本,而人的精力有限。
但 AI 的激励机制完全不同。数据很少会被主动丢弃,因为它始终可能具有未来价值。信号会不断积累,上下文会不断强化。在实践中,数据不会“过期”,而是持续存在。与人类系统不同,AI 可以持续检查自身生成的全部数据,并不断从中优化自身。
过去一年中,AI 编码能力快速提升,本质上正是这种机制的直接结果——不断累积的经验,通过被保留的数据,持续反哺下一轮迭代。
定义过去十年的那种“算力与存储同步增长”的关联关系,已经被打破。取而代之的是一种分化:算力可能以阶段性波动方式扩张;而数据将持续不断增长。
AI 数据是生命周期,而不是一次事件
随着 AI 系统进入生产环境,核心问题已经从:“模型能跑多快?”转变为:“你能否长期有效维持整个系统的运行?”
在现代 AI 数据中心中,决定系统长期行为模式的,越来越不是它处理数据的速度,而是它需要长期保留什么数据。算力、内存、网络与电力都非常关键,但它们并不承载“状态”。
它们不会随着时间积累价值。
算力创造的是“智能产生的瞬间”,而数据状态则决定这些瞬间是否能够长期存在并持续产生价值。
与此同时,被存储的数据本身也在发生变化。一部分是用于构建和运行模型的数据,这一直都很重要。但另一部分正在迅速增长——即模型自身生成的数据,包括内容、代码、分析结果、用于再训练的合成数据、数字化映射,以及逐渐嵌入系统中的机构知识。这些数据会让不同场景下的智能代理(agents)变得越来越专业化与有价值。
而这一类数据,往往在早期最容易被低估。但如果你与真正运行生产级 AI 系统的团队交流,会发现许多问题正是在这里开始浮现。问题从来不只是“让模型跑起来”。真正困难的是:如何管理模型运行之后发生的一切。
而正是在这一刻,存储不再只是一个辅助组件。它开始成为整个系统赖以交付业务价值的基础。
AI 基础设施依赖多个层级协同运行。内存(HBM/DRAM)负责高速处理与实时计算;而存储则提供一个可持久化、可扩展的数据基础,让数据能够长期存在、持续增长并不断累积价值。两者共同支撑 AI 系统运行。但真正承载长期系统状态的,只有存储。
这也直接改变了 AI 系统的设计方式。
AI 数据中心并不是建立在单一存储层之上的。它本质上是一个由多层存储体系构成的系统,每一层都针对数据生命周期中的不同工作负载进行优化。
高性能层负责活跃推理与实时访问;而容量优化层则负责存储绝大多数长期保留的数据——包括日志、向量嵌入、输出结果与历史上下文。这些数据会随着时间持续累积。
在小规模环境下,将存储视为单层结构或许可行;但随着系统规模扩大,这种方式会迅速变得低效且脆弱。只有基于多层架构进行设计,AI 基础设施才能真正实现有效扩展。
为什么传统规划模型开始失效
AI 基础设施早期规划中,一个非常常见的假设是:存储应与 GPU 部署规模按比例同步扩张。在建设阶段,这种模型确实方便,也有一定参考价值。但当推理窗口与推理用户规模开始快速增长后,这种逻辑便难以成立。将存储视为算力与内存的附属物,是 AI 基础设施设计中最常见、也代价最高的错误之一。在小规模环境下可行的架构,在 AI 规模化阶段往往会失效。因为忽视数据增长、经济模型与系统韧性的架构,无法支撑长期运行。
根本原因在于:算力与数据遵循的是完全不同的经济曲线。算力投资通常是阶段性的,尤其是在训练场景中,会随着部署周期波动。而存储则会随着数据增长、保留策略、复制机制与治理要求持续扩张。
当存储被视为算力的延伸,而非基础设施本身时,就会出现两个问题。
第一个问题是架构层面的:虽然存储承担着长期数据可用性与持久性的责任,但它却常常在规划中被放在后置位置。资本支出(Capex)、电力与物理空间规划,应该围绕数据生命周期,而不是 GPU 刷新周期来设计。
第二个问题是经济层面的:存储增长由数据积累驱动,而不是由硬件刷新周期驱动。当数据规模从 PB 级迈向 EB 级时,总拥有成本(TCO)将越来越主导技术决策,并显著推动经济模型从闪存转向 HDD。
这些问题最终都无法被忽视。许多系统最初运行良好,但后续开始出现压力,并不是因为算力不足,而是因为数据层从一开始就没有按照同等重要性进行规模化设计。在大规模环境下,经济性本身就是架构。存储、保留与管理数据的成本,决定了能够保留多少数据;而能够保留多少数据,又决定了模型能够提升到什么程度。
重新定义规模化时代的“性能”
随着系统规模不断扩大,“性能”的定义也在发生变化。可用性开始变得与速度同样重要。如果数据无法被可靠访问,那么无论部署了多少算力,整个系统都无法正常运行。
持久性、复制机制与可预测性,也开始在系统行为与成本结构中扮演更核心角色。所谓持久性,本质上是:你存进去的数据,与未来取出来的数据,必须完全一致。而随着规模增长,在控制成本的同时保证这种持久性,会变得越来越困难。因为为了确保数据可靠性,系统必须持续进行读写操作。
在 AI 规模下,故障不是例外,而是常态。基础设施必须能够在持续故障与持续恢复过程中,仍维持性能与可靠性。韧性(Resilience)不是一个“功能”,而是一种设计选择。
到了这一阶段,人们会逐渐意识到:性能并不是单个设备的属性。它是整个存储系统协同运行后产生的一种“涌现能力”。它取决于:数据如何被放置、如何移动,以及如何在分布式架构中被管理。即使用户并未主动访问数据,后台系统也会持续移动数据至最低成本位置,并不断进行读写操作,以保障数据持久性。
这种视角转变看似细微,却至关重要。
面向未来的架构设计
我们正在经历的,是从实验性 AI 环境,向长期稳定运行系统的转变。而当下做出的基础设施决策,将带来长期影响——尤其是在数据持续积累的背景下。
那些能够成功完成这一转型的团队,会尽早意识到:AI 数据中心的扩展,不仅依赖算力,更依赖数据。而存储,也必须因此被重新定义。
这并不是“选择哪一种设备或技术”的问题。真正关键的是:是否从完整数据生命周期出发进行设计——从数据生成,到长期保留,并确保底层架构能够长期支撑规模、成本、持久性与可用性需求。
这也意味着:选择存储技术时,应考虑未来三到五年的数据规模,而不是今天的数据规模。
因为一旦这些系统进入生产环境,再回头重构底层决策,将会非常困难且代价高昂。
一切归根结底,都是数据
算力会继续定义 AI 的关键突破时刻。但真正决定这些突破能否被持续、复制并不断积累,从而构建可盈利 AI 系统的,是数据。
最终能够成功的系统,将是那些基于这一现实进行设计的系统:它们不是单纯的算力环境;而是真正的数据系统。
在这样的系统中:存储是基础;架构是分层的;规模化能力则取决于数据能否被长期有效保留、管理与利用。
这,正是“将 AI 数据中心视为数据系统”的真正含义。

夜雨聆风