Agentic AI时代 DRAM 需求的结构性分析

本文由AI生成。与此前的《何时会迈向以存储为中心的架构？》、《以内存为中心的计算——这次真的会不一样吗？》相比，新增了对于CPU核心数增加对内存带宽需求的分析。故强调了一下Agentic AI。

**核心命题：AI 推理，特别是Agentic AI时代，正在将 DRAM 从芯片的"配套件"推向"核心成本项"和"收入能力载体"，这一转变叠加供给端的结构性约束，将重塑内存产业的定价权和利润格局。**

---

## 一、起点：推理是内存带宽受限的任务

理解 Agentic AI 时代 DRAM 需求的一切，从LLM推理的一个硬件事实开始：

LLM 推理分为 prefill（并行处理输入）和 decode（逐 token 生成输出）两个阶段。Prefill 偏 compute-bound，类似训练；而 decode 是自回归的，每生成一个 token 都需要读取整个模型权重和 KV cache，本质上是 **memory-bandwidth-bound**。

图片来源:[1]

GPU 算力的增长远快于内存带宽。NVIDIA GPU 的 64-bit FLOPS 从 2012 到 2022 增长约 80 倍，但内存带宽只增长约 17 倍[1]。这意味着随着模型变大、推理占比上升，系统中"算力过剩、带宽不足"的矛盾在加深。

**推论：在 decode 主导的推理场景中，更多 HBM 容量和带宽可以更直接地转化为可售 token。HBM 不是成本项，而是收入能力。**

---

## 二、证据：Memory 正在成为 AI 芯片的最大成本项

Epoch AI 的数据清晰展示了这一趋势：

| 指标 | 2024 Q1 | 2025 Q4 | 变化 |

|---|---|---|---|

| AI 芯片总组件成本（季度） | $3.2B | $17.4B | 5.4x |

| Memory 占比 | 52% | 63% | +11pp |

| Memory 绝对值 | ~$1.7B | ~$11B | 6.5x |

| Logic 占比 | 14% | 13% | -1pp |

图片来源:[2]

Memory 的增速（6.5x）快于总成本增速（5.4x），远快于 Logic（4.9x）和 Packaging（4.2x）。

这个占比上升不是纯粹的涨价现象，而是三个力量叠加：

**架构驱动**：每代 AI 加速器的 HBM stack 数量、stack 高度、容量和带宽都在上升，单位加速器的 memory dollars 自然增长。
**工作负载驱动**：从训练到推理、从单次问答到 agent、从短上下文到长上下文——每一步都增加 KV cache、并发状态和内存强度。
**ASP 上升**：供需紧张推高价格，但这是结果而非原因。

**推论：即使 HBM 单价不涨，系统也会购买更多 HBM bit 和更高带宽。Memory 占比上升是结构性的。**

---

## 三、放大器：HBM 的 3:1 挤出效应

HBM 对 DRAM 产业的影响远大于其表观 bit 份额。Micron 给出的关键数据是：**HBM 相对 DDR5 有约 3:1 的 wafer trade ratio**，且未来 HBM 世代这个比率还会上升。

原因：每颗 HBM 需要更多 DRAM die（多层堆叠）、TSV 穿孔、die 减薄、先进封装和测试，良率损失更高。

这意味着：

| HBM bit 份额 | 实际占用先进 DRAM 晶圆产能（粗算） |

|---:|---:|

| 5% | ~14% |

| 10% | ~25% |

| 17% | ~38% |

| 31% | ~57% |

**HBM bit 份额看起来只有 10-20%，但对先进 DRAM 晶圆的挤占可能已达 25-45%。** 一旦 HBM 继续扩张，留给传统 DDR5/LPDDR/server DRAM 的先进晶圆产能会被显著压缩，推高整个 DRAM 市场的 ASP。

这是一个自我强化的机制：AI 买走 HBM → 挤出传统 DRAM 供给 → 传统 DRAM 也涨价 → 整个 DRAM 产业受益。

---

## 四、需求端：AI 服务器从五条线同时消耗先进 DRAM

AI 服务器对先进 DRAM 的需求不只是 HBM，而是五条并行需求线：

**HBM3E / HBM4 / HBM4E**：GPU/ASIC 侧核心瓶颈，带 3:1+ 的 trade ratio。
**DDR5 RDIMM / MRDIMM**：x86/ARM host memory，128GB/256GB 高容量模组需要先进 die。
**LPDDR5X / LPDDR6 / SOCAMM**：Grace、Vera Rubin 等平台将移动端 LPDDR 引入服务器。
**CXL Memory**：内存扩展和池化，底层仍消耗 DDR5 DRAM die。

### 第五条线：Agent AI 时代的 CPU 侧内存爆炸

这是一个容易被低估的新增量。传统分析把 AI 服务器的内存需求等同于 GPU 侧的 HBM，但 agent 时代正在打开 **CPU 侧的第二条内存需求曲线**。

**核心驱动：CPU 核心数和 CPU capacity 的上行路径。** ARM CEO Rene Haas 在 2026Q4 财报电话会中给出了较强的方向性口径：ARM AGI CPU 已达 136 核（Neoverse V3），并表示可以想象未来核心数 doubling 或 quadrupling，进入 256 核、512 核的世界。但这应理解为管理层对方向的判断，而不是正式产品路线图。他同时指出，agentic workloads 会要求数据中心 CPU capacity 达到"当前的 4 倍以上"。关于 CPU:GPU 比例，Rene 的表述更精确：从 chip count 看不一定超过 1:1，但从 **CPU core count** 看，比例可能显著改变，因为 agentic orchestration、scheduling、management 会需要大量独立 CPU cores。[3]

这不是简单的"CPU 也要升级"。Agent 工作负载的特征是大量并发 jobs / flows / batches 需要被调度和管理，部分场景会倾向于把独立 agent 或 flow 绑定到独立 CPU core。每个 agent 实例可能需要独立的上下文状态、tool calling 环境、RAG 管线和数据预处理缓冲区。因此，CPU 侧内存需求可能随 core count 和并发度近似上升；但不同 agent workload 的共享程度、offload 程度不同，不能简单假设所有内存需求都与核心数严格线性扩展。

**每核心带宽对比揭示需求量级：**

| 平台 | 核心数 | 内存类型 | 总带宽 | 每核心带宽 |

|---|---|---|---|---|

| ARM AGI CPU | 136 | 12ch DDR5-8800 | ~800 GB/s |~6 GB/s|

| AMD EPYC Turin | 192 | 12ch DDR5-6400 | ~614 GB/s |~3.2 GB/s|

| NVIDIA Grace | 72 | LPDDR5X | ~546 GB/s |~7.6 GB/s|

**关键观察：LPDDR 正在进入服务器。** NVIDIA Grace 已经采用 LPDDR5X；SOCAMM/SOCAMM2 则把低功耗 DRAM 做成更适合服务器维护和扩展的模块形态。关于 GB300 使用 SOCAMM，公开信息主要来自第三方报道，NVIDIA 官方资料并未在 DGX GB300 页面明确写明；但 Vera Rubin 侧已有更强证据：SK hynix 官方宣布量产面向 NVIDIA Vera Rubin 的 192GB SOCAMM2，当前产品是 **1cnm LPDDR5X**，不是 LPDDR6。相比传统 RDIMM，SOCAMM2 官方口径是带宽超过 2 倍、能效提升超过 75%。在 agent 时代"高核心数 × 高每核心带宽"的双重压力下，LPDDR/SOCAMM 是可能的重要方案之一，但还不能说是唯一方案；DDR5-8800、MRDIMM、CXL memory 也会共同参与。

**这对先进 DRAM 晶圆的含义：** SOCAMM2 当前使用 1cnm LPDDR5X，属于先进 DRAM 前段产能。它与 HBM4/HBM4E 会争夺部分重叠的先进 DRAM wafer、EUV、cleanroom 和高端封测资源；但它不抢 HBM 专属的 TSV、die thinning、stacking、MR-MUF/混合键合等环节。**CPU 侧的 LPDDR/SOCAMM 需求，本质上是在 GPU 侧 HBM 之外，开辟了第二条争夺先进 DRAM 前段产能的战线。**

**CPU 侧内存总需求增量的敏感性公式：**

```

潜在增量 = 核心数增长(2-4x) × CPU capacity/部署密度增长(2-4x) × 每核心带宽目标增长(1.5-2x) = 6-30x

```

这个公式不是基准预测，而是bull case/ sensitivity。它的方向有 Arm 电话会支撑：CPU capacity 需求可能超过 4x，core count 可能 doubling/quadrupling，CPU core count 相对 GPU 的比例可能显著上升。但三项是否独立相乘、能否在 3-5 年内兑现，取决于 agent 工作负载的真实 CPU 密集度、云厂部署节奏、x86/Arm 竞争、以及 DPU/加速器/near-memory compute 的 offload 程度。即使只兑现其中一部分，CPU 侧先进 DRAM 消耗也可能与 HBM 的增长形成叠加而非替代。[3]

**推论：HBM 和 CPU 侧 DDR5/MRDIMM/SOCAMM/CXL 构成两条并行的先进 DRAM 需求曲线。即使 HBM 供应被部分缓解，CPU 侧仍可能持续争夺先进 DRAM 前段产能。五条需求线同时增长，会让"先进 DRAM"整体供不应求的格局更牢固；但 CPU 侧的幅度仍需作为情景变量跟踪。**

---

## 五、供给端：三重结构性约束

先进 DRAM 供给不像普通制造业那样可以线性扩张，它受三重慢变量约束：

### 约束一：EUV 光刻系统瓶颈

HBM4 及后续世代绑定先进 DRAM 节点（1b/1c/1γ），而这些节点依赖 EUV。但 EUV 扩产是一个系统性难题：ASML 整机 + ZEISS 精密光学 + TRUMPF 高功率激光光源 + 精密运动/计量/材料/洁净制造——整条供应链都极高精度、极高认证门槛，无法快速线性扩产。ASML 2025 全年仅交付 48 台 EUV。

### 约束二：HBM 封装和测试产能

HBM 供给的公式是：

```

HBM 可交付量 = min(先进 DRAM 晶圆, TSV/堆叠产能, 先进封装/测试, base logic die, 客户认证/良率)

```

任何一个慢环节都会压平整体供给斜率。

### 约束三：寡头格局与产能互斥

全球只有三家（SK Hynix、Samsung、Micron）能量产 HBM。HBM 与传统 DRAM 共用先进晶圆产能，但 trade ratio 3:1 意味着每做 1 bit HBM 就少做 3 bit DDR5。在利润率极高的 HBM（海力士 2026Q1 营业利润率 72%）面前，厂商有动力把更多先进产能转向 HBM，进一步挤压传统 DRAM。

**推论：即使 HBM ASP 很高，先进 DRAM 产能也很难在 1-2 年内自由弹出。供给是"慢变量"，需求是"快变量"。**

---

## 六、需求来源的持续性：CSP Capex 从 OCF 约束走向融资扩张

以上分析的前提是 AI 投资持续。2026 年的数据已经超越假设阶段：

| 公司 | 2024 Capex | 2025 Capex | 同比 | 2026 指引 |

|---|---|---|---|---|

| Amazon | $83B | $132B | +59% | Q1 已 $44B |

| Google | $53B | $91B | +74% | Q1 已 $36B |

| Meta | $37B | $70B | +87% | $125-145B |

| Microsoft | $56B | $83B | +50% | ~$190B |

| Oracle | $11B | $36B | +230% | $50B |

关键的质变是：CSP 不再只用当期自由现金流扩张，而是通过发债、项目融资、长期租赁、客户预付款等方式提前锁定产能。Oracle 2026 前三季 capex $39B 而 OCF 仅 $17B，缺口靠 $45B 融资补上。这说明扩张意愿已经超越了短期盈利约束。

---

## 七、综合推演：四层叠加的增长逻辑

将以上各环节串联，DRAM/HBM 厂商面临的不是单一增长驱动，而是四层叠加：

**第一层：AI capex 总量持续扩张** → 整个 AI 硬件盘子变大。

**第二层：Memory 在 AI 硬件中的价值占比上升** → HBM 增速快于 AI 加速器总增速。即使 capex 持平，只要单位加速器的 HBM content 继续上升，HBM 收入仍可增长。

**第三层：HBM 挤出传统 DRAM 供给，抬高整个 DRAM ASP** → 不只 HBM 受益，传统 server DRAM、LPDDR、DDR5/MRDIMM 等也会因先进 DRAM wafer 被挤压而维持高价。

**第四层：CPU 侧 DDR5/MRDIMM/SOCAMM/CXL 开辟第二战线** → Agent 时代 CPU capacity 有超过 4x 的管理层口径支持，CPU core count 未来 doubling/quadrupling 也有 Arm CEO 的方向性表述。CPU 侧先进 DRAM 消耗量存在显著上行情景，但 6-30x 应作为敏感性分析而非基准预测。SOCAMM2 / LPDDR5X 与 HBM4 争夺部分重叠的先进 DRAM 前段产能，形成双线挤压。

这四层叠加，解释了为什么海力士 2026Q1 收入同比 +198%、利润率 72%——这不是普通的景气周期，而是结构性供需错配叠加需求端架构变迁。第四层（CPU 侧内存需求）目前刚刚进入加速期，其对先进 DRAM wafer 的争夺可能在 2027-2028 年放大，但幅度需要通过 Arm AGI CPU、Vera CPU rack、SOCAMM2、MRDIMM/CXL 的真实部署节奏继续验证。

---

## 八、时间维度与关键不确定性

| 时间 | 先进 DRAM 供需判断 | 确信度 |

|---|---|---|

| 2026 | 高确定性短缺 | 强 |

| 2027 | 大概率仍紧，尤其 HBM4/SOCAMM/高容量 RDIMM | 中高 |

| 2028 | 偏紧但开始取决于新产能释放速度 vs AI capex 走势 | 中 |

| 2029+ | 不确定性显著上升 | 低 |

**向下的风险主要来自三个方向：**

**需求端**：AI capex ROI 无法兑现，CSP 削减 2027-2028 支出；利率上行抬高融资成本。
**供给端**：三大厂新产能同步释放；HBM 竞争稀释份额和议价力；库存双重下单引发修正。
**技术替代**：KV cache 压缩、量化、投机解码等软件优化降低每 token 的 HBM 消耗；CXL memory pooling、HBF（高带宽闪存）提高系统内存利用率，削弱 HBM 作为唯一高带宽池的地位。
**CPU 侧不确定性**：Agent 工作负载的实际 CPU 密集度可能低于预期；x86 阵营（AMD EPYC）可能延缓 LPDDR SOCAMM 的采纳速度，坚持 DDR5 RDIMM 路线；若 agent 渗透率不及预期，CPU:GPU 部署比回归传统水平，CPU 侧的第二条需求曲线将被推迟。

---

## 九、结论

AI 推理的 memory-bandwidth-bound 本质，正在驱动一场从"计算中心"到"内存中心"的产业重心迁移。这不是短期景气周期，而是由五个结构性力量支撑的多年趋势：推理占比上升、单位加速器 memory content 增长、HBM 挤出效应传导至全 DRAM、Agent 时代 CPU 侧 DDR5/MRDIMM/SOCAMM/CXL 开辟第二条先进 DRAM 需求曲线、以及供给端 EUV/封装/寡头的结构性约束。

尤其值得关注的是Agent时代 **GPU 侧 HBM 与 CPU 侧 DDR5/MRDIMM/SOCAMM/CXL 的"双曲线"结构**：两者争夺部分重叠的先进 DRAM 前段产能，但驱动力不同（模型规模 vs. CPU capacity/core count/agent orchestration），周期错位（HBM 已进入爆发期，CPU 侧刚进入加速期），因此对先进产能的挤压可能更持续。这使得"先进 DRAM 持续供不应求"的概率高于仅有 HBM 单一驱动的情形。

在这些力量同时作用下，DRAM/HBM 厂商是 AI 产业链中**最确定、最直接、经营杠杆最高**的一组受益者。但"绝对最大赢家"仍需一个前提：CSP capex 在 2027-2028 继续高位运行，且三大原厂新增的先进产能仍被 AI 需求（含 GPU 侧 HBM + CPU 侧 DDR5/MRDIMM/SOCAMM/CXL 双线）完全消化。

参考资料

[1]Ma, X., & Patterson, D. (2026). Challenges and Research Directions for Large Language Model Inference Hardware. arXiv preprint arXiv:2601.05047.

[2]https://epoch.ai/data/ai-chip-components?view=graph&tab=total_cost

[3]https://www.investing.com/news/transcripts/earnings-call-transcript-arm-holdings-reports-record-q4-fy2026-results-93CH-4665853