1.1 DRAM底层机制

1. DRAM的微观物理结构
在硅片的微观层面,DRAM 的结构非常简单,每一个比特(Bit,即计算机中的“0”或“1”)的存储单元,都由两个最核心的物理元件构成,业界统称为 1T1C 结构:
1个电容(Capacitor,即 1C): 它是存储数据的载体,用来“装”电荷。电容里充满了电荷,就代表数字信号的 1;电荷放空了,就代表0。1个晶体管(Transistor,即 1T): 它是控制电容的“电子开关”。当处理器需要读取或写入数据时,通过给晶体管施加电压来打开开关,电流就能通过,从而读取或改变电容里的电荷状态。
为什么叫“动态(Dynamic)”内存?晶体管这个开关并不是完美的,而微型电容也极易漏电。DRAM 里的电荷会像漏水的杯子一样,在纳秒级的时间内迅速流失。为了防止数据在不知不觉中由
1变成0,DRAM 控制器必须在每秒钟内进行成千上万次“充电(Refresh,刷新)”动作,把快漏完的电容重新补满。这种必须不断保持动态刷新的物理特性,正是其名称中“Dynamic”的由来。

核心动作:
位线(BL)被驱动为高电平(图中显示为红色的高电压 1V)。
字线(WL)升压(开启电压),使得中间连接的 NMOS 晶体管导通(相当于开关合上)。
电荷从位线源源不断地流入底部的存储电容。
当前状态:电容存储量达到了 100%(显示为饱满的红色),此时字线随后关闭(0V),将电荷锁在电容中。成功写入并保存了数字信号“1”。

核心现象:由于半导体物理结构的局限性,晶体管和 PN 结不可避免地存在微小漏电
当前状态:随着时间推移,电容里的电荷开始慢慢溜走。图中的电容存储量已经从 100% 跌落到了 82%(颜色变浅)。

核心现象:
存储单元长期处于待机,且没有得到及时的干预,电容内的电荷持续泄漏。
当前状态:电容存储量已经跌到了 31%,工作状态亮起黄灯提示“急需刷新”。
潜在后果:如果电荷量跌破了芯片设计的“判定阈值”,在读取时灵敏放大器就无法识别出它原本是高电平,逻辑“1”就会变成逻辑“0”。这就是所谓的逻辑翻转,数据就丢了。
2. 大模型运行中:数据的驻留角色
在大语言模型(LLM)的训练和推理过程中,GPU(如 NVIDIA H100 等)要在微秒级别内完成数万亿次的矩阵乘法运算。然而,GPU 自身内部速度最快的缓存(SRAM)晶圆面积昂贵,容量极小(通常只有几百兆字节,即 MB 级别),根本无法装下动辄数百 GB 的模型数据。
因此,海量的数据必须“驻留”在 DRAM 中。在每一次计算时,DRAM 主要负责承载以下三类核心数据流:
静态的模型参数(Weights): 万亿参数模型的浮点数,是模型在计算时必须时刻调用的数据。 中间层的激活值(Activations): 每一层神经网络计算完后生成的临时结果,供下一层计算或反向传播求导时使用。 KV 缓存(Key-Value Cache): 在大模型单字生成推理阶段,系统会将前文生成的 Key 和 Value 向量缓存在内存中以避免重复计算。随着上下文(Context)长度的拉长,这部分数据将吞噬海量的内存空间。
3. 为什么传统 DRAM 无法满足 AI,必须引入 HBM?
既然 DRAM 是标准的工作记忆区,为什么大模型时代不能继续使用普通的 DDR5 或 LPDDR5,而必须改用 HBM?这背后的底层矛盾在于“算力增长速度”与“内存带宽增长速度”的严重失衡。
数据吞吐量(带宽)由一个经典的公式决定(这个公式很重要,看懂 HBM 的基本技术原理,这个公式要在心里记下来):
传统平面 DRAM 提升带宽主要依赖提高工作频率。然而,高频带来了两大物理限制:
功耗与发热激增: 电磁信号在高频下通过 PCB 长距离走线时,会产生严重的寄生电容和信号衰减。 接口位宽锁定: 受限于传统芯片封装引脚的物理空间,标准 DDR5 的数据位宽只有 64 位(64-bit)。即便通过拼凑多通道,位宽也极为有限。这使得传统 DRAM 的带宽增长曲线(年均约 10%)远低于 GPU 算力的增长曲线上升(年均约 50-60%)。
当 GPU 计算完一条指令,需要 100 组数据进行下一步计算,而传统 DRAM 的走线“车道”太窄,一秒钟只能运送 10 组。这就导致 GPU 大量时间都在空转等待数据,这种由于内存带宽不足拖慢系统总性能的瓶颈,在计算机体系结构中被称为“内存墙(Memory Wall)”,这个在前文已经讲过了,这里不再赘述。
大模型需要的是“极高吞吐量”和“海量并行数据流”。既然靠提升频率来增加带宽的路已经遭遇物理天花板,唯一的破局点就是改变架构,去大幅提升公式中的“总线位宽”——这就是为什么要将平面 DRAM 的二维排布打破,通过先进封装垂直堆叠起来,演进为具有 1024 位乃至 2048 位宽的 HBM。
二、 HBM的三大核心底层技术
实际上,HBM 依靠3D 堆叠 + 近存封装降低访存延迟、提升带宽,是韬定律 “压缩时延、依托堆叠与架构优化提效” 理念在存储侧的核心落地形态。借助网上很火的一个比喻来说明一下:
麦当劳 = 摩尔定律:饼越做越小(缩微),数量变多。 汉堡王 = HBM:平面不变,肉饼多层(垂直堆叠)。 肯德基 = 韬定律:不纠结肉饼大小,优化结构 / 流程,整体更快更高效。


2.1 TSV(硅通孔)技术:垂直电气互连通道
在传统的内存封装中,芯片与外部电路的信号传输主要依赖引线键合(Wire Bonding)——即用微细的金线将芯片边缘的触点连接到基板上。这种方式走线长、电阻大,且受限于芯片四周的边缘面积,引脚数量极难突破,无法承载大模型所需的高位宽。
HBM 摒弃了外部引线,改用 TSV(Through-Silicon Via,硅通孔) 技术。

最底层:显卡基板 (Graphics card)
作用:这是整个显卡的“地基”,所有核心芯片都焊接在上面。 细节:它是一块多层印刷电路板(PCB),上面布满了密密麻麻的铜线,负责给各个部件供电和传输基础信号。 第二层:封装基板 (Package substrate)
作用:它是GPU和HBM堆与底层PCB之间的“高级转接板”。 细节:相比底层PCB,它的布线更精细、层数更多,能提供更高密度的信号通道,为GPU和HBM之间的高速通信“铺路”。 连接:通过底部的**焊球 (solder balls)**与PCB板连接。 第三层:中介层 (Silicon interposer)
作用:这是实现“超高带宽”的关键核心,相当于GPU和HBM之间的“超高速专用桥梁”。 细节:它是一块薄薄的硅片,上面集成了1024条数据通道,能以极高的频率(如500MHz)同时进行数据传输。 为什么快?:因为GPU和HBM都直接“面对面”地焊接在这块硅片上,信号不用再绕远路,传输距离和延迟都大大降低。
2.2 2.5D/3D先进封装:中介层集成与板级消灭
即便通过 TSV 技术完成了多层 DRAM 的垂直堆叠(形成一个 HBM 颗粒/立方体),这个内存立方体也无法像普通内存条那样插在主板的插槽上。因为主板 PCB(印刷电路板)的走线密度较为粗糙,根本无法承载 HBM 底部成千上万个密集的信号触点。
为了让主芯片(GPU)与 HBM 之间进行数据通信,必须采用以台积电 CoWoS(Chip on Wafer on Substrate) 为代表的 2.5D 先进封装技术。
硅中介层(Silicon Interposer): 工程师在传统的封装基板之上,额外加入了一层由纯硅制成、带有 TSV 通孔的“中介层”。由于这层中介层采用了半导体晶圆级的微纳加工工艺,其内部的纳米级金属走线密度远超普通 PCB 板。 无缝握手: GPU 逻辑芯片与 HBM 堆栈通过高密度的微凸点(Microbumps),并排贴合在这块硅中介层上。它们之间的互连走线完全被限制在这块硅片内部,物理距离通常仅有几毫米。 结果导向: 2.5D 封装技术消灭了主板级别的传统信号传输路径。GPU 与 HBM 之间不需要通过任何外部主板导线通信,从而降低了高频信号在板级传输时的电磁干扰、阻抗匹配与寄生电容问题,实现了系统级的高带宽与低功耗。
2.3 代际演进与键合工艺的分水岭(从 HBM3e 到 HBM4/4e)
在 HBM 的垂直多层堆叠中,如何将层与层之间的 TSV 垂直铜柱物理连接并稳固固化,是决定整颗芯片良率与电气性能的关键环节。伴随着 HBM3e、HBM4、HBM4e 的代际更迭,这一环节的互连技术也在发生根本性的迁移。
1. 物理接触的纽带:微凸点(Microbump)技术与 HBM3e 的极限
在多层 3D 堆叠中,上下两层芯片的 TSV 铜柱并不能直接贴合。因此,必须在单层 DRAM 的上下两端引出触点,并制作微小的金属球,这被称为微凸点(Microbump)。

三维堆叠封装中微凸点(Microbump)的横截面 SEM 图像(有点丑,所以不先进)
工作机制: 微凸点通常由铜柱顶端包裹层锡(Sn)合金焊接头构成。当多层芯片对齐重叠后,通过加热施压,让微凸点发生共晶熔融,从而将上层芯片的 TSV 底部与下层芯片的 TSV 顶部牢牢焊接在一起。
MR-MUF 路线在 HBM3e 的应用: 作为目前市场的主流,HBM3e 普遍采用MR-MUF(批量回流模塑底填)工艺。该工艺先将 8 层(8-Hi)或 12 层(12-Hi)带有微凸点的 DRAM 芯片进行临时堆叠,利用回流焊炉一次性整体加热熔融导通,随后注入液态环氧树脂模塑料(MUF)填满空隙。HBM3e 通过将引脚速率拉升至 9.6 Gbps 以上,在 1024 位宽的限制下实现了超过 1.2 TB/s 的单栈带宽。
2. HBM4 的物理大转折:接口位宽翻倍与 775 微米标准的博弈
当技术演进到新一代 HBM4 标准时,系统架构迎来了根本性的变革:物理接口位宽直接从 1024 位翻倍至 2048 位。这意味着物理引脚和微凸点的密度呈几何级数增加,层间触点间距(Pitch)缩减至 10 微米以下。
工艺矛盾: 在如此高密度下,传统的微凸点技术遭遇了障碍:焊接时熔融的焊料极易横向溢出导致邻近引脚短路,且狭窄的缝隙导致助焊剂残留物难以清洗,严重影响良率。 标准的妥协: 为解决 16 层(16-Hi)堆叠带来的物理厚度限制,JEDEC 官方将 HBM4 的模块高度上限放宽到了 775 微米。这一标准的放宽为微凸点技术争取到了空间,使得升级版的 Advanced MR-MUF 工艺在 16 层 HBM4 上依然能够沿用,在初期量产阶段维持了较好的经济性与良率。
3. HBM4e 的极限跳跃:混合键合(Hybrid Bonding)的必然引入
到了更前沿的 HBM4e 世代,引脚速率被进一步推向 16 Gbps 级别,单栈带宽跨越 4.096 TB/s 的门槛。随着堆叠层数向 16 层以上乃至 20 层探索,即使标准放宽,传统微凸点路线在散热(热阻)和焊接精度上的物理天花板也无法逾越。这推动了混合键合(Hybrid Bonding,又称直接铜-铜键合)从概念走向绝对落地。

无凸点(Bump-less)技术: 混合键合彻底省去了微凸点(锡球)和中间的树脂胶水填充。它在超高洁净度的环境下,利用化学机械抛光(CMP)将 DRAM 芯片表面的铜(Cu)触点与二氧化硅(SiO₂)绝缘介质表面处理到原子级的平整。 分子级融合: 在常温下将两层芯片直接贴合,界面的二氧化硅通过分子间作用力初步紧固;随后送入高热炉中进行退火(Annealing),此时二氧化硅层发生永久性化学结合,同时由于铜的化学膨胀特性,上下层对应的铜触点原子相互扩散、渗透,融为一根完全连续的垂直铜柱。
HBM 代际演进与工艺路线对比
| 主流物理位宽 | 2048-bit | ||
| 主流堆叠层数 | |||
| 单栈峰值带宽 | 突破 4.096 TB/s | ||
| 主流键合工艺 | Hybrid Bonding (混合键合) | ||
| 物理形态特征 | 无凸点 (Bump-less) | ||
| 热阻与散热 | |||
| 高度标准限制 |
总结来看,从 HBM3e 到 HBM4/4e 的迭代,不仅是容量和带宽的数字攀升,更是底层连接工艺从“微凸点焊接”向“无凸点原子级置换”的必然跨越。一旦混合键合的工艺良率迈过商业平衡点,它将彻底打破阻碍 AI 存储向更高密度演进的物理墙。
三、 HBM 的产业逻辑
HBM 的技术变革不仅在微观层面重塑了芯片结构,也在宏观层面颠覆了半导体存储行业的产业生态。随着大模型性能对高带宽内存的依赖加深,HBM 的商业模式、制造门槛以及供需周期正发生深刻的改变。
3.1 商业模式转变:HBM4 时代的代工厂(Foundry)与存储厂(Memory)协同
在传统的存储行业中,DRAM 属于典型的标准大宗商品(Commodity)。存储厂商(如三星、SK海力士、美光)按照固定的国际标准统一设计、独立制造并封装出厂,下游客户买来即可直接插上主板,产品具有极高的通用性。
然而,进入 HBM4 时代,这种延续了数十年的商业模式正被彻底颠覆。
底层 Base Die 的技术变革: HBM 堆栈的最底部有一层不用于存储数据的逻辑衬底,称为 Base Die(基础逻辑衬底)。在 HBM3e 及此前世代,Base Die 线路较粗,存储厂利用自身的 DRAM 通用工艺即可自行制造。但到了 HBM4 世代,接口位宽暴增至 2048 位,且需要承载测试、电源管理及部分逻辑计算功能,传统存储工艺的线宽已无法满足如此高密度的互连需求。因此,HBM4 的 Base Die 制造必须改由晶圆代工厂(Foundry)利用先进制程(如台积电的 4nm/5nm 工艺)来代工。 向半定制化系统级芯片(SoC)的属性转变: 这一技术变革直接导致 HBM4 不再是通用的标准大宗商品,而是演变成一种深度定制的系统级封装芯片(SiP)。 开发协同: 顶级 AI 芯片设计商(如 NVIDIA、AMD)在设计下一代 GPU 时,必须提前将设计图纸与晶圆代工厂(如台积电)以及存储厂商深度对接。 制造交织: 台积电用先进制程生产出 Base Die,随后交由存储厂,存储厂在其上方堆叠 12 层或 16 层 DRAM 颗粒(Core Die),最后这个内存立方体再运回台积电,通过 CoWoS 工艺与 GPU 逻辑主芯片封装在一起。
这种代工厂与存储厂的协同,使得 HBM 的供应模式从“买方市场标准品采购”变成了“供应链早期的多方联合研发”。HBM4 已经具备了明显的定制化逻辑芯片属性。
3.2 制造壁垒:前道晶圆与后道先进封装的复合良率
市场常有疑问:既然 HBM 利润率极高,为什么各大存储巨头无法通过简单建厂快速扩产来平抑短缺?其工程底座的根本制约在于“复合良率(Compound Yield)”的损耗。
HBM 的制造分为前道工序(DRAM 晶圆制造)与后道工序(TSV 蚀刻、打孔、微凸点焊接或混合键合)。任何一个环节的良率损失,都会在后续的堆叠中产生指数级的放大。
三家厂商的技术路线博弈:
SK海力士: 凭借成熟的 MR-MUF 及 Advanced MR-MUF 工艺,在 12 层和 16 层堆叠上实现了相对稳定的后道封装良率,这也是其在 HBM3/3e 世代占据市场主导地位的核心资产。
三星(Samsung): 坚持采用 TC-NCF(热压非导电胶膜)路线,在极薄的层间通过胶膜物理隔绝,同时正全力向混合键合(Hybrid Bonding)路线突进,试图在 HBM4/4e 世代通过跨越技术断层实现弯道超车。
美光(Micron): 凭借 1β(1-beta)先进制程的 DRAM 颗粒在能效比上建立优势,但在整体产能规模上仍受制于先进封装产能的爬坡速度。
复合良率的数学惩罚: 假设单层 DRAM 晶圆的良率是 99%,后道垂直堆叠和 TSV 连线的单层良率也是 99%。当进行 12 层(12-Hi)堆叠时,整颗 HBM 的理论复合良率将降至约 。而到了 16 层(16-Hi)堆叠,如果其中任何一层的某一个 TSV 通孔或焊点出现电气断路,整颗 HBM 颗粒都将整体报废。
产能释放的工程瓶颈: 这种高昂的失败成本意味着,即使前道 DRAM 产能充沛,后道先进封装的测试、对准、成型设备的产能上限与良率瓶颈,依然死死卡住了 HBM 的最终出货量。
3.3 供需总结:从“内存砍半”恐慌看带宽饥渴与市场波动
在 2026 年台北国际电脑展(Computex 2026)期间,英伟达(NVIDIA)首席执行官黄仁勋造访 SK海力士展位时,在一块最新的 HBM4E 晶圆上留下了亲笔签名,并直白地写下了 “Please Make More(请多做点)”。

1. 市场鬼故事之“55TB 变 28TB”
SemiAnalysis 6.4 发了一个研报:英伟达下一代 Rubin NVL72 机柜的内存容量将从原定的 ~55TB 缩减至 ~28TB,引发市场对存储供应链需求崩塌的恐慌,芯片股一片哀嚎。这完全是混淆了“核心 HBM4 规格”与“外围 CPU 内存配置”的常识性误读:
核心 HBM4 纹丝不动: 决定 GPU 算力生死、用于存放模型权重和核心 KV Cache 的 HBM4 内存没有任何缩水。基于每台机柜 72 颗 Rubin GPU、每颗 288GB HBM4 计算,整机 20.7TB 的 HBM4 核心配置完全没有改变。 变动源于 CPU 侧的 SOCAMM 模块: 缩减的部分实际上是位于 CPU 侧、用于系统编排的外围 SOCAMM(LPDDR5X)内存。英伟达为了确保出货节点并平衡机柜综合成本(TCO),将原计划顶配的 192GB 模块替换为了更为成熟的 96GB 模块。 恐慌属于过度反应: SOCAMM 采用的是插槽式(Socketed)而非焊接式设计,后续升级空间并未锁死。将外围普通内存的配置调整,曲解为核心高带宽内存(HBM)的需求暴跌,纯属资本市场处于高位时的过度敏感与虚惊一场。
2. “Please Make More”背后的真实供需闭环
黄仁勋在 HBM4E 晶圆上写下的“请多做点”,才是当下产业最真实的写照。只要大模型的 Scaling Law(参数规模定律) 尚未触及物理天花板,高性能 HBM 的阶段性供需紧张就具备行业必然性:
【HBM 供需逻辑演进闭环】大模型 Scaling Law 持续演进 ──> 上下文窗口拉长 / 算力需求暴涨 ↑ │ │ ▼市场周期性波动调控 <── 产能复合良率卡脖子 ──> 高带宽内存 (HBM) 缺口常态化带宽饥渴是行业常态: 长上下文窗口的铺开和多模态大模型的实时推理,对系统内存带宽提出了近乎无底洞式的吞吐需求。英伟达拼命催促供应链释放更多 HBM4/4e 产能,反向证明了核心存储供应链仍是决定算力集群上限的“战略物资”。 周期性与技术断层的市场波动: 尽管长期前景明确,但产业链参与者也必须清醒地认识到半导体行业固有的重资产周期属性。三大存储巨头针对 HBM 的巨额资本开支在未来几年集中释放时,产能扩张节点与 AI 应用端的变现速度是否存在阶段性错配,是市场最大的变数。同时,从微凸点向混合键合(Hybrid Bonding)跨越的技术断层期,任何一家厂商若发生路线误判或良率崩塌,都会导致市场份额的剧烈重组。
在彻底拆解了 HBM 的微观工艺与产业供需后,我们看清了 AI 算力核心对“热数据”吞吐的压榨。然而,万亿参数模型的野心不止于此。随着多模态长文本、大模型图谱以及海量训练原始数据的膨胀,另一个隐藏的房间被打开了——那些不常被核心算力瞬间调用,但容量却呈几何级数暴涨的“冷/温数据”,正在遭遇传统固态硬盘(SSD)的带宽腰斩。下一篇,我们将目光转向存储变革的第三个维度:HBF(High Bandwidth Flash,高带宽闪存)。
结语:
存储的行情远远没结束,请跟着口罩哥勇敢喊出来:
CWW!!!!!!
⚠️ 免责声明 / Disclaimer
本报告/文章仅供个人产业研究之用,不构成任何形式的投资建议或投资依据。
夜雨聆风