一文读懂AI显存

在AI大模型时代，显存（Video Memory）就像厨房里的操作台——灶台（GPU）火力再旺，台面太小也摆不下食材，厨师再好也做不出大菜。今天这篇文章，用熟悉的生活场景，讲透显存的技术本质。

一、显存是什么？AI计算的"厨房操作台"

想象GPU是一座超级厨房，显存就是厨房里的操作台。做饭时，你需要：

存放食材（模型参数）—— 鸡鱼肉蛋得摆得下
临时放半成品（计算中间结果）—— 切好的菜、调好的酱
快速取用（数据读取）—— 灶台边随手能拿到

显存的三大核心作用

1. 模型参数的"冰箱+操作台"大语言模型本质上是个巨大的"配方书"。GPT-4有1.8万亿条"配方"，每条需要2字节记录，总共需要3.6TB的存储空间——相当于3600本1000页的字典。

而当前最好的单卡显存只有192GB，就像只有一个小冰箱，根本装不下这么多食材。所以必须多机并联（Distributed Training），把配方书撕成多份，分别放在不同的厨房里。

关键认知：显存容量直接决定你能做多大份量的菜（跑多大的模型）。

2. 数据传输的"高速公路"做菜时，食材要从冰箱拿到操作台，切好后再送到灶台。如果这条路太窄（带宽低），厨师就会干等着——这叫"算力饥饿"（Compute Starvation）。

显存带宽就像这条路的车道数：

GDDR6X是双向8车道（1008GB/s）
HBM3是双向32车道（3.35TB/s）
统一内存是双向4-8车道（256-819GB/s）

3. 存储层次的"收纳智慧"聪明的厨房不会把所有东西都放在一个抽屉里。现代AI芯片采用"金字塔收纳法"：

80/20法则：80%的时间在拿20%的常用东西。把常用的放上层（缓存），不常用的放下层（HBM/DDR），整体效率最高。

二、四大显存门派：不同的"物流方案"

目前主流AI显存方案，就像不同的物流配送系统，各有适用场景。

1. GDDR：城市快送员（游戏显卡的"熟客"）

形象比喻：像城市里骑电动车的快送员，点对点直达，机动灵活。

技术本质：显存颗粒（如GDDR6X）通过密密麻麻的线路直接连到GPU，每颗芯片32-bit位宽，12颗并联就是384-bit总线。

代表产品：RTX 4090（24GB GDDR6X，1008GB/s）

优势：

随叫随到：技术成熟，成本可控
换车容易：显卡坏了换一张，升级方便
游戏优化：对画面渲染这种"短途配送"优化极好

局限：

车厢太小：单卡通常24GB封顶，装不下大模型
油耗太高：功耗450W，像 constantly 轰油门的跑车
长途不行：大模型需要频繁搬运数据，GDDR的"体力"跟不上
适合人群：游戏玩家、偶尔炼丹的轻度AI爱好者。

2. HBM：高铁货运专列（数据中心的"重器"）

形象比喻：像高铁货运专列，一次拉80节车厢（80GB），轨道直达GPU（2.5D封装），时速300公里（3.35TB/s）。

技术本质：3D堆叠——把多层DRAM像三明治一样叠起来，通过"电梯"（硅通孔TSV）垂直连接，然后和GPU封装在同一张"站台"（基板）上。

关键创新：

超宽轨道：1024-bit位宽（GDDR的32倍），一次能运32倍货物
零距离换乘：GPU和显存距离毫米级，数据"下车即到"
可加挂车厢：通过增加堆叠层数提升容量（HBM3e达12层）

演进路径：

HBM2（2016）：8节车厢，307GB/s时速
HBM3（2022）：12节车厢，819GB/s时速，带空调（ECC纠错）
HBM3e（2024）：16节车厢，1.2TB/s时速

局限：

票价极贵：比GDDR贵3-5倍，一张H100显卡数万美元
车票难买：依赖台积电CoWoS封装产能，供不应求
专车专用：只有数据中心级别的"货运站"（A100/H100）能用
比喻：这是给"国家级物流枢纽"准备的方案，个人用户看看就好。

3. 统一内存：开放式厨房（个人AI的"新贵"）

形象比喻：像开放式厨房，冰箱、操作台、灶台都在同一个开放空间（统一地址空间），厨师转身就能拿到食材，无需"从厨房走到仓库"（PCIe搬运）。

代表产品：

Apple Mac Studio（M3 Ultra）：512GB超大操作台，819GB/s搬运速度
极摩客EVO-X2：128GB操作台，256GB/s速度，价格亲民
NVIDIA DGX Spark：128GB操作台，273GB/s速度，专业级品质

核心优势：

超大操作台：最高512GB，单机能摆下405B模型的"食材"（量化后）
转身即取：零拷贝，CPU切好的菜GPU直接炒，无需装盘搬运
省电：LPDDR电压0.95V，比GDDR的1.35V更节能

性能代价：

车道较窄：256-819GB/s带宽，比HBM的3.35TB/s慢
共用通道：CPU和GPU像两辆车共用一条道，偶尔堵车（带宽争用）
适合人群：个人AI研究者、内容创作者、预算有限但需要跑大模型的开发者。

4. 片上SRAM：厨房台面本身（极端路线的"偏锋"）

形象比喻：像把食材直接放在灶台边，伸手就能拿到（微米级距离），速度极快，但台面只有微波炉转盘那么大（230MB）。

代表产品：Groq LPU（230MB SRAM，80TB/s片内带宽）

核心特点：

伸手可取：片内带宽80TB/s，是HBM的20倍，延迟纳秒级
预约制：所有操作提前排好序（时序编译），运行时绝不卡壳（确定性延迟）
适用边界：只能做"小份菜"（7B-13B模型）。要做大份菜（70B），得把食材分散到多个小厨房（多芯片并行），协调复杂度大增。

市场现状：Graphcore已停产，Groq艰难维持。这条路线适合对速度极度敏感的场景（如高频交易、实时对话），但通用性受限。

三、显存选型的"购物指南"

场景一：开中央厨房做大餐（大模型训练，100B+参数）

需求：操作台要够大（容量），搬运要快（带宽），可扩展（多机并联）。

方案：HBM3高铁专列 + NVLink高速公路

单卡H100（80GB车厢）
8卡并联组成640GB超级货运站
模型切分（Model Parallelism），像把大餐分多个灶台同时做

避坑：别用GDDR游戏卡训练大模型，24GB操作台连GPT-3（175B）的食材都摆不下。

场景二：家庭厨房做私房菜（个人推理，70B-120B）

需求：单机能装下食材 + 成本可控 + 易用。

方案：开放式厨房（统一内存）

Apple用户：Mac Studio M3 Ultra（512GB超大中岛台，819GB/s传送带）
Windows用户：EVO-X2（128GB操作台，256GB/s传送带）
专业开发者：DGX Spark（128GB操作台，273GB/s传送带，CUDA生态）

关键：70B模型BF16需140GB，INT4量化后约40GB，128GB操作台刚好够用，像小户型厨房精心收纳。

场景三：快餐店出餐（实时交互服务）

需求：首道菜上桌时间 < 100ms（首Token延迟），吞吐量高。

方案选择：

极致速度：Groq LPU（预约制，确定性出餐，但只能做小份）
平衡方案：H100/H200（大容量冷库+高速传送带+TensorRT优化）
成本敏感：统一内存 + vLLM/TensorRT-LLM（软件层面的"动线优化"）

场景四：户外野炊（端侧设备，手机/IoT）

需求：电池续航（能效比极致），便携。

方案：NPU + 小台面（SRAM）

手机SoC内置NPU（如Apple Neural Engine）
模型压缩至1-10B参数（便当盒大小）
INT4/INT8量化（食材预处理，缩小体积）

四、显存技术的未来："智慧物流"演进

1. 近计算存储（PIM）：仓库直接加工

在存储单元内集成计算能力，像在仓库里直接设置加工线，食材不用搬到厨房就能预处理。三星、SK海力士已推出HBM-PIM产品。

2. CXL互联：跨厨房联动

统一内存架构的跨机柜扩展，像多个开放式厨房打通，共享同一个超大操作台，保持食材同步（缓存一致性）。

3. 新型存储器：更高效的保鲜技术

MRAM（磁阻RAM）：非易失，断电不丢数据，接近SRAM速度

ReRAM（阻变RAM）：更高密度，更低功耗

4. 光学互连：光速传送带

芯片间光通信替代电信号，像把传送带升级成真空管道磁悬浮，速度更快，能耗更低。

结语：选显存就是选"厨房动线"

理解显存，记住三个厨房公式：

容量公式：食材总量（模型参数）× 包装大小（精度）≤ 操作台总面积（显存容量）
带宽公式：传送带速度（带宽）÷ 单次搬运量 ≈ 等待时间（计算单元空闲率）
延迟公式：首道菜时间 = 备料时间（数据加载） + 烹饪时间（计算）

对于绝大多数家庭用户（个人开发者），开放式厨房（统一内存架构）是当前最优解——够大、够快、够省电。

对于中央厨房（数据中心），高铁货运（HBM + NVLink）仍是无可替代的硬核方案。

而对于街头摊贩（边缘设备），随身便当盒（NPU + SRAM）的能效比无可匹敌。

选对了"厨房动线"，才能在AI大模型的烹饪之路上，事半功倍。