想了解 AI 算力产业链,第一步先来拆解一台服务器
为便于理解,拆解前补充几点
🌟前面文章提过的PCB:印制电路板(电子产品里的骨架和血管)
🌟CPU(中央处理器)电脑/手机的“大脑总指挥”
- 擅长复杂、多变、串行任务,做事精细、逻辑强。
- 负责:运行系统、打开软件、处理文字、游戏逻辑、调度所有硬件。
- 特点:核心少、单个核心能力强,样样精通。
🌟GPU(图形处理器)专职“计算苦力/画面画师”
- 擅长大量、简单、重复的并行任务,人多力量大。
- 负责:画面渲染、游戏画质、视频剪辑、图片处理、AI运算。
- 特点:核心极多、单个核心简单,专一能干重复活
以一台英伟达DGX H100AI服务器为例👇

底板基座内置8块英伟达H100 GPU芯片👇

旁边焊上6片SK海力士的HBM高带宽存储芯片(目的是为了让 GPU计算更快)👇

在这一层上边嵌入了4块英伟达的 NV switch 交换芯片(目的是为了让8块GPU实现毫无延迟的内部沟通)👇

同时服务器内部还搭载着两块英特尔的xion CPU芯片,并配备了2TB的系统内存
另外还有一个30TB的固态硬盘(示意图👇)

然后用 PCle数据线将GPU集群- CPU集群-固态硬盘连接👇

综上,架构图如下

在这个架构里
🌟CPU集群就像一个大管家,负责从固态硬盘里翻找海量的训练数据
🌟PCle数据线负责传输数据
🌟GPU负责计算传来的数据
服务器背部配置了10张英伟达的极速网卡👇

网卡上面插着光模块👇

🌟服务器内部所有的芯片和器件全部承载在高性能的PCB板上
以上是算力硬件最核心的内部构造
夜雨聆风