AI每日课堂:智能世界的量纲
看懂大模型参数、算力和能耗,一张表就够了
当你看到“7B模型”、“1000 TFLOPS算力”、“数据中心耗电50万度”这些数字时,是否真正理解它们背后的含义?本期AI每日课堂,带你一次性搞懂智能世界的核心量纲。
一、模型参数规模:B、M、T 分别代表什么?
参数是神经网络的“记忆单元”,数量越多,模型通常越“聪明”。
|
|
|
|
|
|---|---|---|---|
| M |
|
|
|
| B |
|
|
|
| T |
|
|
|
举个例子:
-
7B = 70亿个参数
-
70B = 700亿个参数
参数越多,模型能存储的知识越丰富,但训练和推理所需的算力及显存也越大。目前主流大模型集中在7B~70B区间,是性能与成本的最佳平衡点。
参数的精度:FP、INT 是什么?
参数不仅要有“数量”,还要有“质量”——这个质量就是精度。
|
|
|
|
|
|---|---|---|---|
| FP32 |
|
|
|
| FP16 |
|
|
|
| BF16 |
|
|
|
| FP8 |
|
|
|
| INT8 |
|
|
|
| INT4 |
|
|
|
核心概念:
-
FP(Floating Point):浮点数,能表示很大和很小的数值,适合训练。
-
INT(Integer):整数,取值范围有限但运算快,常用于推理阶段的“量化”压缩。
精度与显存的关系(单个参数的字节数):
-
FP32:4字节
-
FP16 / BF16:2字节
-
INT8:1字节
-
INT4:0.5字节
这就是为什么一个70亿参数的模型,用FP32需要约2.8GB显存,用INT4只需0.35GB(约350MB),可以在手机上流畅运行。
计算公式:模型显存占用 ≈ 参数量 × 每个参数占用的字节数
二、算力的规模:G、T、P 代表什么?
算力衡量芯片每秒能完成多少次运算,是AI芯片的“马力”。
|
|
|
|
|
|---|---|---|---|
| G |
|
|
|
| T |
|
|
|
| P |
|
|
|
| E |
|
|
|
常用表示:FLOPS = Floating Point Operations Per Second(每秒浮点运算次数)
-
GFLOPS:每秒十亿次
-
TFLOPS:每秒万亿次
-
PFLOPS:每秒千万亿次
-
EFLOPS:每秒百亿亿次
算力和精度的关系
关键点: 同一芯片在不同精度下的算力是不同的,标注算力时必须说明精度。
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
举例(以某主流AI芯片为参考):
-
FP32算力:约 60 TFLOPS
-
FP16算力:约 1 PFLOPS(≈1000 TFLOPS)
-
FP8算力:约 4 PFLOPS
看懂算力标注: 4 PFLOPS(FP8)和 1 PFLOPS(FP16)差4倍。看到“1000 TFLOPS”时一定要追问:这是什么精度下的算力?
三、电力消耗的量纲
AI芯片和数据中心的功耗惊人,以下是常用单位:
|
|
|
|
|
|---|---|---|---|
| W |
|
|
|
| kW |
|
|
|
| MW |
|
|
|
| GW |
|
|
|
直观对比:
-
家用空调:约 1-2 kW
-
一台AI训练服务器:约 6-10 kW
-
一个中型数据中心:10-100 MW
-
一个大型智算中心:200 MW 以上
电量的计量:度(kWh)
1度电 = 1 kWh = 1000瓦的设备运行1小时。
举例:
-
1块AI训练芯片(约700W)跑1小时 → 0.7度电
-
一个10 MW数据中心跑1天 → 10,000 kW × 24h = 24万度电
训练一个大模型的能耗(业内估算): 训练千亿参数级别的模型,耗电量通常在数万到数十万度之间,相当于数千个家庭一年的用电量。
四、其他关键量纲
1. 内存/显存带宽
|
|
|
|
|---|---|---|
| GB/s |
|
|
| TB/s |
|
|
带宽决定了数据在芯片和内存间的传输速度,是大模型推理的关键瓶颈——算力再强,数据送不过来也没用。
2. 互联带宽
|
|
|
|
|---|---|---|
| GB/s |
|
|
| TB/s |
|
|
多卡训练时,卡间通信速度决定集群效率。互联不足会导致“通信墙”,几百张卡加起来还不如几十张卡快。
3. 能效比
|
|
|
|
|---|---|---|
| TFLOPS/W |
|
|
能效比是衡量芯片“省不省电”的核心指标,直接决定数据中心的运营电费。
4. 显存容量
|
|
|
|
|---|---|---|
| GB |
|
|
| TB |
|
|
显存容量决定了能装下多大的模型。一个70B模型用FP16需要约140GB显存,单卡装不下,需要用多卡并行或模型量化。
5. 时延(Latency)
|
|
|
|
|---|---|---|
| ms |
|
|
| μs |
|
|
| ns |
|
|
时延对实时应用(自动驾驶、语音助手)至关重要——用户不会愿意等一个3秒才回复的AI。
写在最后:一张图总结智能世界的量纲
|
|
|
|
|
|---|---|---|---|
| 模型规模 |
|
|
|
| 参数精度 |
|
|
|
| 算力 |
|
|
|
| 电力 |
|
|
|
| 内存带宽 |
|
|
|
| 互联带宽 |
|
|
|
| 能效比 |
|
|
|
| 时延 |
|
|
|
三个核心公式(估算用):
-
模型显存占用 ≈ 参数量 × 精度字节数
-
推理速度 ≈ 芯片算力 ÷ 模型计算量
-
集群有效算力 ≈ 单卡算力 × 卡数 × 并行效率(通常远低于100%)
理解这些量纲,你就能看懂任何AI芯片的规格表,也能判断“1000 TFLOPS”到底是不是真的厉害。
夜雨聆风