乐于分享
好东西不私藏

AI每日课堂:智能世界的量纲

AI每日课堂:智能世界的量纲

看懂大模型参数、算力和能耗,一张表就够了

当你看到“7B模型”、“1000 TFLOPS算力”、“数据中心耗电50万度”这些数字时,是否真正理解它们背后的含义?本期AI每日课堂,带你一次性搞懂智能世界的核心量纲。

一、模型参数规模:B、M、T 分别代表什么?

参数是神经网络的“记忆单元”,数量越多,模型通常越“聪明”。

单位
英文全称
数值
常见示例
M
Million
100万(10⁶)
BERT-base(110M)
B
Billion
10亿(10⁹)
GPT-3(175B)、Llama 3(70B)
T
Trillion
1万亿(10¹²)
传闻GPT-4约1.8T

举个例子:

  • 7B = 70亿个参数

  • 70B = 700亿个参数

参数越多,模型能存储的知识越丰富,但训练和推理所需的算力及显存也越大。目前主流大模型集中在7B~70B区间,是性能与成本的最佳平衡点。

参数的精度:FP、INT 是什么?

参数不仅要有“数量”,还要有“质量”——这个质量就是精度

精度类型
中文名称
位数
常见用途
FP32
单精度浮点
32位
训练时的梯度计算
FP16
半精度浮点
16位
主流训练和推理
BF16
脑浮点16
16位
大模型训练首选
FP8
8位浮点
8位
推理加速
INT8
8位整数
8位
量化推理,省显存
INT4
4位整数
4位
极致压缩,端侧部署

核心概念:

  • FP(Floating Point):浮点数,能表示很大和很小的数值,适合训练。

  • INT(Integer):整数,取值范围有限但运算快,常用于推理阶段的“量化”压缩。

精度与显存的关系(单个参数的字节数):

  • FP32:4字节

  • FP16 / BF16:2字节

  • INT8:1字节

  • INT4:0.5字节

这就是为什么一个70亿参数的模型,用FP32需要约2.8GB显存,用INT4只需0.35GB(约350MB),可以在手机上流畅运行。

计算公式:模型显存占用 ≈ 参数量 × 每个参数占用的字节数

二、算力的规模:G、T、P 代表什么?

算力衡量芯片每秒能完成多少次运算,是AI芯片的“马力”。

单位
英文全称
数值
常见场景
G
Giga
10⁹(十亿)
手机NPU算力
T
Tera
10¹²(万亿)
消费级GPU
P
Peta
10¹⁵(千万亿)
AI训练芯片
E
Exa
10¹⁸(百亿亿)
超大规模集群

常用表示:FLOPS = Floating Point Operations Per Second(每秒浮点运算次数)

  • GFLOPS:每秒十亿次

  • TFLOPS:每秒万亿次

  • PFLOPS:每秒千万亿次

  • EFLOPS:每秒百亿亿次

算力和精度的关系

关键点: 同一芯片在不同精度下的算力是不同的,标注算力时必须说明精度。

精度
相对算力
典型用途
FP32
基准(1×)
训练基准
FP16
约2×
混合精度训练
FP8
约2-4×
推理加速
INT8
约2-4×
量化推理

举例(以某主流AI芯片为参考):

  • FP32算力:约 60 TFLOPS

  • FP16算力:约 1 PFLOPS(≈1000 TFLOPS)

  • FP8算力:约 4 PFLOPS

看懂算力标注: 4 PFLOPS(FP8)和 1 PFLOPS(FP16)差4倍。看到“1000 TFLOPS”时一定要追问:这是什么精度下的算力?

三、电力消耗的量纲

AI芯片和数据中心的功耗惊人,以下是常用单位:

单位
英文
数值
常见场景
W
Watt(瓦)
1焦耳/秒
单芯片功耗
kW
千瓦
1000 W
单机柜功耗
MW
兆瓦
1000 kW
数据中心模块
GW
吉瓦
1000 MW
大型数据中心集群

直观对比:

  • 家用空调:约 1-2 kW

  • 一台AI训练服务器:约 6-10 kW

  • 一个中型数据中心:10-100 MW

  • 一个大型智算中心:200 MW 以上

电量的计量:度(kWh)

1度电 = 1 kWh = 1000瓦的设备运行1小时。

举例:

  • 1块AI训练芯片(约700W)跑1小时 → 0.7度电

  • 一个10 MW数据中心跑1天 → 10,000 kW × 24h = 24万度电

训练一个大模型的能耗(业内估算): 训练千亿参数级别的模型,耗电量通常在数万到数十万度之间,相当于数千个家庭一年的用电量。

四、其他关键量纲

1. 内存/显存带宽

单位
含义
常见数值
GB/s
每秒千兆字节
普通DDR5内存
TB/s
每秒兆兆字节
高端AI芯片的HBM带宽

带宽决定了数据在芯片和内存间的传输速度,是大模型推理的关键瓶颈——算力再强,数据送不过来也没用。

2. 互联带宽

单位
含义
常见场景
GB/s
每秒千兆字节
多卡通信基础速率
TB/s
每秒兆兆字节
高端NVLink互联

多卡训练时,卡间通信速度决定集群效率。互联不足会导致“通信墙”,几百张卡加起来还不如几十张卡快。

3. 能效比

单位
含义
计算公式
TFLOPS/W
每瓦特算力
算力(TFLOPS)÷ 功耗(W)

能效比是衡量芯片“省不省电”的核心指标,直接决定数据中心的运营电费。

4. 显存容量

单位
含义
常见数值
GB
千兆字节
单卡80-192 GB
TB
兆兆字节
超节点总内存(可达数百TB)

显存容量决定了能装下多大的模型。一个70B模型用FP16需要约140GB显存,单卡装不下,需要用多卡并行或模型量化。

5. 时延(Latency)

单位
含义
常见场景
ms
毫秒(10⁻³秒)
推理响应时间(目标 <100ms)
μs
微秒(10⁻⁶秒)
芯片内部通信
ns
纳秒(10⁻⁹秒)
晶体管开关速度

时延对实时应用(自动驾驶、语音助手)至关重要——用户不会愿意等一个3秒才回复的AI。

写在最后:一张图总结智能世界的量纲

范畴
核心量纲
常见单位
一句话解释
模型规模
参数数量
M、B、T
模型的“脑细胞”数量
参数精度
数据类型
FP32/16/8、INT8/4
每个“脑细胞”的记录精度
算力
FLOPS
G、T、P、E
每秒能算多少次
电力
功率
W、kW、MW、GW
耗电速度
内存带宽
传输速率
GB/s、TB/s
数据在芯片和内存间的“路宽”
互联带宽
传输速率
GB/s、TB/s
多卡通信的“高速公路”
能效比
算力/功耗
TFLOPS/W
每度电产出多少算力
时延
响应时间
ms、μs、ns
从输入到输出的等待时间

三个核心公式(估算用):

  1. 模型显存占用 ≈ 参数量 × 精度字节数

  2. 推理速度 ≈ 芯片算力 ÷ 模型计算量

  3. 集群有效算力 ≈ 单卡算力 × 卡数 × 并行效率(通常远低于100%)

理解这些量纲,你就能看懂任何AI芯片的规格表,也能判断“1000 TFLOPS”到底是不是真的厉害。