AI每日课堂:智能世界的量纲-夜雨聆风

AI每日课堂:智能世界的量纲

看懂大模型参数、算力和能耗，一张表就够了

当你看到“7B模型”、“1000 TFLOPS算力”、“数据中心耗电50万度”这些数字时，是否真正理解它们背后的含义？本期AI每日课堂，带你一次性搞懂智能世界的核心量纲。

一、模型参数规模：B、M、T 分别代表什么？

参数是神经网络的“记忆单元”，数量越多，模型通常越“聪明”。

单位	英文全称	数值	常见示例
M	Million	100万（10⁶）	BERT-base（110M）
B	Billion	10亿（10⁹）	GPT-3（175B）、Llama 3（70B）
T	Trillion	1万亿（10¹²）	传闻GPT-4约1.8T

举个例子：

7B = 70亿个参数
70B = 700亿个参数

参数越多，模型能存储的知识越丰富，但训练和推理所需的算力及显存也越大。目前主流大模型集中在7B~70B区间，是性能与成本的最佳平衡点。

参数的精度：FP、INT 是什么？

参数不仅要有“数量”，还要有“质量”——这个质量就是精度。

精度类型	中文名称	位数	常见用途
FP32	单精度浮点	32位	训练时的梯度计算
FP16	半精度浮点	16位	主流训练和推理
BF16	脑浮点16	16位	大模型训练首选
FP8	8位浮点	8位	推理加速
INT8	8位整数	8位	量化推理，省显存
INT4	4位整数	4位	极致压缩，端侧部署

核心概念：

FP（Floating Point）：浮点数，能表示很大和很小的数值，适合训练。
INT（Integer）：整数，取值范围有限但运算快，常用于推理阶段的“量化”压缩。

精度与显存的关系（单个参数的字节数）：

FP32：4字节
FP16 / BF16：2字节
INT8：1字节
INT4：0.5字节

这就是为什么一个70亿参数的模型，用FP32需要约2.8GB显存，用INT4只需0.35GB（约350MB），可以在手机上流畅运行。

计算公式：模型显存占用 ≈ 参数量 × 每个参数占用的字节数

二、算力的规模：G、T、P 代表什么？

算力衡量芯片每秒能完成多少次运算，是AI芯片的“马力”。

单位	英文全称	数值	常见场景
G	Giga	10⁹（十亿）	手机NPU算力
T	Tera	10¹²（万亿）	消费级GPU
P	Peta	10¹⁵（千万亿）	AI训练芯片
E	Exa	10¹⁸（百亿亿）	超大规模集群

常用表示：FLOPS = Floating Point Operations Per Second（每秒浮点运算次数）

GFLOPS：每秒十亿次
TFLOPS：每秒万亿次
PFLOPS：每秒千万亿次
EFLOPS：每秒百亿亿次

算力和精度的关系

关键点： 同一芯片在不同精度下的算力是不同的，标注算力时必须说明精度。

精度	相对算力	典型用途
FP32	基准（1×）	训练基准
FP16	约2×	混合精度训练
FP8	约2-4×	推理加速
INT8	约2-4×	量化推理

举例（以某主流AI芯片为参考）：

FP32算力：约 60 TFLOPS
FP16算力：约 1 PFLOPS（≈1000 TFLOPS）
FP8算力：约 4 PFLOPS

看懂算力标注： 4 PFLOPS（FP8）和 1 PFLOPS（FP16）差4倍。看到“1000 TFLOPS”时一定要追问：这是什么精度下的算力？

三、电力消耗的量纲

AI芯片和数据中心的功耗惊人，以下是常用单位：

单位	英文	数值	常见场景
W	Watt（瓦）	1焦耳/秒	单芯片功耗
kW	千瓦	1000 W	单机柜功耗
MW	兆瓦	1000 kW	数据中心模块
GW	吉瓦	1000 MW	大型数据中心集群

直观对比：

家用空调：约 1-2 kW
一台AI训练服务器：约 6-10 kW
一个中型数据中心：10-100 MW
一个大型智算中心：200 MW 以上

电量的计量：度（kWh）

1度电 = 1 kWh = 1000瓦的设备运行1小时。

举例：

1块AI训练芯片（约700W）跑1小时 → 0.7度电
一个10 MW数据中心跑1天 → 10,000 kW × 24h = 24万度电

训练一个大模型的能耗（业内估算）： 训练千亿参数级别的模型，耗电量通常在数万到数十万度之间，相当于数千个家庭一年的用电量。

四、其他关键量纲

1. 内存/显存带宽

单位	含义	常见数值
GB/s	每秒千兆字节	普通DDR5内存
TB/s	每秒兆兆字节	高端AI芯片的HBM带宽

带宽决定了数据在芯片和内存间的传输速度，是大模型推理的关键瓶颈——算力再强，数据送不过来也没用。

2. 互联带宽

单位	含义	常见场景
GB/s	每秒千兆字节	多卡通信基础速率
TB/s	每秒兆兆字节	高端NVLink互联

多卡训练时，卡间通信速度决定集群效率。互联不足会导致“通信墙”，几百张卡加起来还不如几十张卡快。

3. 能效比

单位	含义	计算公式
TFLOPS/W	每瓦特算力	算力（TFLOPS）÷ 功耗（W）

能效比是衡量芯片“省不省电”的核心指标，直接决定数据中心的运营电费。

4. 显存容量

单位	含义	常见数值
GB	千兆字节	单卡80-192 GB
TB	兆兆字节	超节点总内存（可达数百TB）

显存容量决定了能装下多大的模型。一个70B模型用FP16需要约140GB显存，单卡装不下，需要用多卡并行或模型量化。

5. 时延（Latency）

单位	含义	常见场景
ms	毫秒（10⁻³秒）	推理响应时间（目标 <100ms）
μs	微秒（10⁻⁶秒）	芯片内部通信
ns	纳秒（10⁻⁹秒）	晶体管开关速度

时延对实时应用（自动驾驶、语音助手）至关重要——用户不会愿意等一个3秒才回复的AI。

写在最后：一张图总结智能世界的量纲

范畴	核心量纲	常见单位	一句话解释
模型规模	参数数量	M、B、T	模型的“脑细胞”数量
参数精度	数据类型	FP32/16/8、INT8/4	每个“脑细胞”的记录精度
算力	FLOPS	G、T、P、E	每秒能算多少次
电力	功率	W、kW、MW、GW	耗电速度
内存带宽	传输速率	GB/s、TB/s	数据在芯片和内存间的“路宽”
互联带宽	传输速率	GB/s、TB/s	多卡通信的“高速公路”
能效比	算力/功耗	TFLOPS/W	每度电产出多少算力
时延	响应时间	ms、μs、ns	从输入到输出的等待时间

三个核心公式（估算用）：

模型显存占用 ≈ 参数量 × 精度字节数
推理速度 ≈ 芯片算力 ÷ 模型计算量
集群有效算力 ≈ 单卡算力 × 卡数 × 并行效率（通常远低于100%）

理解这些量纲，你就能看懂任何AI芯片的规格表，也能判断“1000 TFLOPS”到底是不是真的厉害。