AI大模型是怎么吃掉这么多电的,未来他还会这么耗电吗?

先看一组恐怖的数据：

在训练阶段，GPT-4消耗的总电量为5177万度~6232万度电，如果按每户家庭每年用4800度电算（第二档电量），可供1万多户家庭用一年。在推理阶段，GPT-4每次标准访问的耗电为2.9Wh（如何定义标准访问没找到，就当他问个复杂的问题吧），用的人多了，其耗电量会轻轻松松超过100万度每天。

本文作为加特牛的学习笔记，将用尽可能简单的语言向您解释两个问题：

1、AI大模型为什么如此耗电？

2、怎么样才能将AI大模型的能耗降下来？

为了弄清以上两个问题，首先要搞明白两个机制：

1、AI大模型的工作机制

2、GPU的工作和耗电机制

这里的大模型主要指的是如Deepseek，ChatGPT，xAI这样的生成式AI大模型，GPT是生成式AI大模型商业化的先行者，他之后的大模型都延续了GPT的底层技术，即Transformer模型、AI大模型耗电的根源也是源于Transformer模型的工作机制——海量的矩阵计算。

AI大模型训练的前提是拥有海量文本，这些文本来源于各种网站、论文、书籍。这些文本会被被分割成一个个小碎片，并根据出现的频率被构建成词表（类似于我们的字典）。词表包含了海量文本中常见的字词和标点，这些元素有个你很熟悉的名字（Token），Deepseek V3的词表含有12.9万的常见Token，每一个Token将会有一个高维度数组与之对应，这个数组有多大呢，用Deepseek V3为例，它包含了7168个数字。因此，如果要将这张词表训练好，需要学习12.9万×7168＝9.27亿个参数（大矩阵）。

有了词表，就可以开始训练了，这里假设只输入一句话“我是加特牛”。

输入这句话后，Transfomer模型会先将这句话根据词表分割，获取词向量，并加上位置信息。

“我是加特牛”便分割成“我”，“是”，“加”，"特"，"牛"，加上位置信息后，最终形成1个5×7168的矩阵R。这个R现在还不知道各个Token之间的语义关系。

接下来的编码环节便是生成一个知道Token间语义关系的矩阵R’。

这个环节首先要把R矩阵变成三个矩阵Q（查询），K（键），V（值）。具体做法是让R分别点积三个变换矩阵Wq，Wk和Wv，这三个变换矩阵的大小在一个脑袋（单头注意力）的关注下，是7168×7168，如果增加脑袋（多头注意力），假设为2，则变成7168×3584，但所需变换矩阵的数量也要翻倍。这些矩阵也是需要学习的。

获取Q，K，V之后，便可以计算矩阵R中每个Token（行）之间的相似度，这里又是一系列的矩阵计算，让矩阵Q点积K的转置，然后除以Q列数的平方根。之后用Softmax方法归一化。对于R矩阵中的每个Token（行），都可以获得一个大小为1×5的相似系数矩阵X。将X与V点积后，再加上R，就得到了知道Token间语义的矩阵R’，用LayerNorm方法对R’归一化备用。

之后要对R’做进一步特征提炼，用FFN 前馈网络将R’先升维，引入非线性，再降维。

R”=W2·Max（0，R’·W1+b1）+b2

其中W1，W2，b1和b2都是大矩阵。

获得R”后再与R相加并用LayerNorm方法归一化。

至此，编码工作全部完成。“我”，“是”，“加”，"特"，"牛"之间的语义关系也悉数获取。

接下来进入解码环节（可以称为试着猜猜看）。这个环节要用到编码环节的生成K和V。主要的思路是将“我是加特牛”逐Token输入，预测下个Token。

解码过程主要包含三个步骤：

1、用掩码做自注意力

2、用解码环节的Q与编码环节的

3、FNN前馈+残差&LayerNorm归一化。

第1步与编码环节主要的不同是在计算Q与K的转置做点积并缩放之后，编码环节直接点积V，现在是加上掩码矩阵M之后，再点积V。从而将输入中没有Token给屏蔽掉。后面再做softmax归一，残差连接&LayerNorm归一，就是和前面一样了。

第2步，将会用来自第一步的Q与来自编码环节的K和V，生成下一个Token的特征矩阵，具体过程与第1步后面的环节相同。

第3步和编码环节的相同。

至此为下一个Token找到一个增强的特征举证Rq，该矩阵将在后面再点积本文刚开始的词表矩阵，并做Softmax归一化，算出该Token与每个词的匹配概率。取概率最大的那个。

至此，一次预测完成。如果预测对了，模型将结束本次训练，如果预测不对，计算预测词与真实词之间的损失函数，并通过梯度下降法或其他方法，更新所有需要学习的参数。如此往复，直到预测准确率达到要求。

整个过程就是不断的重复举证计算，而且是高维矩阵计算。

到现在我们已经了解了Transformer模型的工作机制，了解了它的工作本质就是各种矩阵计算。接下来我将介绍GPU的工作机制和耗电原理。

GPU天生就是适合大模型训练，因为它从娘胎里就适合矩阵乘法，向量点积，卷积，归一化，并能并行计算不拉胯。

GPU耗电的原理也很简单，其主要耗电原件为晶体管，GPU的计算过程就对应着晶体管的状态翻转。晶体管本质是个电容器，存在寄生电容。晶体管开关的过程就是寄生电容反复充放电的过程。

GPU的主要功耗可用P＝C×V^2×f×α来表示。

其中C寄生电容，V为电容两端的电压，f为时钟频率，α是晶体管的平均翻转率。

由于目前大模型的算力不足，GPY的α不会太低，其提升空间有限。

C和V与芯片制程有很大的关系，目前英伟达的芯片用的是4nm工艺，如果采用1nm工艺，其耗功将大幅下降。

根据以上分析，可以看到大模型降低功耗的方向主要有：

1、降低芯片制程，开发1nm甚至以下工艺。或者采用C基芯片，突破硅基芯片极限。

2、提高样本质量，优化大模型算法，减少矩阵计算量。从而降低功耗。

以上为加特牛近期的学习心得，如有不当之处，也请各位同仁们指正。