AI大模型是怎么吃掉这么多电的,未来他还会这么耗电吗?在训练阶段,GPT-4消耗的总电量为5177万度~6232万度电,如果按每户家庭每年用4800度电算(第二档电量),可供1万多户家庭用一年。在推理阶段,GPT-4每次标准访问的耗电为2.9Wh(如何定义标准访问没找到,就当他问个复杂的问题吧),用的人多了,其耗电量会轻轻松松超过100万度每天。本文作为加特牛的学习笔记,将用尽可能简单的语言向您解释两个问题:这里的大模型主要指的是如Deepseek,ChatGPT,xAI这样的生成式AI大模型,GPT是生成式AI大模型商业化的先行者,他之后的大模型都延续了GPT的底层技术,即Transformer模型、AI大模型耗电的根源也是源于Transformer模型的工作机制——海量的矩阵计算。AI大模型训练的前提是拥有海量文本,这些文本来源于各种网站、论文、书籍。这些文本会被被分割成一个个小碎片,并根据出现的频率被构建成词表(类似于我们的字典)。词表包含了海量文本中常见的字词和标点,这些元素有个你很熟悉的名字(Token),Deepseek V3的词表含有12.9万的常见Token,每一个Token将会有一个高维度数组与之对应,这个数组有多大呢,用Deepseek V3为例,它包含了7168个数字。因此,如果要将这张词表训练好,需要学习12.9万×7168=9.27亿个参数(大矩阵)。有了词表,就可以开始训练了,这里假设只输入一句话“我是加特牛”。输入这句话后,Transfomer模型会先将这句话根据词表分割,获取词向量,并加上位置信息。“我是加特牛”便分割成“我”,“是”,“加”,"特","牛",加上位置信息后,最终形成1个5×7168的矩阵R。这个R现在还不知道各个Token之间的语义关系。接下来的编码环节便是生成一个知道Token间语义关系的矩阵R’。这个环节首先要把R矩阵变成三个矩阵Q(查询),K(键),V(值)。具体做法是让R分别点积三个变换矩阵Wq,Wk和Wv,这三个变换矩阵的大小在一个脑袋(单头注意力)的关注下,是7168×7168,如果增加脑袋(多头注意力),假设为2,则变成7168×3584,但所需变换矩阵的数量也要翻倍。这些矩阵也是需要学习的。获取Q,K,V之后,便可以计算矩阵R中每个Token(行)之间的相似度,这里又是一系列的矩阵计算,让矩阵Q点积K的转置,然后除以Q列数的平方根。之后用Softmax方法归一化。对于R矩阵中的每个Token(行),都可以获得一个大小为1×5的相似系数矩阵X。将X与V点积后,再加上R,就得到了知道Token间语义的矩阵R’,用LayerNorm方法对R’归一化备用。之后要对R’做进一步特征提炼,用FFN 前馈网络将R’先升维,引入非线性,再降维。获得R”后再与R相加并用LayerNorm方法归一化。至此,编码工作全部完成。“我”,“是”,“加”,"特","牛"之间的语义关系也悉数获取。接下来进入解码环节(可以称为试着猜猜看)。这个环节要用到编码环节的生成K和V。主要的思路是将“我是加特牛”逐Token输入,预测下个Token。第1步与编码环节主要的不同是在计算Q与K的转置做点积并缩放之后,编码环节直接点积V,现在是加上掩码矩阵M之后,再点积V。从而将输入中没有Token给屏蔽掉。后面再做softmax归一,残差连接&LayerNorm归一,就是和前面一样了。第2步,将会用来自第一步的Q与来自编码环节的K和V,生成下一个Token的特征矩阵,具体过程与第1步后面的环节相同。至此为下一个Token找到一个增强的特征举证Rq,该矩阵将在后面再点积本文刚开始的词表矩阵,并做Softmax归一化,算出该Token与每个词的匹配概率。取概率最大的那个。至此,一次预测完成。如果预测对了,模型将结束本次训练,如果预测不对,计算预测词与真实词之间的损失函数,并通过梯度下降法或其他方法,更新所有需要学习的参数。如此往复,直到预测准确率达到要求。整个过程就是不断的重复举证计算,而且是高维矩阵计算。到现在我们已经了解了Transformer模型的工作机制,了解了它的工作本质就是各种矩阵计算。接下来我将介绍GPU的工作机制和耗电原理。GPU天生就是适合大模型训练,因为它从娘胎里就适合矩阵乘法,向量点积,卷积,归一化,并能并行计算不拉胯。GPU耗电的原理也很简单,其主要耗电原件为晶体管,GPU的计算过程就对应着晶体管的状态翻转。晶体管本质是个电容器,存在寄生电容。晶体管开关的过程就是寄生电容反复充放电的过程。GPU的主要功耗可用P=C×V^2×f×α来表示。其中C寄生电容,V为电容两端的电压,f为时钟频率,α是晶体管的平均翻转率。由于目前大模型的算力不足,GPY的α不会太低,其提升空间有限。C和V与芯片制程有很大的关系,目前英伟达的芯片用的是4nm工艺,如果采用1nm工艺,其耗功将大幅下降。根据以上分析,可以看到大模型降低功耗的方向主要有:1、降低芯片制程,开发1nm甚至以下工艺。或者采用C基芯片,突破硅基芯片极限。2、提高样本质量,优化大模型算法,减少矩阵计算量。从而降低功耗。以上为加特牛近期的学习心得,如有不当之处,也请各位同仁们指正。