
刷短视频的时候刷到AI画图,和AI聊天聊半小时,出门坐车用AI导航,这些看起来轻轻松松的操作背后,全靠机房里一堆堆的AI服务器在跑。
你肯定听过GPU这个词,但你知道还有NPU和TPU吗?这些花花绿绿的芯片到底差在哪,为啥AI非要用它们,不用我们普通电脑的CPU?

我之前跟着朋友去数据中心参观过,一推开门那阵仗真给我震住了。一排排一人高的机柜插得满满当当,风扇轰鸣声震得说话都得凑耳朵喊,这里面九成都是专门跑AI的服务器。
和我们普通家用的电脑比,这些家伙真的是“畸形”的配置。普通电脑一般就一个显卡,这里塞个四五块都是常规操作,有的甚至一块主板插八块显卡。供电和散热都得单独做,光一块高端AI显卡的功耗就能顶得上你家一整个冰箱。
说出来你可能不信,现在AI训练能出这么好的效果,一半功劳都得算在这些专门的硬件升级上。要是还靠着几十年前的老芯片,现在AI根本跑不起来这么复杂的大模型。

你买游戏显卡的时候,商家肯定会给你吹GPU有多强,能跑多少帧游戏。但你不知道的是,最早GPU其实不是为AI做的,是玩游戏的时候大家发现,哎,这东西算矩阵乘法怎么这么快?
为啥GPU比普通CPU适合AI?这个其实很好理解。CPU就像是一个老教授,知识渊博逻辑清晰,什么复杂问题都能一步步给你推出来,但一次只能给一个学生讲课。GPU就像是一个大班的教室,几百上千个年轻老师一起上课,每个人干的活不复杂,但是一起干,几千个活同时出结果,速度一下就上来了。
AI训练本质是什么?说白了就是一堆矩阵运算啊,就是对着成千上万的参数反复调整,全是重复的简单计算,刚好戳中了GPU的长处。
我有个做AI训练的朋友说,他们早年训练模型,拿CPU跑,跑一个小模型都得按天算,换了高端GPU之后,几个小时就出结果了,差别真的是天上地下。

现在市面上主流做AIGPU的就是英伟达,不管是训练还是推理,大部分公司用的都是他家的A100、H100这些卡,贵是真的贵,一张卡几十万,但性能也是真的强。也有其他厂商在做,比如AMD也出了专门的AI卡,就是市场份额还没上来。
很多人不知道的是,我们平时手机里的AI功能,其实也有小型GPU在支撑,只不过都是集成在主芯片里,不用单独插卡罢了。GPU能火到现在,完全是踩中了AI爆发的风口,说它是AI时代的发动机一点都不夸张。

讲完GPU,再说说现在越来越火的NPU。NPU全称叫神经网络处理器,从名字就能看出来,人家就是天生为AI神经网络做的,和GPU这种半路出家的不一样。
NPU厉害在哪呢?它做了专门的架构优化,把AI常用的卷积运算这些直接做成硬件模块了,不用像GPU那样通用计算,所以相同算力下,NPU的功耗比GPU低很多,成本也更便宜。
你现在买的新手机,不管是苹果的A系列还是华为的麒麟,里面都集成了NPU,就是用来给你手机里的AI功能加速的。比如说你拍照的时候AI优化,语音助手识别,人脸解锁,这些全都是NPU在干活,比用CPU省电多了,速度还快。
现在很多端侧的AI设备,就是不用连云端,自己本地跑AI的那种,都喜欢用NPU。比如智能摄像头,智能音箱,还有汽车里的自动驾驶芯片,好多都是用NPU架构做的。
我自己换了带NPU的新手机之后,最明显的感受就是,离线翻译居然都能这么快,放在以前根本不敢想,原来没网根本用不了,现在对着一段话直接秒出结果,全都是NPU的功劳。
当然NPU也不是完美的,它更适合推理,就是已经训练好的模型拿来用,要是做大规模模型训练,还是GPU更通用更强悍,毕竟训练的时候需要改模型参数,灵活度要求更高。

TPU可能很多人听得少,这是谷歌专门为自己家的AI业务做的芯片,不对普通消费者卖,都是谷歌自己云计算用的。
TPU其实也是专门为AI做的芯片,和NPU思路差不多,但是它更偏向于大规模部署,不管是训练还是推理都能做。谷歌最早出TPU就是因为自己家搜索业务每天都有海量的AI请求,用GPU成本太高了,干脆自己做一个专用芯片。
TPU最特别的地方是它的架构,专门做了脉动阵列设计,就是把计算单元排成阵列,数据像流水一样顺着流过去,一路走一路算,特别适合AI里那种大量的乘加运算,效率比GPU高好多。
我记得之前看到过谷歌的报告,说同样跑Transformer大模型,TPUv4的算力性价比比当时的GPU高好多,功耗还低一半。谷歌现在自家的BERT模型,还有GPT那个级别的大模型,训练的时候很多都用TPU集群跑。

可惜TPU不对外面卖,普通开发者用不上,只能在谷歌云上去租着用,所以国内大家接触得少。但不可否认,TPU的架构确实给行业开了个新方向,原来专用芯片确实能比通用GPU做得更好。

说了这么多,你应该明白了,GPU、NPU、TPU不是说谁一定能代替谁,大家干的活不一样。
做大规模大模型训练,现在还是GPU的天下,毕竟通用灵活,生态也好,大家都用惯了。要是端侧设备做AI推理,NPU就是更好的选择,省电便宜体积小,刚好够用。谷歌自己用TPU给自己业务服务,成本降好多,也是真香。
现在越来越多公司都开始做自己的AI芯片了,不管是互联网大厂还是硬件厂商,都不想卡在别人手里,未来肯定还会出更多不一样架构的AI芯片。
我个人觉得,未来AI硬件肯定会越来越细分,不同的场景用不同的芯片,不会像现在这样GPU一家独大。毕竟AI的需求太多样了,从云上的超大集群,到手边的手机手表,每个地方要求都不一样。
原来我们能随时随地用上这么方便的AI,背后其实是这么多不同硬件在拼命干活,说起来还挺神奇的对吧?你平时用AI的时候,有没有想过背后居然有这么多门道?
夜雨聆风