普通人也能看懂AI服务器这些核心硬件架构居然这么好懂,快来看!

原来我们用的AI都靠这些大家伙撑着

刷短视频的时候刷到AI画图，和AI聊天聊半小时，出门坐车用AI导航，这些看起来轻轻松松的操作背后，全靠机房里一堆堆的AI服务器在跑。

你肯定听过GPU这个词，但你知道还有NPU和TPU吗？这些花花绿绿的芯片到底差在哪，为啥AI非要用它们，不用我们普通电脑的CPU？

我之前跟着朋友去数据中心参观过，一推开门那阵仗真给我震住了。一排排一人高的机柜插得满满当当，风扇轰鸣声震得说话都得凑耳朵喊，这里面九成都是专门跑AI的服务器。

和我们普通家用的电脑比，这些家伙真的是“畸形”的配置。普通电脑一般就一个显卡，这里塞个四五块都是常规操作，有的甚至一块主板插八块显卡。供电和散热都得单独做，光一块高端AI显卡的功耗就能顶得上你家一整个冰箱。

说出来你可能不信，现在AI训练能出这么好的效果，一半功劳都得算在这些专门的硬件升级上。要是还靠着几十年前的老芯片，现在AI根本跑不起来这么复杂的大模型。

最常见的GPU 为啥成了AI的香饽饽

你买游戏显卡的时候，商家肯定会给你吹GPU有多强，能跑多少帧游戏。但你不知道的是，最早GPU其实不是为AI做的，是玩游戏的时候大家发现，哎，这东西算矩阵乘法怎么这么快？

为啥GPU比普通CPU适合AI？这个其实很好理解。CPU就像是一个老教授，知识渊博逻辑清晰，什么复杂问题都能一步步给你推出来，但一次只能给一个学生讲课。GPU就像是一个大班的教室，几百上千个年轻老师一起上课，每个人干的活不复杂，但是一起干，几千个活同时出结果，速度一下就上来了。

AI训练本质是什么？说白了就是一堆矩阵运算啊，就是对着成千上万的参数反复调整，全是重复的简单计算，刚好戳中了GPU的长处。

我有个做AI训练的朋友说，他们早年训练模型，拿CPU跑，跑一个小模型都得按天算，换了高端GPU之后，几个小时就出结果了，差别真的是天上地下。

现在市面上主流做AIGPU的就是英伟达，不管是训练还是推理，大部分公司用的都是他家的A100、H100这些卡，贵是真的贵，一张卡几十万，但性能也是真的强。也有其他厂商在做，比如AMD也出了专门的AI卡，就是市场份额还没上来。

很多人不知道的是，我们平时手机里的AI功能，其实也有小型GPU在支撑，只不过都是集成在主芯片里，不用单独插卡罢了。GPU能火到现在，完全是踩中了AI爆发的风口，说它是AI时代的发动机一点都不夸张。

专门为AI生的NPU 比GPU还要省劲儿

讲完GPU，再说说现在越来越火的NPU。NPU全称叫神经网络处理器，从名字就能看出来，人家就是天生为AI神经网络做的，和GPU这种半路出家的不一样。

NPU厉害在哪呢？它做了专门的架构优化，把AI常用的卷积运算这些直接做成硬件模块了，不用像GPU那样通用计算，所以相同算力下，NPU的功耗比GPU低很多，成本也更便宜。

你现在买的新手机，不管是苹果的A系列还是华为的麒麟，里面都集成了NPU，就是用来给你手机里的AI功能加速的。比如说你拍照的时候AI优化，语音助手识别，人脸解锁，这些全都是NPU在干活，比用CPU省电多了，速度还快。

现在很多端侧的AI设备，就是不用连云端，自己本地跑AI的那种，都喜欢用NPU。比如智能摄像头，智能音箱，还有汽车里的自动驾驶芯片，好多都是用NPU架构做的。

我自己换了带NPU的新手机之后，最明显的感受就是，离线翻译居然都能这么快，放在以前根本不敢想，原来没网根本用不了，现在对着一段话直接秒出结果，全都是NPU的功劳。

当然NPU也不是完美的，它更适合推理，就是已经训练好的模型拿来用，要是做大规模模型训练，还是GPU更通用更强悍，毕竟训练的时候需要改模型参数，灵活度要求更高。

谷歌家的TPU 专门给自己家AI量身定做

TPU可能很多人听得少，这是谷歌专门为自己家的AI业务做的芯片，不对普通消费者卖，都是谷歌自己云计算用的。

TPU其实也是专门为AI做的芯片，和NPU思路差不多，但是它更偏向于大规模部署，不管是训练还是推理都能做。谷歌最早出TPU就是因为自己家搜索业务每天都有海量的AI请求，用GPU成本太高了，干脆自己做一个专用芯片。

TPU最特别的地方是它的架构，专门做了脉动阵列设计，就是把计算单元排成阵列，数据像流水一样顺着流过去，一路走一路算，特别适合AI里那种大量的乘加运算，效率比GPU高好多。

我记得之前看到过谷歌的报告，说同样跑Transformer大模型，TPUv4的算力性价比比当时的GPU高好多，功耗还低一半。谷歌现在自家的BERT模型，还有GPT那个级别的大模型，训练的时候很多都用TPU集群跑。

可惜TPU不对外面卖，普通开发者用不上，只能在谷歌云上去租着用，所以国内大家接触得少。但不可否认，TPU的架构确实给行业开了个新方向，原来专用芯片确实能比通用GPU做得更好。

原来不同芯片都有自己合适的活儿

说了这么多，你应该明白了，GPU、NPU、TPU不是说谁一定能代替谁，大家干的活不一样。

做大规模大模型训练，现在还是GPU的天下，毕竟通用灵活，生态也好，大家都用惯了。要是端侧设备做AI推理，NPU就是更好的选择，省电便宜体积小，刚好够用。谷歌自己用TPU给自己业务服务，成本降好多，也是真香。

现在越来越多公司都开始做自己的AI芯片了，不管是互联网大厂还是硬件厂商，都不想卡在别人手里，未来肯定还会出更多不一样架构的AI芯片。

我个人觉得，未来AI硬件肯定会越来越细分，不同的场景用不同的芯片，不会像现在这样GPU一家独大。毕竟AI的需求太多样了，从云上的超大集群，到手边的手机手表，每个地方要求都不一样。

原来我们能随时随地用上这么方便的AI，背后其实是这么多不同硬件在拼命干活，说起来还挺神奇的对吧？你平时用AI的时候，有没有想过背后居然有这么多门道？