【AI驾驭手册-第五集】为什么大模型要很多显卡?算力中心科普

就在前几天，我想装台新电脑玩游戏，结果去电脑城一问才傻眼：稍微好点的游戏显卡，价格比半年前涨了快一倍，好多型号还断货。老板跟我说，现在根本拿不到货，产能全被 AI 公司包圆了，有钱都买不到。

更夸张的是前几天刚出的新闻，SpaceX 把自己建的超级算力中心直接打包出租给谷歌和 Anthropic，一个月收 21.7 亿美元，一年就是 260 多亿人民币。光这两笔生意，马斯克躺着就能赚近 700 亿。谁能想到，以前造火箭的公司，现在靠卖显卡算力成了 AI 行业最大的赢家。

回想几年前，显卡就是个玩游戏、做设计的配件，几百块就能买个不错的。谁能想到现在，它成了全世界最抢手的硬通货，比黄金还保值。一家 AI 公司一次下单几万张显卡，眼睛都不眨一下。

很多人都纳闷：不就是个聊天机器人吗？至于用这么多显卡？我家电脑一张显卡就能跑游戏，为什么大模型要几万张甚至几十万张显卡堆在一起？今天就用大白话讲清楚，显卡到底在大模型里干什么，顺便把 TOPS 这种行业常用词说明白，再带大家看看那些建在深山里的算力中心，到底是什么样子。

一、显卡和 CPU，根本不是一种干活的料

首先得搞明白一个最基础的问题：为什么大模型不用 CPU，非要用显卡？

说白了，CPU 和 GPU，天生就是干不同活的。CPU 就像一个全能的老师傅，会算账、会写字、会修东西，什么活都能干，但一次只能干一件事，干得慢。你让他算一道复杂的数学题，他能算得很准，但你让他同时算一万道简单的加减法，他就得一道一道来，累死也干不完。

而显卡（GPU）呢？它就是几百个、几千个年轻力壮的小伙子，每个人只会干最简单的重复活，但所有人能同时开工。你让他们算一万道加减法，一人一道，一秒钟就干完了。

衡量这种干活速度的单位，就叫 TOPS。

TOPS（Tera Operations Per Second）：每秒能完成的万亿次运算次数，是衡量 AI 算力的核心标准单位。1 TOPS 代表设备每秒可以执行 1 万亿次基础数学运算。

普通电脑的 CPU，算力也就几十 TOPS；而现在 AI 公司用的顶级训练显卡，单卡算力就能达到 2000 TOPS，相当于几百个 CPU 加起来的速度。

大模型不管是训练还是平时回答问题，干的恰恰就是这种 "海量简单重复计算" 的活。比如你问 AI"1+1 等于几"，它不是直接告诉你答案，而是要在脑子里算几百万次、几千万次数学运算，才能生成那几个字。

你一次提问，可能需要几百万次计算；如果有一千万人同时提问，那就是几千亿次计算。这种活，CPU 根本干不动，只有 GPU 能扛下来。单卡 TOPS 越高，同样时间能干的活就越多，这也是为什么 AI 公司只抢最高端的显卡。

二、大模型训练，就是一场算力的马拉松

可能有人会说，我用一张好显卡，能不能自己训练一个大模型？别想了，根本不可能。

我们之前说过，参数就是 AI 的知识点。训练一个千亿参数的大模型，相当于要让 AI 把全网所有的文章、图片、视频都读一遍，然后把每一个知识点都记在脑子里。这个过程，需要进行的计算量，是一个天文数字。

我给你算笔明白账：现在 AI 行业用的顶级训练显卡，单卡算力大约 2000 TOPS。训练一个千亿参数的大模型，总共需要进行大约 10^23 次运算。如果只用一张这样的显卡，得连续跑 150 多万年才能跑完。就算你买 1000 张，也得跑 1500 多年。

所以现在训练大模型，都是用几万张显卡同时跑，总算力能达到几亿 TOPS，连续跑两三个月，才能勉强训练完。中间只要有一张显卡坏了，或者停电一分钟，前面几天的活可能就白干了。

这还只是训练。平时大家用 AI 聊天、写文案，这个叫推理，同样需要大量显卡。你每发一句话，AI 都要调用好几张显卡来计算，才能给你回复。一个日活千万的 AI 产品，至少需要几千张显卡 24 小时不停转，总算力得有几千万 TOPS，才能撑得住不卡顿。

三、算力中心：藏在深山里的 AI 超级工厂

这么多显卡，总不能堆在办公室里吧？于是就有了算力中心，你可以把它理解成 "AI 的超级工厂"，所有的大模型，都是在这里面 "生产" 出来的。

一个标准的算力中心，长什么样子呢？就是一个巨大的厂房，里面摆满了一排排的机柜。一个机柜里能放 8 台服务器，每台服务器里插 8 张显卡，一个机柜就是 64 张显卡。按单卡 2000 TOPS 算，一个机柜的总算力就有 12.8 万 TOPS。一个中型的算力中心，有几千个这样的机柜，总算力能达到几十亿 TOPS，相当于几百万台普通电脑同时在干活。

你以为最值钱的是显卡？其实不是。最烧钱的，是配套的电力和散热。

几万张显卡同时跑，功率大得吓人。一个中型算力中心，一小时就要消耗几十万度电，一天的电费就是几百万人民币。很多算力中心都建在水电站、火电站旁边，就是为了就近用电，便宜一点。

而且显卡跑起来会产生巨大的热量，要是散热不好，几分钟就烧坏了。所以算力中心里有一套巨大的水冷或者风冷系统，24 小时不停地给显卡降温。光散热系统的电费，就占了总电费的三分之一。

除此之外，还要有专门的万兆网络系统、备用柴油发电机、24 小时值班的维护团队。建一个中型算力中心，至少要花几十亿，每年的运营成本也要十几亿。说它是 "吞金兽"，一点都不夸张。

四、为什么全世界都在抢显卡？算力永远不够用

现在你应该明白了，为什么 AI 公司都在疯抢显卡。因为没有显卡，就没有算力；没有足够的 TOPS，就做不出好的大模型。你有再好的技术、再多的数据，没有算力，一切都是空谈。

而且最可怕的是，大模型对算力的需求，是呈指数级增长的。三年前，一个百亿参数的模型就算大的了，训练只需要几千张显卡；现在，千亿参数是标配，训练需要几万张；万亿参数的模型都已经出来了，训练一次要十几万张显卡。模型越大，需要的总算力就越多。

现在全球每年生产的高端训练显卡，也就几十万张。光几个头部 AI 公司，一家一年就要买十几万张，根本不够分。所以才会出现显卡涨价、断货，甚至有钱都买不到的情况。这也是为什么 SpaceX 能把算力中心租出天价 —— 因为现在算力就是硬通货，谁有谁就能赚钱。

很多国家现在都把总算力当成了战略资源，就像以前的石油一样。谁掌握了更多的 TOPS，谁就能在 AI 时代领先一步。

五、好消息：算力会越来越便宜

不过也不用太担心，算力永远不够用，但也永远会越来越便宜。

一方面，新一代的显卡越来越强，单卡 TOPS 翻着倍涨，同样的价格，算力比三年前翻了好几倍。而且现在国内也能自己生产显卡了，不用再完全依赖进口，价格会慢慢降下来。

另一方面，技术也在不断优化。现在有很多新方法，能让同样的 TOPS，干更多的活。比如之前说的 MoE 混合专家模型，还有量化、蒸馏技术，能把大模型的能力压缩到小模型里，用很少的显卡就能跑。

再过几年，可能一个普通的手机，就能跑一个算力几十 TOPS 的大模型了。到那时候，我们就不用再依赖在线 AI，自己就能在本地用 AI 了。

后记

说到底，现在的 AI 竞争，本质上就是算力的竞争。谁的显卡多，谁的总算力 TOPS 高，谁就能做出更好的大模型。

对我们普通人来说，不用去抢显卡，也不用去建算力中心。我们只需要知道，随着算力越来越充足、越来越便宜，我们能用到的 AI 工具会越来越多，越来越好。