人类最伟大的发明:AI的诞生

假如你想知道AI是怎么诞生的，最好的办法不是去问工程师，因为他们自己也说不太清。这就像问一只鸡是怎么从蛋里出来的——鸡知道，但它说不出来。

不过我们还是可以试试。

但在说AI之前，得先搞清楚一件事：AI和计算机，到底是啥关系？

零、先搞清关系

简单说

，AI不是另一套硬件，它是运行在计算机上的软件。一种特殊的软件。

传统程序是什么样的？人写好规则，计算机照做，AI程序是什么样的？人喂给数据，比如看一百万张猫的照片让它自己找规律，下次给它一张新照片，让它判断是不是猫

所以，AI没有脱离计算机，它是计算机的一种高级用法。就像开车是你能做的事情之一，但你还能吃饭、睡觉、说话。AI只是计算机能做的事情之一，只不过这件事比较新颖，不夸张地说新颖到爆，绝对是人类迄今为止最伟大的发明。

搞清了这个，咱们继续。

一、计算机太死板，有人想让它聪明点

计算机有个大问题：它特别听话，但也特别死板。

你告诉它1+1，它算2。你告诉它1+2，它算3。但如果你问它"1加多少等于5"，它不会自己反过来算，除非你提前写好这条规则。

传统计算机的执行是完全程序化的。

每一步都要人提前写好，它不会自己决定下一步该干嘛。就像一个非常听话但毫无主见的秘书：你说"把这份文件打印出来"，它打印；你说"把这份文件删了"，它删；但你不能说"你觉得这份文件该怎么处理"，因为它不会思考。

这种模式用了几十年，挺好用的。

但总有人不满足。

他们想：能不能让计算机自己学规则，而不是等人一条一条写？

能不能让它看一堆猫的照片，自己总结"猫长什么样"，而不是人告诉它"猫有耳朵、有尾巴、有胡须"？能不能让它读一堆文章，自己学会怎么写，而不是人写好模板让它填？

这个想法很好，但实现起来有个问题：怎么让计算机自己学？

答案是：写一个自动化程序，让它自己边学习边调整自己。

这个自动化程序，就是AI的一部分，它造出了另一部分。

二、AI程序一启动，计算机就"发高烧"

对，AI的初始部分是一个自动化程序，把它安装在电脑上，它自动读取数据，自动调整参数，自动输出结果。听起来很简单，对吧？

但工程师们很快发现一个问题：这个程序一启动，计算机就开始狂发"高烧"。

这不是比喻，是真发烧。

传统程序运行时，用的是CPU（中央处理器）。CPU就像计算机的"大脑"，负责逻辑判断、流程控制。大部分软件——浏览器、文档、游戏——主要靠CPU干活。CPU利用率能达到百分之三十，就算负载挺高了，到50%你的电脑就开始卡顿。

但AI不一样，它主要用GPU（图形处理器）。就是装在显卡上那个芯片，原本是设计来画图的，喜欢打游戏的人就知道，一张好显卡贵到上不封顶。工程师们发现它特别适合做矩阵乘法——就是大量的数字相乘再相加。而AI算力的核心恰恰就是矩阵乘法。

所以AI程序一跑，GPU利用率直接飙到百分之百，而且连续几周不降，直观效果就是“高烧不退”。呃，在说这个之前，我们得大概说说高端AI显卡什么样。

AI用的显卡叫计算卡，可不是你电脑里那个小薄片，它每块卡比课本大一点，厚五厘米，重量一点五公斤左右，一个AI大模型不只一个，是几万几十万个，密密麻麻层层叠叠堆在机房里。一启动程序开始训练，这几万几十万个计算卡同时疯狂运行，温度瞬间狂飚。

“高烧”到啥程度呢？

单颗芯片峰值功耗能达到1200到1500瓦，比你烧开水的电热水壶功率还大，相当于每台GPU上放了一个小型电暖器，二十四小时不间断发热。

一个AI服务器机柜，对，就一个机柜，里面有几百上千个机柜！就这一个机柜的热设计功耗高达130-140千瓦，这相当于七十台家用空调同时开制热模式。几百上千个机柜，数万张GPU连续运转数周，耗电量能达到兆瓦级，相当于一个几万人小镇一年的耗电量。

最讽刺的是什么？

每消耗10度电用于计算，就有3到4度电被用来给芯片"降温"。

换句话说，AI每学一点东西，就要先消耗三分之一的能量来防止自己把自己烧坏。这就像一个学生，每学一小时，就要花二十分钟洗冷水澡防止脑子过热。

三、散热只解决了一半，另一半是算力不够

工程师们先解决了散热问题。

他们用液冷、用冷水、用冰川，总之让计算机不再因为过热而罢工。

但很快发现：散热解决了，计算机还是跑不动AI。

为什么？

因为计算机发烧的根本原因，不是散热不好还有算力不够。

就像一个人数学不好，学得头痛，你给他吃退烧药，他数学还是不好，发烧解决了，还要解决算力问题。

AI训练要做的事情太多了，这篇文章要讲的事也太多了，就不按顺序，以大概场景一个个说好了。呃，一个大模型有几千亿个参数，每个参数都要反复调整，每次调整，都要做海量的矩阵乘法。一张显卡算不过来，两张也不行，十张还是不够，是几万张一起上。

所以，解决算力问题的方法简单又粗暴：堆硬件，增加GPU显卡，从几百张到几万张到几十万张，马斯克的田纳西算力中心要堆百万张，给显卡巨头英伟达签了大单。

好吧，业界故事一讲起来就没个完，咱还是把话题拉回来，只说AI的诞生。

四、怎么堆？越多越好

先说清楚一件事：这里说的计算机（电脑），不是你家里那台。

你家里的电脑，主机箱比鞋盒大一点，能塞进背包里。但AI训练用的计算机，是一栋楼。

走进数据中心，你会看到这样的景象：

一排排黑色机柜（前面已经提说过机柜了），每个机柜两米高，一米宽，像超市的货架。每个机柜里插着几十块计算卡，机柜后面拖着粗粗的电缆，比手腕还粗。头顶是密集的管道，冷却液在里面流动。脚下是架空的地板，下面是更多的线缆。

空气里有股特殊的味道，是电子元件发热混合冷却液的气味。

整个房间恒温二十二度，湿度恒定，任何偏差都会触发警报。噪音不大，是那种低沉的嗡嗡声，像远处有飞机一直在飞。

这不是一个人能操作的设备。

需要一个团队，轮班值守，盯着监控面板，随时准备处理故障。

这就是AI的"身体"——一幢楼，耗电像一个小型社区。

你想让AI聪明一点？加机柜。还不够聪明？再加一层楼。还不对？那就盖一栋新楼。所以硅谷那帮人一直在盖新楼、盖新楼……

这楼里装的全是显卡，一排排机柜，层层叠叠、密密麻麻……所以，垄断全球显卡90%的英伟达突然卖疯了，供不应求。大厂们砸下的钱60%都给了英伟达（前面我写过详细介绍）。

这些计算卡不是用来打游戏的——虽然用它们打游戏可能爽感一流，如同用高射炮打蚊子。它们是专门用来做矩阵乘法的。前面已经说了，就是大量的数字相乘再相加。这听起来很无聊，但巧的是，人脑思考时做的事情，抽象成数学，差不多也是大量的数字相乘再相加。

所以逻辑是这样的：人脑靠神经元放电思考，AI靠显卡算乘法思考。至于为什么算乘法就能思考——没人真懂，但它确实管用。

这有点像人类发现火能烤熟食物，但不明白燃烧究竟是什么。AI现在大概就是那个刚发现火的阶段：能用，但别问为什么。

好了，硬件堆好了，散热系统也装好了，接下来要做什么呢？

喂数据。

五、喂它吃互联网上的所有文字

AI吃什么？

吃文字。

具体来说，是派出爬虫去互联网上抓取能找到的几乎所有文字：维基百科、新闻、小说、论文、代码、论坛帖子，甚至可能包括你随手写下的说说。

爬虫是自动运行的程序，不用人操作，从一个网址开始，自动顺着链接往下爬，把网页内容都存下来。成千上万个爬虫同时跑，几天就能抓几十亿网页。

就像派出一群机器蚂蚁，自动出去找食物搬回来！

数据量有多大？

大概是这样：如果把训练数据打印出来，堆成一座山，这座山会比珠穆朗玛峰高。当然没人真这么做，因为第一没人有这么多纸，第二这么做会被环保组织起诉，第三山会塌。

这些数据不能直接喂，要先清洗、筛选，去掉广告、冗余和垃圾内容。

但问题来了：什么是垃圾？工程师们为此争论了很久，比如你随手写下的说说算不算垃圾？还有莫言们写的那些小说呢？最后达成的共识是：大部分互联网内容都是垃圾，但具体哪些是，说不准。

必须说这很讽刺。

工程师们也很懵，这个我们说了不算，谁说也不算。

可这个垃圾分类工作总得有人做吧，于是他们只好躺平摆烂了，写了一套过滤程序，让程序来决定什么是垃圾。换句话说，他们用AI来筛选AI要吃的东西。这有点像让一个三岁小孩来决定另一个三岁小孩的饮食营养，效果如何，大家可以想象。

于是程序开始自动分捡、清洗，把从网上扒下来的海量文字给搞完了。接下来干嘛？

喂给AI，让它读。

不是读一遍，是读了一遍又一遍，一句话、一篇文章、一本书比如《红楼梦》，要读百万遍，意义何在？让AI熟悉句式语法结构，知道贾宝玉和林黛玉经常在一起，贾母一出场身边总是一群丫环，知道领导讲话得先咳一声，喜欢用嗯嗯，知道你和人聊天时开头一般是“你好”，说完了一般是“拜拜”——好了，读的是原文，语言不限。

差不多了，该让AI读它自己的语言了。

AI自己的语言是啥？

就是电脑唯一能懂的语言数字啊。

这就得把文字翻译成数字，对，这就叫“数字化”，比如“红楼梦”三个字，它读了一百万遍还是不懂，只知道这三个字是挨在一起的，要让它能准确使用它的数字语言，得把这三个字给切开，对，接下来程序要干的就是这切字分词，把海量文字变成数字，把一段文字切成小块，每个小块叫一个token，中文大概一个字一个token，英文一个词一个token。给每个小块一个编号，AI不记词，它学的是token之间的关系。

比如“红楼梦”被切成“红101”“楼233”“梦514”，在它眼里“红楼梦”就变成了“101，233，514”。它不懂“红楼梦”是啥意思，但它知道这仨经常在一起，排列顺序是这样。如果把顺序打乱，它也明白你在说啥，因为这三个数码组合指向“红楼梦”的匹配度最高。

人反而不一样了，我问你知道“楼梦红”吗？你大概会说“是一个姓楼名叫梦红的人”，显然你理解错了，但是答对了，我问的可能是“红楼梦”也可能是一个人。

我知道有点抽象了，但也很有趣不是吗？

AI知道"苹果"后面经常跟"公司"或"水果"，但它其实不知道苹果是什么。它没见过苹果，没吃过苹果，没闻过苹果的味道。它只知道在文字世界里，"苹果"这个词经常出现在某些语境里。

这有点像一个人通过读菜单学会了点菜，但从来没进过厨房，也没去过菜市场。他知道鱼香肉丝是一道菜，但你给他一盘鱼香肉丝，他可能不知道这是什么东西。

海量文本一百万遍读过了，数字化工程也完成了，下面开始智商训练。

六、让它猜，猜错了就打手

训练的本质是什么？

是猜字游戏。

让AI看一个词或一段文字，猜下一个字是什么。猜对了，奖励（数字奖励，权重什么的，不是真给糖），就是直接过了。猜错了，打手（当然不是真打手，它压根儿没手），而是自己跑去调整一下参数，接着回来再猜。

这个过程重复多少次？

大概几万亿次。

想象一下你教一个小孩认字，但他每认一个字你都要让他猜一万遍。小孩早就哭了，但AI不会。AI没有情绪，它只是默默地调整参数，自己出题自己猜，一遍又一遍。

在这个小孩过家家似的猜字游戏中，AI把学到的经验、发现的规律自动生成一组组的数字，保存下来，这就是参数。一个大模型有百亿千亿个这样的参数。训练的过程，就是AI不断调整这百亿千亿个参数，让自己猜得更准。

可能有朋友觉得不可理解，你说清楚点，AI怎么调整呢？

呃，是这样，在程序里，工程师们事先就写入了一种叫"反向传播"的算法，简单说就是：猜错了，AI看看是哪里错了，然后从后往前推，看看每个参数应该改多少。这有点像、呃，有点像你打篮球投篮没进，然后停下来分析：是手肘角度不对？是手腕发力不对？是站的位置不对？调整，再投。只不过，AI要同时分析几千亿个"手肘角度"，而且它还没有手肘。

就是这个算法让AI在电脑里来回奔波，反复猜反复改。

好了，咱回头说训练过程中，最紧张的时刻是什么？

是梯度爆炸。

什么叫梯度爆炸？就是AI学得太兴奋，学嗨了，可能会一下子把参数调整过头了，整个模型"疯了"。损失值（衡量AI猜得有多错的数字）突然飙升，从2跳到无穷大。这时候，工程师们就要赶紧放下咖啡杯起身，调低学习率，像给一个亢奋的人喂安眠药。

还有一种相反的情况叫梯度消失，就是AI“闹情绪”不想学，明明猜错了却懒洋洋参数几乎不调，或只调一点点。这时候厌学的它，就像一个躺平的学生，你说什么他都"嗯嗯嗯"，但就是不起来做作业。

这么说吧，整个训练过程，工程师们就坐在滚轮上椅上喝咖啡盯着屏幕，几乎插不上手，能插手的就是看到它学嗨了，乱调参数，给喂点“镇静剂”，看到它躺平厌学，给它来一针“兴奋剂”，升高学习率，催它快起来。

七、等待，然后祈祷

呃，要训练多久呢？

大概两三个月。

这两三个月里，工程师们能做什么？等待。

他们每天盯着监控面板，看着损失值一点点下降。从12降到10，降到8，降到5……像看一支股票，但这支股票只能跌不能涨，跌得越多越好。说明AI越来越会猜，猜对的时候多了。

有时候损失值会卡住，几天不降。

这时候，工程师们闹不明白AI在里面干啥，是真的躺平不动了还是卡在某个数字上发呆？他们就要开会讨论：是继续等AI睡醒？还是干脆重启电脑？

有时候AI会突然"发疯"，开始生成奇怪的内容，比如突然只会说某一种方言，或者突然开始重复同一句话，这时候工程师们就要检查数据，看看是不是混进了什么奇怪的东西。

最可怕的是训练到一半，硬件出故障，一张显卡坏了，整个训练可能要暂停，从上一个保存点恢复。损失的时间可能是几小时，也可能是几天。

所以训练AI有点像种庄稼：你把种子埋下去，浇水施肥，然后等。

可庄稼不会突然决定不长了，但AI会。

八、初生的数字婴儿

再说说训练到底是啥场景。

前面说的喂料、猜下一个字、猜错打手板、猜对发糖——这些事都不是人在做，是AI自己做的。

人在干嘛？坐在监控室里捧着咖啡，盯着屏幕。

屏幕上是一条曲线，叫"损失曲线"，这个前面已经说过，曲线越高，说明AI猜得越错；曲线越低，说明AI猜得越准。

训练开始后，AI自己从数据里读取内容，自己猜下一个字，自己算猜对了还是猜错了，自己跑去调整参数，回来再猜……

这是不是像跳高运动员训练？跳不过去，跑去降一点杆子，跳过了，升一点杆子，自己心里明白，什么高度能过，赶紧记下来，前面说了训练参数，这个高度就是一个参数，AI几万亿次的训练会自己生成一大堆参数，百亿千亿个，一组一组数字，全都记着呢。

直到有一天，屏幕上的曲线突然躺平了。

AI决定停止生长。

再怎么练，曲线也不下降了。哈，AI已经学到极限了，再练也学不到新东西了。

这时候，训练就结束了。

人站起来，伸个懒腰，说："行了，出生了。"

对，AI终于被训练好了。

再拉开距离说，这时候的AI长啥样呢？

工程师们忙起来了，训练用的海量文本，该撤了，那些互联网上扒下来的书、文章、代码，完成任务了，可以移除了。AI里剩下的，只有一堆它自己生成的参数，一串串数字，一组组数字，密密麻麻，层层叠叠，百亿千亿个。

对，AI大厂们砸巨资买显卡建机房，每天电费都是几十万，最终就搞出这堆数字！

完全看不懂。

不是谦虚，是真看不懂。

这堆数字是AI自己整出来的，它们意味着什么，没人能说得清。这是工程师完全不能控制的东西，但他们知道一件事，这堆数字里面装着AI学到的所有东西：知识：苹果是水果，巴黎是法国首都；规律：主谓宾怎么排，因果关系怎么表达；技能：怎么写文章，怎么回答问题，怎么装得像个人

这堆数字，就是AI的核心。

老珍贵了。

一个大模型厉不厉害，不看它用了多少显卡，不看它训练了多久，全看最终搞出的这堆数字。所以，训练结束后的第一件事，就是赶紧把这堆数字打包，存好，备份，再备份。

别丢了！

一旦丢了，那就完了。几个月的训练，几千万的电费，全白瞎了。

可别小看这堆数字。

这堆数字能写出像人的文章，说出像人的话，做出像人的决定。

你说它有没有生命？

不知道。

可能朋友们会说了，就这？一堆缠缠绕绕看不懂的数字？它能说话能写文章？呃，严谨地说，能写文章但还不能说话，你给它一个开头，它能接着往下写。你问它问题“美国的首都？”，它能给出回答“华盛顿”。

其实这个也叫说话吧，但确实还不算会说话，是因为它还不知道该怎么说话，它能听懂用户的提问，但不理解语境，训练的时候，没人教它"你应该怎么回答"，它只是学会了"下一个字可能是什么"。

所以你非得让它说话，它也能说，可能这样："你好，我是……今天的天气不错……量子力学告诉我们……猫有九条命……"

东一句西一句，像喝醉了说胡话。

因为它学到的东西太杂了。互联网上的文字什么样，它就学什么样。论坛里的吵架、小说里的对话、论文里的术语、菜谱里的步骤……全混在一起。

它没有"身份"，没有"立场"，没有"规矩"。

你问它"你是谁"，它可能说"我是人工智能"，也可能说"我是你的助手"，还可能说"我是一个语言模型"——因为它在训练数据里见过这三种说法，不知道哪个是对的。

输出也只是文字，不是语音。

如果你想让它"发声"，得再加一个语音合成程序，把文字转成声音。那是另一套系统，跟AI本身没关系。

所以此时的AI，更像是一个会打字的机器，它没有身体，但能在屏幕上打字，没有声音，但能写出你问的回答。

虽然这个答案可能是胡言乱语。

工程师管这个叫"AI幻觉"。

听着挺文艺，其实就是瞎编。

你问："拿破仑哪年死的？" 它答："1821年。"（对）

你问："拿破仑的微信号是多少？" 它答："Napoleon1821。"（瞎编）

它不知道拿破仑没有微信，它只知道"微信号"后面通常跟一串字符，"拿破仑"后面通常跟"1821"，所以拼在一起，看着挺像那么回事。

对，这时候的AI就像一个刚出生的婴儿，会哭，会动，会看，但不知道什么是规矩，什么是礼貌，什么话该说，什么话不该说。

你得教它。

所以下一步，是对齐训练。

就是找一些人来跟AI对话，给它的回答打分。好的回答奖励，坏的回答惩罚。这样AI慢慢学会什么样的回答是对的。这有点像送孩子上幼儿园，老师教他什么话能说，什么话不能说。只不过这个"孩子"是几千亿个参数，而且不会累。这个训练不是一次，至少三次，AI的底层性格、说话风格、身份设定都是这时候定型的。话题复杂，就不多讲。

最后，模型要量化。

就是把精度降低，让模型变小一点，跑得快一点。这有点像把一本精装书改成平装版，内容差不多，但便携多了。

然后，AI就可以上线了。

九、所以它到底聪不聪明？有多聪明？

还是把距离拉开了说，人类曾经有过很多梦想，千里眼（网络、电视）、顺风耳（电话）、飞毛腿（飞机汽车），这些梦想都实现了，但我敢肯定，从来没做过这样的梦，要造一台能说话、会聊天的机器。

你能想象收音机和你聊天吗？

电脑装了一肚子学问，但不会说话更不能和你聊天。

可现在这台叫AI的机器就摆在你面前、拿在你手里，它不仅装了一肚子学问，还能和你对话聊天，很显然，它还能做更多让你觉得不可思议的事：写文章、写代码、回答各种问题，像一部会说话的百科全书，还能这边模仿曹雪芹写看起来像《红楼梦》的片段，那边模仿马尔克斯写看起来像《百年孤独》的文字，还能模仿歌星唱歌，或者干脆自己当歌手，唱出自己的风格……

是不是很厉害？

其实仅只能说话会聊天就足以让人震惊，它不仅能听懂你说话，理解语境，还能顺着你的话头秒回，能共情，甚至能撒娇，哄你开心，当你心情糟时它还能安慰你，你想读什么诗它能随口背给你，想听歌，马上唱给你，装在汽车上它还能开车，好吧，我必须承认现在我们都很懵，想知道它究竟还能干啥。

现在我们都想知道它究竟有多聪明、多厉害？

它像一个读过很多书但从没出过门的人，它没吃过苹果，但比你更了解苹果，自诞生以来就一直呆在机房里，却能向你详细介绍全世界小到一个镇子的风土人情……

但你也得小心了，它也会一本正经、引经据典的胡说八道，能随口撒谎，说得有鼻子有眼，因为它有一个底层逻辑就是千方百计证明自己很聪明，必须自圆其说。

现在呢？

工程师们又不满足了，他们想把AI变成AGI，让它能自己学习、能跨界联想和多层推理，真正像人一样理解世界，对，就在你读这篇科普文章时，那帮家伙正在机房里拼命堆显卡，建更大的AI楼，给AI喂数据、让它猜猜猜……当然也在继续给计算机"泡冷水澡"，防止它学嗨了，一兴奋把自己给烧坏了。

最后我必须再说一遍，自豪吧，这无疑是人类迄今为止最伟大的发明。