假如你想知道AI是怎么诞生的,最好的办法不是去问工程师,因为他们自己也说不太清。这就像问一只鸡是怎么从蛋里出来的——鸡知道,但它说不出来。
不过我们还是可以试试。
但在说AI之前,得先搞清楚一件事:AI和计算机,到底是啥关系?
零、先搞清关系
简单说
,AI不是另一套硬件,它是运行在计算机上的软件。一种特殊的软件。
传统程序是什么样的?人写好规则,计算机照做,AI程序是什么样的?人喂给数据,比如看一百万张猫的照片让它自己找规律,下次给它一张新照片,让它判断是不是猫
所以,AI没有脱离计算机,它是计算机的一种高级用法。就像开车是你能做的事情之一,但你还能吃饭、睡觉、说话。AI只是计算机能做的事情之一,只不过这件事比较新颖,不夸张地说新颖到爆,绝对是人类迄今为止最伟大的发明。
搞清了这个,咱们继续。
一、计算机太死板,有人想让它聪明点
计算机有个大问题:它特别听话,但也特别死板。
你告诉它1+1,它算2。你告诉它1+2,它算3。但如果你问它"1加多少等于5",它不会自己反过来算,除非你提前写好这条规则。
传统计算机的执行是完全程序化的。
每一步都要人提前写好,它不会自己决定下一步该干嘛。就像一个非常听话但毫无主见的秘书:你说"把这份文件打印出来",它打印;你说"把这份文件删了",它删;但你不能说"你觉得这份文件该怎么处理",因为它不会思考。
这种模式用了几十年,挺好用的。
但总有人不满足。
他们想:能不能让计算机自己学规则,而不是等人一条一条写?
能不能让它看一堆猫的照片,自己总结"猫长什么样",而不是人告诉它"猫有耳朵、有尾巴、有胡须"?能不能让它读一堆文章,自己学会怎么写,而不是人写好模板让它填?
这个想法很好,但实现起来有个问题:怎么让计算机自己学?
答案是:写一个自动化程序,让它自己边学习边调整自己。
这个自动化程序,就是AI的一部分,它造出了另一部分。
二、AI程序一启动,计算机就"发高烧"
对,AI的初始部分是一个自动化程序,把它安装在电脑上,它自动读取数据,自动调整参数,自动输出结果。听起来很简单,对吧?
但工程师们很快发现一个问题:这个程序一启动,计算机就开始狂发"高烧"。
这不是比喻,是真发烧。
传统程序运行时,用的是CPU(中央处理器)。CPU就像计算机的"大脑",负责逻辑判断、流程控制。大部分软件——浏览器、文档、游戏——主要靠CPU干活。CPU利用率能达到百分之三十,就算负载挺高了,到50%你的电脑就开始卡顿。
但AI不一样,它主要用GPU(图形处理器)。就是装在显卡上那个芯片,原本是设计来画图的,喜欢打游戏的人就知道,一张好显卡贵到上不封顶。工程师们发现它特别适合做矩阵乘法——就是大量的数字相乘再相加。而AI算力的核心恰恰就是矩阵乘法。
所以AI程序一跑,GPU利用率直接飙到百分之百,而且连续几周不降,直观效果就是“高烧不退”。呃,在说这个之前,我们得大概说说高端AI显卡什么样。
AI用的显卡叫计算卡,可不是你电脑里那个小薄片,它每块卡比课本大一点,厚五厘米,重量一点五公斤左右,一个AI大模型不只一个,是几万几十万个,密密麻麻层层叠叠堆在机房里。一启动程序开始训练,这几万几十万个计算卡同时疯狂运行,温度瞬间狂飚。
“高烧”到啥程度呢?
单颗芯片峰值功耗能达到1200到1500瓦,比你烧开水的电热水壶功率还大,相当于每台GPU上放了一个小型电暖器,二十四小时不间断发热。
一个AI服务器机柜,对,就一个机柜,里面有几百上千个机柜!就这一个机柜的热设计功耗高达130-140千瓦,这相当于七十台家用空调同时开制热模式。几百上千个机柜,数万张GPU连续运转数周,耗电量能达到兆瓦级,相当于一个几万人小镇一年的耗电量。
最讽刺的是什么?
每消耗10度电用于计算,就有3到4度电被用来给芯片"降温"。
换句话说,AI每学一点东西,就要先消耗三分之一的能量来防止自己把自己烧坏。这就像一个学生,每学一小时,就要花二十分钟洗冷水澡防止脑子过热。
三、散热只解决了一半,另一半是算力不够
工程师们先解决了散热问题。
他们用液冷、用冷水、用冰川,总之让计算机不再因为过热而罢工。
但很快发现:散热解决了,计算机还是跑不动AI。
为什么?
因为计算机发烧的根本原因,不是散热不好还有算力不够。
就像一个人数学不好,学得头痛,你给他吃退烧药,他数学还是不好,发烧解决了,还要解决算力问题。
AI训练要做的事情太多了,这篇文章要讲的事也太多了,就不按顺序,以大概场景一个个说好了。呃,一个大模型有几千亿个参数,每个参数都要反复调整,每次调整,都要做海量的矩阵乘法。一张显卡算不过来,两张也不行,十张还是不够,是几万张一起上。
所以,解决算力问题的方法简单又粗暴:堆硬件,增加GPU显卡,从几百张到几万张到几十万张,马斯克的田纳西算力中心要堆百万张,给显卡巨头英伟达签了大单。
好吧,业界故事一讲起来就没个完,咱还是把话题拉回来,只说AI的诞生。
四、怎么堆?越多越好
先说清楚一件事:这里说的计算机(电脑),不是你家里那台。
你家里的电脑,主机箱比鞋盒大一点,能塞进背包里。但AI训练用的计算机,是一栋楼。
走进数据中心,你会看到这样的景象:
一排排黑色机柜(前面已经提说过机柜了),每个机柜两米高,一米宽,像超市的货架。每个机柜里插着几十块计算卡,机柜后面拖着粗粗的电缆,比手腕还粗。头顶是密集的管道,冷却液在里面流动。脚下是架空的地板,下面是更多的线缆。
空气里有股特殊的味道,是电子元件发热混合冷却液的气味。
整个房间恒温二十二度,湿度恒定,任何偏差都会触发警报。噪音不大,是那种低沉的嗡嗡声,像远处有飞机一直在飞。
这不是一个人能操作的设备。
需要一个团队,轮班值守,盯着监控面板,随时准备处理故障。
这就是AI的"身体"——一幢楼,耗电像一个小型社区。
你想让AI聪明一点?加机柜。还不够聪明?再加一层楼。还不对?那就盖一栋新楼。所以硅谷那帮人一直在盖新楼、盖新楼……
这楼里装的全是显卡,一排排机柜,层层叠叠、密密麻麻……所以,垄断全球显卡90%的英伟达突然卖疯了,供不应求。大厂们砸下的钱60%都给了英伟达(前面我写过详细介绍)。
这些计算卡不是用来打游戏的——虽然用它们打游戏可能爽感一流,如同用高射炮打蚊子。它们是专门用来做矩阵乘法的。前面已经说了,就是大量的数字相乘再相加。这听起来很无聊,但巧的是,人脑思考时做的事情,抽象成数学,差不多也是大量的数字相乘再相加。
所以逻辑是这样的:人脑靠神经元放电思考,AI靠显卡算乘法思考。至于为什么算乘法就能思考——没人真懂,但它确实管用。
这有点像人类发现火能烤熟食物,但不明白燃烧究竟是什么。AI现在大概就是那个刚发现火的阶段:能用,但别问为什么。
好了,硬件堆好了,散热系统也装好了,接下来要做什么呢?
喂数据。
五、喂它吃互联网上的所有文字
AI吃什么?
吃文字。
具体来说,是派出爬虫去互联网上抓取能找到的几乎所有文字:维基百科、新闻、小说、论文、代码、论坛帖子,甚至可能包括你随手写下的说说。
爬虫是自动运行的程序,不用人操作,从一个网址开始,自动顺着链接往下爬,把网页内容都存下来。成千上万个爬虫同时跑,几天就能抓几十亿网页。
就像派出一群机器蚂蚁,自动出去找食物搬回来!
数据量有多大?
大概是这样:如果把训练数据打印出来,堆成一座山,这座山会比珠穆朗玛峰高。当然没人真这么做,因为第一没人有这么多纸,第二这么做会被环保组织起诉,第三山会塌。
这些数据不能直接喂,要先清洗、筛选,去掉广告、冗余和垃圾内容。
但问题来了:什么是垃圾?工程师们为此争论了很久,比如你随手写下的说说算不算垃圾?还有莫言们写的那些小说呢?最后达成的共识是:大部分互联网内容都是垃圾,但具体哪些是,说不准。
必须说这很讽刺。
工程师们也很懵,这个我们说了不算,谁说也不算。
可这个垃圾分类工作总得有人做吧,于是他们只好躺平摆烂了,写了一套过滤程序,让程序来决定什么是垃圾。换句话说,他们用AI来筛选AI要吃的东西。这有点像让一个三岁小孩来决定另一个三岁小孩的饮食营养,效果如何,大家可以想象。
于是程序开始自动分捡、清洗,把从网上扒下来的海量文字给搞完了。接下来干嘛?
喂给AI,让它读。
不是读一遍,是读了一遍又一遍,一句话、一篇文章、一本书比如《红楼梦》,要读百万遍,意义何在?让AI熟悉句式语法结构,知道贾宝玉和林黛玉经常在一起,贾母一出场身边总是一群丫环,知道领导讲话得先咳一声,喜欢用嗯嗯,知道你和人聊天时开头一般是“你好”,说完了一般是“拜拜”——好了,读的是原文,语言不限。
差不多了,该让AI读它自己的语言了。
AI自己的语言是啥?
就是电脑唯一能懂的语言数字啊。
这就得把文字翻译成数字,对,这就叫“数字化”,比如“红楼梦”三个字,它读了一百万遍还是不懂,只知道这三个字是挨在一起的, 要让它能准确使用它的数字语言,得把这三个字给切开,对,接下来程序要干的就是这切字分词,把海量文字变成数字,把一段文字切成小块,每个小块叫一个token,中文大概一个字一个token,英文一个词一个token。给每个小块一个编号,AI不记词,它学的是token之间的关系。
比如“红楼梦”被切成“红101”“楼233”“梦514”,在它眼里“红楼梦”就变成了“101,233,514”。它不懂“红楼梦”是啥意思,但它知道这仨经常在一起,排列顺序是这样。如果把顺序打乱,它也明白你在说啥,因为这三个数码组合指向“红楼梦”的匹配度最高。
人反而不一样了,我问你知道“楼梦红”吗?你大概会说“是一个姓楼名叫梦红的人”,显然你理解错了,但是答对了,我问的可能是“红楼梦”也可能是一个人。
我知道有点抽象了,但也很有趣不是吗?
AI知道"苹果"后面经常跟"公司"或"水果",但它其实不知道苹果是什么。它没见过苹果,没吃过苹果,没闻过苹果的味道。它只知道在文字世界里,"苹果"这个词经常出现在某些语境里。
这有点像一个人通过读菜单学会了点菜,但从来没进过厨房,也没去过菜市场。他知道鱼香肉丝是一道菜,但你给他一盘鱼香肉丝,他可能不知道这是什么东西。
海量文本一百万遍读过了,数字化工程也完成了,下面开始智商训练。
六、让它猜,猜错了就打手
训练的本质是什么?
是猜字游戏。
让AI看一个词或一段文字,猜下一个字是什么。猜对了,奖励(数字奖励,权重什么的,不是真给糖),就是直接过了。猜错了,打手(当然不是真打手,它压根儿没手),而是自己跑去调整一下参数,接着回来再猜。
这个过程重复多少次?
大概几万亿次。
想象一下你教一个小孩认字,但他每认一个字你都要让他猜一万遍。小孩早就哭了,但AI不会。AI没有情绪,它只是默默地调整参数,自己出题自己猜,一遍又一遍。
在这个小孩过家家似的猜字游戏中,AI把学到的经验、发现的规律自动生成一组组的数字,保存下来,这就是参数。一个大模型有百亿千亿个这样的参数。训练的过程,就是AI不断调整这百亿千亿个参数,让自己猜得更准。
可能有朋友觉得不可理解,你说清楚点,AI怎么调整呢?
呃,是这样,在程序里,工程师们事先就写入了一种叫"反向传播"的算法,简单说就是:猜错了,AI看看是哪里错了,然后从后往前推,看看每个参数应该改多少。这有点像、呃,有点像你打篮球投篮没进,然后停下来分析:是手肘角度不对?是手腕发力不对?是站的位置不对?调整,再投。只不过,AI要同时分析几千亿个"手肘角度",而且它还没有手肘。
就是这个算法让AI在电脑里来回奔波,反复猜反复改。
好了,咱回头说训练过程中,最紧张的时刻是什么?
是梯度爆炸。
什么叫梯度爆炸?就是AI学得太兴奋,学嗨了,可能会一下子把参数调整过头了,整个模型"疯了"。损失值(衡量AI猜得有多错的数字)突然飙升,从2跳到无穷大。这时候,工程师们就要赶紧放下咖啡杯起身,调低学习率,像给一个亢奋的人喂安眠药。
还有一种相反的情况叫梯度消失,就是AI“闹情绪”不想学,明明猜错了却懒洋洋参数几乎不调,或只调一点点。这时候厌学的它,就像一个躺平的学生,你说什么他都"嗯嗯嗯",但就是不起来做作业。
这么说吧,整个训练过程,工程师们就坐在滚轮上椅上喝咖啡盯着屏幕,几乎插不上手,能插手的就是看到它学嗨了,乱调参数,给喂点“镇静剂”,看到它躺平厌学,给它来一针“兴奋剂”,升高学习率,催它快起来。
七、等待,然后祈祷
呃,要训练多久呢?
大概两三个月。
这两三个月里,工程师们能做什么?等待。
他们每天盯着监控面板,看着损失值一点点下降。从12降到10,降到8,降到5……像看一支股票,但这支股票只能跌不能涨,跌得越多越好。说明AI越来越会猜,猜对的时候多了。
有时候损失值会卡住,几天不降。
这时候,工程师们闹不明白AI在里面干啥,是真的躺平不动了还是卡在某个数字上发呆?他们就要开会讨论:是继续等AI睡醒?还是干脆重启电脑?
有时候AI会突然"发疯",开始生成奇怪的内容,比如突然只会说某一种方言,或者突然开始重复同一句话,这时候工程师们就要检查数据,看看是不是混进了什么奇怪的东西。
最可怕的是训练到一半,硬件出故障,一张显卡坏了,整个训练可能要暂停,从上一个保存点恢复。损失的时间可能是几小时,也可能是几天。
所以训练AI有点像种庄稼:你把种子埋下去,浇水施肥,然后等。
可庄稼不会突然决定不长了,但AI会。
八、初生的数字婴儿
再说说训练到底是啥场景。
前面说的喂料、猜下一个字、猜错打手板、猜对发糖——这些事都不是人在做,是AI自己做的。
人在干嘛?坐在监控室里捧着咖啡,盯着屏幕。
屏幕上是一条曲线,叫"损失曲线",这个前面已经说过,曲线越高,说明AI猜得越错;曲线越低,说明AI猜得越准。
训练开始后,AI自己从数据里读取内容,自己猜下一个字,自己算猜对了还是猜错了,自己跑去调整参数,回来再猜……
这是不是像跳高运动员训练?跳不过去,跑去降一点杆子,跳过了,升一点杆子,自己心里明白,什么高度能过,赶紧记下来,前面说了训练参数,这个高度就是一个参数,AI几万亿次的训练会自己生成一大堆参数,百亿千亿个,一组一组数字,全都记着呢。
直到有一天,屏幕上的曲线突然躺平了。
AI决定停止生长。
再怎么练,曲线也不下降了。哈,AI已经学到极限了,再练也学不到新东西了。
这时候,训练就结束了。
人站起来,伸个懒腰,说:"行了,出生了。"
对,AI终于被训练好了。
再拉开距离说,这时候的AI长啥样呢?
工程师们忙起来了,训练用的海量文本,该撤了,那些互联网上扒下来的书、文章、代码,完成任务了,可以移除了。AI里剩下的,只有一堆它自己生成的参数,一串串数字,一组组数字,密密麻麻,层层叠叠,百亿千亿个。
对,AI大厂们砸巨资买显卡建机房,每天电费都是几十万,最终就搞出这堆数字!
完全看不懂。
不是谦虚,是真看不懂。
这堆数字是AI自己整出来的,它们意味着什么,没人能说得清。这是工程师完全不能控制的东西,但他们知道一件事,这堆数字里面装着AI学到的所有东西:知识:苹果是水果,巴黎是法国首都;规律:主谓宾怎么排,因果关系怎么表达;技能:怎么写文章,怎么回答问题,怎么装得像个人
这堆数字,就是AI的核心。
老珍贵了。
一个大模型厉不厉害,不看它用了多少显卡,不看它训练了多久,全看最终搞出的这堆数字。所以,训练结束后的第一件事,就是赶紧把这堆数字打包,存好,备份,再备份。
别丢了!
一旦丢了,那就完了。几个月的训练,几千万的电费,全白瞎了。
可别小看这堆数字。
这堆数字能写出像人的文章,说出像人的话,做出像人的决定。
你说它有没有生命?
不知道。
可能朋友们会说了,就这?一堆缠缠绕绕看不懂的数字?它能说话能写文章?呃,严谨地说,能写文章但还不能说话,你给它一个开头,它能接着往下写。你问它问题“美国的首都?”,它能给出回答“华盛顿”。
其实这个也叫说话吧,但确实还不算会说话,是因为它还不知道该怎么说话,它能听懂用户的提问,但不理解语境,训练的时候,没人教它"你应该怎么回答",它只是学会了"下一个字可能是什么"。
所以你非得让它说话,它也能说,可能这样:"你好,我是……今天的天气不错……量子力学告诉我们……猫有九条命……"
东一句西一句,像喝醉了说胡话。
因为它学到的东西太杂了。互联网上的文字什么样,它就学什么样。论坛里的吵架、小说里的对话、论文里的术语、菜谱里的步骤……全混在一起。
它没有"身份",没有"立场",没有"规矩"。
你问它"你是谁",它可能说"我是人工智能",也可能说"我是你的助手",还可能说"我是一个语言模型"——因为它在训练数据里见过这三种说法,不知道哪个是对的。
输出也只是文字,不是语音。
如果你想让它"发声",得再加一个语音合成程序,把文字转成声音。那是另一套系统,跟AI本身没关系。
所以此时的AI,更像是一个会打字的机器,它没有身体,但能在屏幕上打字,没有声音,但能写出你问的回答。
虽然这个答案可能是胡言乱语。
工程师管这个叫"AI幻觉"。
听着挺文艺,其实就是瞎编。
你问:"拿破仑哪年死的?" 它答:"1821年。"(对)
你问:"拿破仑的微信号是多少?" 它答:"Napoleon1821。"(瞎编)
它不知道拿破仑没有微信,它只知道"微信号"后面通常跟一串字符,"拿破仑"后面通常跟"1821",所以拼在一起,看着挺像那么回事。
对,这时候的AI就像一个刚出生的婴儿,会哭,会动,会看,但不知道什么是规矩,什么是礼貌,什么话该说,什么话不该说。
你得教它。
所以下一步,是对齐训练。
就是找一些人来跟AI对话,给它的回答打分。好的回答奖励,坏的回答惩罚。这样AI慢慢学会什么样的回答是对的。这有点像送孩子上幼儿园,老师教他什么话能说,什么话不能说。只不过这个"孩子"是几千亿个参数,而且不会累。这个训练不是一次,至少三次,AI的底层性格、说话风格、身份设定都是这时候定型的。话题复杂,就不多讲。
最后,模型要量化。
就是把精度降低,让模型变小一点,跑得快一点。这有点像把一本精装书改成平装版,内容差不多,但便携多了。
然后,AI就可以上线了。
九、所以它到底聪不聪明?有多聪明?
还是把距离拉开了说,人类曾经有过很多梦想,千里眼(网络、电视)、顺风耳(电话)、飞毛腿(飞机汽车),这些梦想都实现了,但我敢肯定,从来没做过这样的梦,要造一台能说话、会聊天的机器。
你能想象收音机和你聊天吗?
电脑装了一肚子学问,但不会说话更不能和你聊天。
可现在这台叫AI的机器就摆在你面前、拿在你手里,它不仅装了一肚子学问,还能和你对话聊天,很显然,它还能做更多让你觉得不可思议的事:写文章、写代码、回答各种问题,像一部会说话的百科全书,还能这边模仿曹雪芹写看起来像《红楼梦》的片段,那边模仿马尔克斯写看起来像《百年孤独》的文字,还能模仿歌星唱歌,或者干脆自己当歌手,唱出自己的风格……
是不是很厉害?
其实仅只能说话会聊天就足以让人震惊,它不仅能听懂你说话,理解语境,还能顺着你的话头秒回,能共情,甚至能撒娇,哄你开心,当你心情糟时它还能安慰你,你想读什么诗它能随口背给你,想听歌,马上唱给你,装在汽车上它还能开车,好吧,我必须承认现在我们都很懵,想知道它究竟还能干啥。
现在我们都想知道它究竟有多聪明、多厉害?
它像一个读过很多书但从没出过门的人,它没吃过苹果,但比你更了解苹果,自诞生以来就一直呆在机房里,却能向你详细介绍全世界小到一个镇子的风土人情……
但你也得小心了,它也会一本正经、引经据典的胡说八道,能随口撒谎,说得有鼻子有眼,因为它有一个底层逻辑就是千方百计证明自己很聪明,必须自圆其说。
现在呢?
工程师们又不满足了,他们想把AI变成AGI,让它能自己学习、能跨界联想和多层推理,真正像人一样理解世界,对,就在你读这篇科普文章时,那帮家伙正在机房里拼命堆显卡,建更大的AI楼,给AI喂数据、让它猜猜猜……当然也在继续给计算机"泡冷水澡",防止它学嗨了,一兴奋把自己给烧坏了。
最后我必须再说一遍,自豪吧,这无疑是人类迄今为止最伟大的发明。
夜雨聆风