
AI 读懂一句话,用了60年。
不是因为问题太难。是因为每一代模型,都在同一个地方摔倒——
信息装不下。
第一代:会认字,不会理解
1958年的感知机(Perceptron)是第一个基于神经元结构的学习模型。
原理很简单。做对了,增强连接权重。做错了,削弱。本质是个条件反射机器。
它能学会简单的模式识别。但遇到一个问题,它就跪了——
「指出正方形左边的物体。」
这句话里有空间关系、对象关系、方向关系。感知机只有单层,装不下这种有层次的信息。
它认字,但不理解字与字之间的关系。
第二代:学会反思自己哪里错了
科学家知道:加隐藏层,就能处理更复杂的关系。
但加了隐藏层,新问题来了。
做错题时,锅该怎么分给那些看不见的隐层神经元?
1986年,反向传播(Backpropagation)解决了这个问题。
做完一道题,跟标准答案比,算出误差,然后从输出端往输入端一层一层倒推——用链式法则精确算出每个隐层神经元的权重该改多少。
这套机制让隐藏层第一次能「自发学习」任务中的关键特征,不用人工指定。
这是「深度学习」里「深度」两个字的算法基石。
第三代:语言变成了坐标
有了深度网络,还有一个根本问题:计算机只懂数字。
「猫」被记作1,「狗」被记作2。机器不知道它们都是动物,关系是零。
2013年,Word2Vec 把所有词变成了多维空间里的坐标向量。
衡量两个词的关系,变成了计算向量的距离和方向。
结果出来时,所有人都愣了:
「国王」的向量 − 「男人」 + 「女人」 = 「女王」
语言里的语义,第一次被编码进了数学结构里。
但单个词的问题解决了,一整句话还没解决。
第四代:学会了「看重点」
RNN(循环神经网络)被用来做句子翻译。
方式是:逐词读入,把整句话压缩成一个固定长度的向量,再开始翻译。
压缩——这就是问题所在。
你把一段话硬压成一个词,然后从这个词开始还原。句子越长,压缩损失越大,翻译越烂。遇到长句子,性能断崖式下跌。
2014年,注意力机制(Attention)出现了。
翻译每个词时,模型不再看那个压缩包。它直接去「搜索」源句子里最相关的位置,动态分配权重。
像一个熟练的翻译员,写下每个词时,眼睛会自动落在原文对应的那个词上。
信息,不用再被压缩了。
第五代:所有词同时看所有词
RNN加了注意力之后效果很好,但它有个结构性的缺陷:串行读入。
读完第一个词,才能读第二个词。GPU的并行能力完全用不上,训练速度被严重拖慢。
2017年,Transformer 把这个结构彻底扔掉了。
没有循环,没有卷积,只靠注意力。
句子里每一个词,同时跟所有其他词计算相关性。不管两个词相隔多远,计算步数是常数。
这就是今天所有大语言模型的引擎。
第六代:先博览群书,再应付考试
Transformer 有了,还剩一个问题:每个任务都需要专门标注的数据,数据稀缺,每个任务还得单独设计一套模型,费时费力。
2018年,GPT-1 提出了新范式。
第一步,让模型在海量无标注文本上玩「接龙」——预测下一个词。
不需要人工标注。就是读书,大量读书,读到模型开始「感受」语言的结构和规律。
第二步,遇到具体任务,做轻微微调,几乎不改模型架构。
12个测试任务,9个打破历史记录。
但比记录更重要的是,它证明了一件事:
不需要为每个任务单独设计一套模型。一个通用模型 + 无标注文本,几乎可以解决所有语言问题。
这是 ChatGPT 的起点。
60年,6步,每一步都在解决同一件事。
感知机装不下层次关系,反向传播带来了隐层。隐层没法分锅,反向传播解决了责任倒推。语言装不进数字,Word2Vec 给每个词编了坐标。长句子压缩不了,注意力机制让模型直接搜原文。串行读不快,Transformer 让所有词并行看所有词。每个任务要单独标注,GPT 用无监督预训练绕过了数据稀缺。
AI 不是突然变聪明的。
它是一个接一个地,把装不下的东西,想办法装进去了。

部分图片来源于网络,如有侵权可联系删除
夜雨聆风