AI 读懂一句话,用了60年

点击上方蓝字术水俊 关注我

AI 读懂一句话，用了60年。

不是因为问题太难。是因为每一代模型，都在同一个地方摔倒——

信息装不下。

第一代：会认字，不会理解

1958年的感知机（Perceptron）是第一个基于神经元结构的学习模型。

原理很简单。做对了，增强连接权重。做错了，削弱。本质是个条件反射机器。

它能学会简单的模式识别。但遇到一个问题，它就跪了——

「指出正方形左边的物体。」

这句话里有空间关系、对象关系、方向关系。感知机只有单层，装不下这种有层次的信息。

它认字，但不理解字与字之间的关系。

第二代：学会反思自己哪里错了

科学家知道：加隐藏层，就能处理更复杂的关系。

但加了隐藏层，新问题来了。

做错题时，锅该怎么分给那些看不见的隐层神经元？

1986年，反向传播（Backpropagation）解决了这个问题。

做完一道题，跟标准答案比，算出误差，然后从输出端往输入端一层一层倒推——用链式法则精确算出每个隐层神经元的权重该改多少。

这套机制让隐藏层第一次能「自发学习」任务中的关键特征，不用人工指定。

这是「深度学习」里「深度」两个字的算法基石。

第三代：语言变成了坐标

有了深度网络，还有一个根本问题：计算机只懂数字。

「猫」被记作1，「狗」被记作2。机器不知道它们都是动物，关系是零。

2013年，Word2Vec 把所有词变成了多维空间里的坐标向量。

衡量两个词的关系，变成了计算向量的距离和方向。

结果出来时，所有人都愣了：

「国王」的向量 − 「男人」 + 「女人」 = 「女王」

语言里的语义，第一次被编码进了数学结构里。

但单个词的问题解决了，一整句话还没解决。

第四代：学会了「看重点」

RNN（循环神经网络）被用来做句子翻译。

方式是：逐词读入，把整句话压缩成一个固定长度的向量，再开始翻译。

压缩——这就是问题所在。

你把一段话硬压成一个词，然后从这个词开始还原。句子越长，压缩损失越大，翻译越烂。遇到长句子，性能断崖式下跌。

2014年，注意力机制（Attention）出现了。

翻译每个词时，模型不再看那个压缩包。它直接去「搜索」源句子里最相关的位置，动态分配权重。

像一个熟练的翻译员，写下每个词时，眼睛会自动落在原文对应的那个词上。

信息，不用再被压缩了。

第五代：所有词同时看所有词

RNN加了注意力之后效果很好，但它有个结构性的缺陷：串行读入。

读完第一个词，才能读第二个词。GPU的并行能力完全用不上，训练速度被严重拖慢。

2017年，Transformer 把这个结构彻底扔掉了。

没有循环，没有卷积，只靠注意力。

句子里每一个词，同时跟所有其他词计算相关性。不管两个词相隔多远，计算步数是常数。

这就是今天所有大语言模型的引擎。

第六代：先博览群书，再应付考试

Transformer 有了，还剩一个问题：每个任务都需要专门标注的数据，数据稀缺，每个任务还得单独设计一套模型，费时费力。

2018年，GPT-1 提出了新范式。

第一步，让模型在海量无标注文本上玩「接龙」——预测下一个词。

不需要人工标注。就是读书，大量读书，读到模型开始「感受」语言的结构和规律。

第二步，遇到具体任务，做轻微微调，几乎不改模型架构。

12个测试任务，9个打破历史记录。

但比记录更重要的是，它证明了一件事：

不需要为每个任务单独设计一套模型。一个通用模型 + 无标注文本，几乎可以解决所有语言问题。

这是 ChatGPT 的起点。

60年，6步，每一步都在解决同一件事。

感知机装不下层次关系，反向传播带来了隐层。隐层没法分锅，反向传播解决了责任倒推。语言装不进数字，Word2Vec 给每个词编了坐标。长句子压缩不了，注意力机制让模型直接搜原文。串行读不快，Transformer 让所有词并行看所有词。每个任务要单独标注，GPT 用无监督预训练绕过了数据稀缺。

AI 不是突然变聪明的。

它是一个接一个地，把装不下的东西，想办法装进去了。

END

点击下方公众号名片关注我，并记得设置星标啊。不要停下前进的脚步。

▽点击关注公众号，查看更多好文章▽

部分图片来源于网络，如有侵权可联系删除

分享、收藏、点赞、在看安排一下？

Please, help me keep going.