AI【简史07】:深度学习破冰:从AlexNet到AlphaGo,神经网络的王者归来-夜雨聆风

AI【简史07】:深度学习破冰:从AlexNet到AlphaGo,神经网络的王者归来

这是「AI简史」系列的第七篇文章。

上一篇我们讲到，1993年专家系统泡沫破裂后，AI坠入第二次寒冬，神经网络被打入冷宫，成了学术界避之不及的「玄学」。以SVM、随机森林、贝叶斯分类为核心的统计机器学习，撑起了AI的黄金二十年，成了整个行业无可争议的绝对主流。

可就在所有人都觉得神经网络已是死路一条的时候，有一群人，在全世界的冷眼与质疑中，守着这簇摇摇欲坠的火种，啃下了一个又一个困扰行业几十年的技术难题。他们不会想到，自己在寒冬里的坚守，会在十几年后，掀起一场颠覆整个AI世界的革命。

从1994年到2016年，二十二年的蛰伏，最终迎来了两场史诗级的封神之战：

2012年，AlexNet在ImageNet大赛上横空出世，以碾压式的优势击碎了传统机器学习的天花板，宣告深度学习时代的正式开启；

2016年，AlphaGo在万众瞩目下击败围棋世界冠军李世石，让AI彻底破圈，让全世界都看到了神经网络的恐怖力量。

曾经被弃如敝履的神经网络，以「深度学习」的新名字，完成了一场荡气回肠的王者归来。

今天，我们就来讲讲这段从绝境到巅峰的历史，看看那些被称为「AI寒冬守夜人」的研究者，如何在无人相信的世界里，点燃了改变世界的火苗。

一、寒冬守夜人：在主流世界的对立面，坚守神经网络的火种

1995年，统计机器学习的黄金时代刚刚拉开序幕。

瓦普尼克的SVM理论已经成型，在各类AI任务上展现出了惊人的效果，成了学术界顶刊的「硬通货」；贝叶斯分类正在互联网的浪潮里，解决着垃圾邮件泛滥的难题；决策树、k近邻这些算法，也开始在工业界落地生根。

而另一边，神经网络的研究，已经跌入了谷底。

1969年明斯基的《感知机》给了它第一次重击，1993年专家系统的崩盘，让整个行业对「类脑智能」彻底失去了信心。在当时的学术界，只要你的论文标题里带了「神经网络」几个字，大概率会被评审直接打回；申请科研经费？评审专家看一眼主题，就会毫不客气地批注：「这是一条已经被证明走不通的死路」。

当时主流AI圈有一个公认的说法：只有找不到工作的研究者，才会去搞神经网络。

可偏偏有三个人，死磕着这条「死路」不肯放手。他们就是后来被称为「深度学习三巨头」的杰弗里·辛顿、扬·勒丘恩（杨立昆）、约书亚·本吉奥。

杰弗里·辛顿：一生悬命的「深度学习教父」

辛顿的人生，几乎和神经网络的命运紧紧绑在了一起。他是阿兰·图灵的徒孙，从读博开始，就一头扎进了神经网络的研究里，哪怕整个世界都在告诉他「这东西没用」。

90年代的辛顿，在学术界过得异常艰难。他带着学生做的神经网络研究，屡屡被顶刊拒稿，申请经费更是屡屡碰壁。有评审当面跟他说：「神经网络就是死路一条，你不仅在浪费自己的人生，还在浪费你学生的人生。」

甚至有一次，他和学生写了一篇关于神经网络的论文，为了能被录用，不得不把标题里的「神经网络」改成了「统计学习网络」，才勉强通过了评审。

可辛顿从来没有动摇过。他比谁都清楚，神经网络有着传统机器学习永远无法比拟的核心优势：传统机器学习需要人工一点点设计特征、总结规则，而神经网络能自己从海量数据里，学到事物的本质规律。

他常跟学生说一句话：「大脑就是一个神经网络，既然大脑能产生智能，那我们做的神经网络，就一定能行。」

杨立昆：卷积神经网络的奠基人，用AI给机器装上眼睛

1988年，年轻的法国博士生杨立昆，在辛顿的指导下，开始研究卷积神经网络（CNN）。1998年，就在SVM横扫学术界的时候，他发表了一篇里程碑式的论文，提出了经典的LeNet-5模型。

这个模型，用局部感受野、权值共享的创新设计，完美解决了图像识别的计算难题，成功实现了手写数字识别，后来被广泛应用到了全球各大银行的支票识别里——这是神经网络在寒冬里，为数不多能落地的商业应用。

可在当时，除了银行这个小众场景，几乎没人关注这个成果。主流学术界觉得，这个模型只能识别手写数字，面对复杂的真实图像，根本打不过SVM。杨立昆的论文，在很长一段时间里，都被淹没在SVM的海量研究里，无人问津。

约书亚·本吉奥：啃下神经网络最硬的骨头

和辛顿、杨立昆一样，本吉奥在90年代，也一头扎进了神经网络的死胡同里。他主攻的方向，是当时神经网络最致命的死穴——梯度消失问题。

我们之前讲过，神经网络的训练靠反向传播算法，误差要从输出层一层层传回前面的层，才能调整权重。可网络层数一多，误差传到最前面的层时，就会变得无限小，几乎等于0，前面的层根本学不到任何东西，模型也就彻底训不动了。

这就像传话游戏，一句话从队尾传到队首，早就变了味，层数越多，失真越严重。这也是为什么，在90年代，所有人都觉得「深层神经网络根本训不动」。

整个90年代到2000年初，本吉奥带着团队，一点点拆解梯度消失的根源，提出了更优的权重初始化方法、更合理的激活函数，一点点缓解着深层网络的训练难题。

这三个人，就像黑夜里的三个守夜人，在全世界都不看好的情况下，互相支撑，一点点往前挪。他们每年都会聚在一起，讨论神经网络的研究进展，哪怕每次只有寥寥几十人参会，也从未中断。

转机，出现在2006年。

这一年，辛顿和他的学生在顶级期刊《Science》上，发表了一篇里程碑式的论文：《深度置信网络的快速学习方法》。

在这篇论文里，辛顿第一次正式提出了「深度学习」的概念，同时用「无监督逐层预训练」的方法，完美解决了深层神经网络的训练难题。他用实验证明，只要用对了预训练方法，几十层的深度神经网络，不仅能正常训练，还能学到比SVM等传统方法更精准、更本质的特征。

这篇论文，像一道惊雷，劈开了笼罩神经网络十几年的寒冬。

它第一次用严谨的实验，向全世界宣告：深层神经网络，不是死路一条，它有着远超传统机器学习的潜力。

深度学习的时代，从这一刻，正式埋下了伏笔。

二、东风已至：算法、算力、数据，三驾马车终于集齐

辛顿的论文，完成了深度学习的理论破冰。可在当时，主流学术界依然有很多人不服气：实验室里的小样本实验不算什么，在真实的复杂场景里，深度学习未必能打得过已经发展了十几年的传统机器学习。

他们的质疑，并非没有道理。因为在2006年，深度学习想要真正落地，还缺两个最关键的东西：足够的算力，和足够的海量数据。

而历史的巧合就在于，就在辛顿的论文发表后的几年里，这两个条件，奇迹般地同时成熟了。

第一股东风：GPU算力的飞跃，解决了训练的速度难题

深度神经网络的训练，需要做海量的矩阵并行运算。而90年代到2000年初的CPU，根本扛不住这样的计算量——一个简单的深层模型，用CPU训练，可能要跑几个月甚至几年，根本没有实用价值。

转折点，出现在英伟达GPU的普及上。

原本被设计用来做游戏图形渲染的GPU，天生就擅长并行矩阵运算。2007年，英伟达推出了CUDA编程框架，让开发者可以用GPU做通用计算，这一下，直接给深度学习装上了火箭发动机。

辛顿的学生亚历克斯·克里泽夫斯基，是第一个把GPU用在深度神经网络训练上的人。他发现，原本用CPU需要几个月才能跑完的训练，用GPU只需要几天时间。

这个发现，直接解决了深度学习最大的工程瓶颈。

第二股东风：移动互联网爆发，带来了海量标注数据

传统机器学习，小样本就能跑出不错的效果；可深度学习，是个「数据喂出来的怪物」——数据量越大，它的效果就越好。

2010年前后，智能手机开始普及，移动互联网迎来了爆发式增长。人类第一次拥有了海量的、数字化的图片、文本、语音、视频数据。

而就在2009年，华裔科学家李飞飞，带着团队构建了一个史无前例的图像数据集——ImageNet。这个数据集里，有超过1400万张人工标注的高清图片，涵盖了2万多个物体类别，是当时全世界最大、最复杂的图像数据集。

这个数据集，刚好给嗷嗷待哺的深度学习模型，准备了最丰盛的「口粮」。

算法成熟了，算力到位了，数据备足了。

三驾马车终于集齐，深度学习只需要一个舞台，就能向全世界证明自己的实力。

而这个舞台，就是ImageNet大规模视觉识别挑战赛——AI界的奥林匹克大赛。

三、2012年ImageNet封神之战：AlexNet横空出世，深度学习一战定乾坤

在2012年之前，ImageNet大赛，一直是传统机器学习的主场。

从2010年大赛创办开始，所有参赛队伍用的，都是基于SVM的传统方法。大家一点点人工设计图像特征，再用分类器做识别，拼了命地优化，可图像识别的Top-5错误率，始终卡在25%左右，再也降不下去了。

2010年冠军错误率28.2%，2011年冠军错误率25.7%，每年的进步，都只有几个百分点。

所有人都觉得，这个错误率，已经是传统方法能摸到的天花板了。

直到2012年的大赛，辛顿带着他的两个学生亚历克斯·克里泽夫斯基和伊利亚·萨茨克维尔，带着一个8层的深度卷积神经网络模型参赛了。这个模型，就以第一作者亚历克斯的名字命名，叫AlexNet。

比赛结果公布的那一刻，全场都陷入了死寂。

AlexNet的错误率，直接干到了16.4%！

而第二名，用传统机器学习方法做出的成绩，是26.2%。

整整10个百分点的差距，不是一点点的优化，是降维打击，是碾压式的胜利。

更让全场震惊的是，这个模型，全程没有任何人给它设计任何图像特征。它自己在120万张训练图片里，学会了识别物体的边缘、纹理、形状，甚至是完整的物体——从线条到轮廓，从轮廓到物体，完全是自主学习完成的。

这就像，之前所有人都在手把手教计算机「什么是猫」，一点点告诉它猫有尖耳朵、长胡须、圆脑袋；而AlexNet，自己看了几百万张猫的图片，就搞懂了「什么是猫」，而且认的比人教的还要准。

除了碾压级的准确率，AlexNet还为深度学习的大规模落地，解决了几个致命的工程难题，每一个创新，都成了后来深度学习模型的标配：

用ReLU激活函数，彻底缓解了梯度消失问题，让深层网络的训练变得又快又稳，完美解决了困扰神经网络几十年的死穴；
用Dropout随机失活方法，随机让一部分神经元在训练时失活，完美解决了深度模型容易过拟合的问题，让模型的泛化能力大幅提升；
首次用GPU实现了深度模型的大规模并行训练，把原本需要几个月的训练周期，压缩到了几天，彻底打开了深度学习的工程化落地空间。

2012年的这场ImageNet大赛，是AI历史上最重要的转折点之一。

比赛结束后，整个计算机视觉领域一夜之间变了天。之前还在深耕传统机器学习方法的团队，纷纷转头扎进了深度学习的研究里。工业界更是疯了一样，谷歌、微软、Facebook、百度这些科技巨头，纷纷成立深度学习实验室，开出天价薪资，抢着挖深度学习领域的研究者。

辛顿和他的两个学生，在比赛结束后，把AlexNet的技术方案完全开源了。而谷歌，直接花了几千万美元，收购了辛顿只有三个人的小公司。

曾经在寒冬里被嘲笑了几十年的辛顿，一夜之间，成了全世界追捧的「深度学习教父」。

而被打入冷宫二十多年的神经网络，以「深度学习」的新名字，正式从学术界的边缘，走到了AI世界的舞台中央。

统计机器学习的黄金时代，在这一刻，正式落下了帷幕。

四、摧枯拉朽：深度学习席卷AI全领域，寒冬彻底终结

AlexNet的胜利，不是终点，只是深度学习浪潮的开始。

就像推倒了第一块多米诺骨牌，在接下来的几年里，深度学习以摧枯拉朽之势，席卷了人工智能的所有赛道，把传统机器学习方法，一个个拉下了王座。

语音识别领域的颠覆

最先被颠覆的，是语音识别领域。

在AlexNet之前，语音识别已经发展了几十年，可始终绕不开传统的隐马尔可夫模型，识别错误率始终降不下去。环境稍微嘈杂一点、说话带一点口音，识别结果就会驴唇不对马嘴。我们早期用的手机语音助手，基本就是个「人工智障」，十句话有八句听不懂。

2012年之后，谷歌、百度的语音团队，率先把深度神经网络用在了语音识别上。结果让整个行业都震惊了：深度学习直接让语音识别的错误率，下降了30%以上——这是过去十几年里，整个行业都没能做到的突破。

短短几年时间，深度学习就彻底取代了传统方法，成了语音识别的绝对主流。我们现在用的手机语音助手、智能音箱、实时语音转文字，背后全都是深度学习的功劳。AI第一次真正听懂了人类说话。

自然语言处理领域的全面革命

紧接着，是自然语言处理领域的全面革命。

LSTM、循环神经网络（RNN）、词向量模型的大规模应用，让机器翻译、文本分类、情感分析的水平，实现了质的飞跃。2016年，谷歌发布了基于深度学习的神经机器翻译系统GNMT，翻译准确率直接提升了60%，无限接近人工翻译的水平，彻底颠覆了用了几十年的传统统计机器翻译方法。

AI不仅能看懂图片、听懂语音，还开始真正读懂人类的文字和语言了。

深度学习走进普通人生活

更重要的是，深度学习的爆发，让AI第一次真正走进了普通人的生活。

手机里的人脸识别解锁、相册里的图片分类、拍照时的场景优化、输入法的智能联想、购物软件里的个性化推荐……这些我们习以为常的功能，背后全都是深度学习模型在默默工作。

从1993年到2012年，持续了近二十年的第二次AI（神经网络）寒冬，在深度学习的浪潮里，彻底宣告终结。

而让深度学习和人工智能，真正破圈走进大众视野，让全世界都为之震撼的，是2016年那场举世瞩目的「世纪之战」。

五、2016年AlphaGo：一局棋，让全世界看见AI的力量

2016年3月，韩国首尔，一场围棋比赛，吸引了全世界几十亿人的目光。

对阵的双方，一边是韩国围棋九段、传奇世界冠军李世石。他手握14个世界冠军，是围棋界公认的绝顶高手，以「神之一手」的棋风闻名于世。

另一边，是谷歌旗下DeepMind公司开发的人工智能——AlphaGo。

在这场比赛之前，几乎所有人都觉得，李世石会轻松赢下这场比赛。

因为围棋，被称为「人类智慧的最后堡垒」。

围棋的棋盘是19×19的格子，理论上的变化量，超过了10的170次方，比整个宇宙中已知的原子总数还要多。想要靠暴力枚举算出所有落子可能，是根本不可能的事。

和国际象棋完全不同，围棋没有明确的子力价值判断，很多时候，一步棋的好坏，全靠棋手的「棋感」和「直觉」——这是人类独有的、无法被量化的智慧。

在AlphaGo之前，最厉害的围棋AI，最高也只能打到业余五段的水平，连职业棋手的门槛都摸不到。围棋界有一句公认的话：「围棋AI能战胜人类职业棋手，至少还要再等一百年。」

可所有人都没想到，深度学习，把这个时间，提前了一百年。

DeepMind的团队，给AlphaGo设计了两套核心的深度神经网络，完美复刻了人类棋手的思考方式：

策略网络：学习了人类几千万盘顶级棋谱，学会「在当前局面下，哪些落子点是值得考虑的」，就像棋手扫一眼棋盘，就知道该往哪几个地方落子，不用把所有位置都想一遍，直接把搜索范围缩小了几百倍；

价值网络：判断当前局面的胜率，「我这么落子，赢的概率有多大」，就像棋手对棋局形势的判断，知道自己是占优还是落后，决定接下来的行棋策略。

更厉害的是，AlphaGo还用到了强化学习。它先学完了人类所有的顶级棋谱，然后开始自己和自己对弈，一局又一局，在无数次的对弈里，自己摸索围棋的规律，甚至走出了很多人类棋手从来没想过的、颠覆认知的棋路。

2016年3月9日，第一局比赛，AlphaGo赢了。

全世界都惊呆了，可还是有很多人觉得，这只是李世石轻敌，偶然失手了。

可接下来，AlphaGo又连赢两局，总比分3:0，提前锁定了胜利。

整个围棋界，乃至整个科技界，都陷入了巨大的震撼中。人们第一次意识到，AI不仅能做计算、识别这种「机械性」的工作，还能在人类最引以为傲的、靠直觉和智慧的领域，击败最顶级的人类高手。

第四局比赛，被逼入绝境的李世石，下出了震惊世界的「神之一手」第78手。这步完全不按常理、甚至被AI判定为「低概率」的棋，直接打乱了AlphaGo的判断，让它的后续行棋彻底乱了套。李世石艰难赢下了这一局，为人类挽回了一丝颜面。

现场的解说员和棋手，当场热泪盈眶。全网沸腾，所有人都在为李世石的这步棋欢呼——在AI的绝对实力面前，人类的智慧，依然闪着光。

最终，整场比赛结束，AlphaGo以4:1的比分，大胜李世石。

那一刻，全世界都沸腾了。

从来没有哪一次AI技术突破，能像AlphaGo战胜李世石一样，引发如此巨大的全民关注。不管是科技圈、围棋圈，还是完全不懂AI的普通大众，都被这场比赛震撼了。

人们第一次真切地意识到：AI已经强大到了这个地步，它不再是科幻电影里的想象，不再是实验室里的玩具，它真的能做到人类能做到的事，甚至能做得更好。

如果说2012年的AlexNet，是让深度学习在科技圈封神；那2016年的AlphaGo，就是让AI彻底破圈，走进了每一个普通人的视野里。

神经网络，这个在1957年诞生、两次被打入冷宫、在寒冬里沉寂了几十年的技术，终于在这一刻，完成了最华丽的王者归来。

从1994年寒冬里的默默坚守，到2006年的理论破冰，再到2012年AlexNet的横空出世，最终到2016年AlphaGo的封神之战，二十二年的时间，AI完成了一场从绝境到巅峰的史诗级逆袭。

很多人觉得，深度学习的爆发是一夜之间的奇迹。可事实上，没有辛顿、杨立昆、本吉奥们在寒冬里几十年的坚守，没有无数研究者默默啃下一个又一个技术难题，就不会有2012年的AlexNet，更不会有2016年的AlphaGo。

AI的发展史，从来都不是一帆风顺的高歌猛进，而是在无数次的质疑、失败、寒冬里，靠着一群人的坚守，一点点往前走。

AlphaGo的胜利，不是终点，只是一个全新的开始。

就在AlphaGo击败李世石的一年后，2017年，一篇名为《Attention Is All You Need》的论文发表了。当时很少有人想到，这篇论文里提出的Transformer架构，会在短短几年里，掀起一场更大的革命，把AI带入了大语言模型的全新时代。

下一篇预告：

AI简史08｜Transformer与大模型时代：从GPT-1到ChatGPT，AI走进千家万户（2017-2023）

互动话题：

你还记得2016年AlphaGo和李世石的那场比赛吗？当时你看到比赛结果，是什么感受？欢迎在评论区留下你的回忆。

参考资料

Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006.（深度学习里程碑论文，2006年理论破冰的核心文献）
Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012.（AlexNet原始论文，计算机视觉领域的革命性研究）
Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016.（AlphaGo原始论文，深度强化学习的里程碑成果）
LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998.（LeNet-5核心论文，卷积神经网络的奠基性研究）
Goodfellow I, Bengio Y, Courville A. Deep Learning[M]. MIT Press, 2016.（深度学习领域公认权威教材「花书」，详解核心技术原理）
凯德·梅茨. 深度学习革命[M]. 中信出版社, 2021.（还原深度学习从寒冬到爆发的完整历史，深度访谈三巨头与核心研究者）
尼尔·尼尔森. 人工智能的探索[M]. 机械工业出版社, 2017.（AI领域权威历史著作，完整梳理深度学习的发展历程）
周志华. 机器学习[M]. 清华大学出版社, 2016.