乐于分享
好东西不私藏

AI【简史07】:深度学习破冰:从AlexNet到AlphaGo,神经网络的王者归来

AI【简史07】:深度学习破冰:从AlexNet到AlphaGo,神经网络的王者归来

这是「AI简史」系列的第七篇文章。
上一篇我们讲到,1993年专家系统泡沫破裂后,AI坠入第二次寒冬,神经网络被打入冷宫,成了学术界避之不及的「玄学」。以SVM、随机森林、贝叶斯分类为核心的统计机器学习,撑起了AI的黄金二十年,成了整个行业无可争议的绝对主流。
可就在所有人都觉得神经网络已是死路一条的时候,有一群人,在全世界的冷眼与质疑中,守着这簇摇摇欲坠的火种,啃下了一个又一个困扰行业几十年的技术难题。他们不会想到,自己在寒冬里的坚守,会在十几年后,掀起一场颠覆整个AI世界的革命。
从1994年到2016年,二十二年的蛰伏,最终迎来了两场史诗级的封神之战:
2012年,AlexNet在ImageNet大赛上横空出世,以碾压式的优势击碎了传统机器学习的天花板,宣告深度学习时代的正式开启;
2016年,AlphaGo在万众瞩目下击败围棋世界冠军李世石,让AI彻底破圈,让全世界都看到了神经网络的恐怖力量。
曾经被弃如敝履的神经网络,以「深度学习」的新名字,完成了一场荡气回肠的王者归来。
今天,我们就来讲讲这段从绝境到巅峰的历史,看看那些被称为「AI寒冬守夜人」的研究者,如何在无人相信的世界里,点燃了改变世界的火苗。
一、寒冬守夜人:在主流世界的对立面,坚守神经网络的火种
1995年,统计机器学习的黄金时代刚刚拉开序幕。
瓦普尼克的SVM理论已经成型,在各类AI任务上展现出了惊人的效果,成了学术界顶刊的「硬通货」;贝叶斯分类正在互联网的浪潮里,解决着垃圾邮件泛滥的难题;决策树、k近邻这些算法,也开始在工业界落地生根。
而另一边,神经网络的研究,已经跌入了谷底。
1969年明斯基的《感知机》给了它第一次重击,1993年专家系统的崩盘,让整个行业对「类脑智能」彻底失去了信心。在当时的学术界,只要你的论文标题里带了「神经网络」几个字,大概率会被评审直接打回;申请科研经费?评审专家看一眼主题,就会毫不客气地批注:「这是一条已经被证明走不通的死路」。
当时主流AI圈有一个公认的说法:只有找不到工作的研究者,才会去搞神经网络。
可偏偏有三个人,死磕着这条「死路」不肯放手。他们就是后来被称为「深度学习三巨头」的杰弗里·辛顿、扬·勒丘恩(杨立昆)、约书亚·本吉奥。
杰弗里·辛顿:一生悬命的「深度学习教父」
辛顿的人生,几乎和神经网络的命运紧紧绑在了一起。他是阿兰·图灵的徒孙,从读博开始,就一头扎进了神经网络的研究里,哪怕整个世界都在告诉他「这东西没用」。
90年代的辛顿,在学术界过得异常艰难。他带着学生做的神经网络研究,屡屡被顶刊拒稿,申请经费更是屡屡碰壁。有评审当面跟他说:「神经网络就是死路一条,你不仅在浪费自己的人生,还在浪费你学生的人生。」
甚至有一次,他和学生写了一篇关于神经网络的论文,为了能被录用,不得不把标题里的「神经网络」改成了「统计学习网络」,才勉强通过了评审。
可辛顿从来没有动摇过。他比谁都清楚,神经网络有着传统机器学习永远无法比拟的核心优势:传统机器学习需要人工一点点设计特征、总结规则,而神经网络能自己从海量数据里,学到事物的本质规律。
他常跟学生说一句话:「大脑就是一个神经网络,既然大脑能产生智能,那我们做的神经网络,就一定能行。」
杨立昆:卷积神经网络的奠基人,用AI给机器装上眼睛
1988年,年轻的法国博士生杨立昆,在辛顿的指导下,开始研究卷积神经网络(CNN)。1998年,就在SVM横扫学术界的时候,他发表了一篇里程碑式的论文,提出了经典的LeNet-5模型。
这个模型,用局部感受野、权值共享的创新设计,完美解决了图像识别的计算难题,成功实现了手写数字识别,后来被广泛应用到了全球各大银行的支票识别里——这是神经网络在寒冬里,为数不多能落地的商业应用。
可在当时,除了银行这个小众场景,几乎没人关注这个成果。主流学术界觉得,这个模型只能识别手写数字,面对复杂的真实图像,根本打不过SVM。杨立昆的论文,在很长一段时间里,都被淹没在SVM的海量研究里,无人问津。
约书亚·本吉奥:啃下神经网络最硬的骨头
和辛顿、杨立昆一样,本吉奥在90年代,也一头扎进了神经网络的死胡同里。他主攻的方向,是当时神经网络最致命的死穴——梯度消失问题。
我们之前讲过,神经网络的训练靠反向传播算法,误差要从输出层一层层传回前面的层,才能调整权重。可网络层数一多,误差传到最前面的层时,就会变得无限小,几乎等于0,前面的层根本学不到任何东西,模型也就彻底训不动了。
这就像传话游戏,一句话从队尾传到队首,早就变了味,层数越多,失真越严重。这也是为什么,在90年代,所有人都觉得「深层神经网络根本训不动」。
整个90年代到2000年初,本吉奥带着团队,一点点拆解梯度消失的根源,提出了更优的权重初始化方法、更合理的激活函数,一点点缓解着深层网络的训练难题。
这三个人,就像黑夜里的三个守夜人,在全世界都不看好的情况下,互相支撑,一点点往前挪。他们每年都会聚在一起,讨论神经网络的研究进展,哪怕每次只有寥寥几十人参会,也从未中断。
转机,出现在2006年。
这一年,辛顿和他的学生在顶级期刊《Science》上,发表了一篇里程碑式的论文:《深度置信网络的快速学习方法》。
在这篇论文里,辛顿第一次正式提出了「深度学习」的概念,同时用「无监督逐层预训练」的方法,完美解决了深层神经网络的训练难题。他用实验证明,只要用对了预训练方法,几十层的深度神经网络,不仅能正常训练,还能学到比SVM等传统方法更精准、更本质的特征。
这篇论文,像一道惊雷,劈开了笼罩神经网络十几年的寒冬。
它第一次用严谨的实验,向全世界宣告:深层神经网络,不是死路一条,它有着远超传统机器学习的潜力。
深度学习的时代,从这一刻,正式埋下了伏笔。
二、东风已至:算法、算力、数据,三驾马车终于集齐
辛顿的论文,完成了深度学习的理论破冰。可在当时,主流学术界依然有很多人不服气:实验室里的小样本实验不算什么,在真实的复杂场景里,深度学习未必能打得过已经发展了十几年的传统机器学习。
他们的质疑,并非没有道理。因为在2006年,深度学习想要真正落地,还缺两个最关键的东西:足够的算力,和足够的海量数据。
而历史的巧合就在于,就在辛顿的论文发表后的几年里,这两个条件,奇迹般地同时成熟了。
第一股东风:GPU算力的飞跃,解决了训练的速度难题
深度神经网络的训练,需要做海量的矩阵并行运算。而90年代到2000年初的CPU,根本扛不住这样的计算量——一个简单的深层模型,用CPU训练,可能要跑几个月甚至几年,根本没有实用价值。
转折点,出现在英伟达GPU的普及上。
原本被设计用来做游戏图形渲染的GPU,天生就擅长并行矩阵运算。2007年,英伟达推出了CUDA编程框架,让开发者可以用GPU做通用计算,这一下,直接给深度学习装上了火箭发动机。
辛顿的学生亚历克斯·克里泽夫斯基,是第一个把GPU用在深度神经网络训练上的人。他发现,原本用CPU需要几个月才能跑完的训练,用GPU只需要几天时间。
这个发现,直接解决了深度学习最大的工程瓶颈。
第二股东风:移动互联网爆发,带来了海量标注数据
传统机器学习,小样本就能跑出不错的效果;可深度学习,是个「数据喂出来的怪物」——数据量越大,它的效果就越好。
2010年前后,智能手机开始普及,移动互联网迎来了爆发式增长。人类第一次拥有了海量的、数字化的图片、文本、语音、视频数据。
而就在2009年,华裔科学家李飞飞,带着团队构建了一个史无前例的图像数据集——ImageNet。这个数据集里,有超过1400万张人工标注的高清图片,涵盖了2万多个物体类别,是当时全世界最大、最复杂的图像数据集。
这个数据集,刚好给嗷嗷待哺的深度学习模型,准备了最丰盛的「口粮」。
算法成熟了,算力到位了,数据备足了。
三驾马车终于集齐,深度学习只需要一个舞台,就能向全世界证明自己的实力。
而这个舞台,就是ImageNet大规模视觉识别挑战赛——AI界的奥林匹克大赛。
三、2012年ImageNet封神之战:AlexNet横空出世,深度学习一战定乾坤
在2012年之前,ImageNet大赛,一直是传统机器学习的主场。
从2010年大赛创办开始,所有参赛队伍用的,都是基于SVM的传统方法。大家一点点人工设计图像特征,再用分类器做识别,拼了命地优化,可图像识别的Top-5错误率,始终卡在25%左右,再也降不下去了。
2010年冠军错误率28.2%,2011年冠军错误率25.7%,每年的进步,都只有几个百分点。
所有人都觉得,这个错误率,已经是传统方法能摸到的天花板了。
直到2012年的大赛,辛顿带着他的两个学生亚历克斯·克里泽夫斯基和伊利亚·萨茨克维尔,带着一个8层的深度卷积神经网络模型参赛了。这个模型,就以第一作者亚历克斯的名字命名,叫AlexNet。
比赛结果公布的那一刻,全场都陷入了死寂。
AlexNet的错误率,直接干到了16.4%!
而第二名,用传统机器学习方法做出的成绩,是26.2%。
整整10个百分点的差距,不是一点点的优化,是降维打击,是碾压式的胜利。
更让全场震惊的是,这个模型,全程没有任何人给它设计任何图像特征。它自己在120万张训练图片里,学会了识别物体的边缘、纹理、形状,甚至是完整的物体——从线条到轮廓,从轮廓到物体,完全是自主学习完成的。
这就像,之前所有人都在手把手教计算机「什么是猫」,一点点告诉它猫有尖耳朵、长胡须、圆脑袋;而AlexNet,自己看了几百万张猫的图片,就搞懂了「什么是猫」,而且认的比人教的还要准。
除了碾压级的准确率,AlexNet还为深度学习的大规模落地,解决了几个致命的工程难题,每一个创新,都成了后来深度学习模型的标配:
  1. 用ReLU激活函数,彻底缓解了梯度消失问题,让深层网络的训练变得又快又稳,完美解决了困扰神经网络几十年的死穴;
  2. 用Dropout随机失活方法,随机让一部分神经元在训练时失活,完美解决了深度模型容易过拟合的问题,让模型的泛化能力大幅提升;
  3. 首次用GPU实现了深度模型的大规模并行训练,把原本需要几个月的训练周期,压缩到了几天,彻底打开了深度学习的工程化落地空间。
2012年的这场ImageNet大赛,是AI历史上最重要的转折点之一。
比赛结束后,整个计算机视觉领域一夜之间变了天。之前还在深耕传统机器学习方法的团队,纷纷转头扎进了深度学习的研究里。工业界更是疯了一样,谷歌、微软、Facebook、百度这些科技巨头,纷纷成立深度学习实验室,开出天价薪资,抢着挖深度学习领域的研究者。
辛顿和他的两个学生,在比赛结束后,把AlexNet的技术方案完全开源了。而谷歌,直接花了几千万美元,收购了辛顿只有三个人的小公司。
曾经在寒冬里被嘲笑了几十年的辛顿,一夜之间,成了全世界追捧的「深度学习教父」。
而被打入冷宫二十多年的神经网络,以「深度学习」的新名字,正式从学术界的边缘,走到了AI世界的舞台中央。
统计机器学习的黄金时代,在这一刻,正式落下了帷幕。
四、摧枯拉朽:深度学习席卷AI全领域,寒冬彻底终结
AlexNet的胜利,不是终点,只是深度学习浪潮的开始。
就像推倒了第一块多米诺骨牌,在接下来的几年里,深度学习以摧枯拉朽之势,席卷了人工智能的所有赛道,把传统机器学习方法,一个个拉下了王座。
语音识别领域的颠覆
最先被颠覆的,是语音识别领域。
在AlexNet之前,语音识别已经发展了几十年,可始终绕不开传统的隐马尔可夫模型,识别错误率始终降不下去。环境稍微嘈杂一点、说话带一点口音,识别结果就会驴唇不对马嘴。我们早期用的手机语音助手,基本就是个「人工智障」,十句话有八句听不懂。
2012年之后,谷歌、百度的语音团队,率先把深度神经网络用在了语音识别上。结果让整个行业都震惊了:深度学习直接让语音识别的错误率,下降了30%以上——这是过去十几年里,整个行业都没能做到的突破。
短短几年时间,深度学习就彻底取代了传统方法,成了语音识别的绝对主流。我们现在用的手机语音助手、智能音箱、实时语音转文字,背后全都是深度学习的功劳。AI第一次真正听懂了人类说话。
自然语言处理领域的全面革命
紧接着,是自然语言处理领域的全面革命。
LSTM、循环神经网络(RNN)、词向量模型的大规模应用,让机器翻译、文本分类、情感分析的水平,实现了质的飞跃。2016年,谷歌发布了基于深度学习的神经机器翻译系统GNMT,翻译准确率直接提升了60%,无限接近人工翻译的水平,彻底颠覆了用了几十年的传统统计机器翻译方法。
AI不仅能看懂图片、听懂语音,还开始真正读懂人类的文字和语言了。
深度学习走进普通人生活
更重要的是,深度学习的爆发,让AI第一次真正走进了普通人的生活。
手机里的人脸识别解锁、相册里的图片分类、拍照时的场景优化、输入法的智能联想、购物软件里的个性化推荐……这些我们习以为常的功能,背后全都是深度学习模型在默默工作。
从1993年到2012年,持续了近二十年的第二次AI(神经网络)寒冬,在深度学习的浪潮里,彻底宣告终结。
而让深度学习和人工智能,真正破圈走进大众视野,让全世界都为之震撼的,是2016年那场举世瞩目的「世纪之战」。
五、2016年AlphaGo:一局棋,让全世界看见AI的力量
2016年3月,韩国首尔,一场围棋比赛,吸引了全世界几十亿人的目光。
对阵的双方,一边是韩国围棋九段、传奇世界冠军李世石。他手握14个世界冠军,是围棋界公认的绝顶高手,以「神之一手」的棋风闻名于世。
另一边,是谷歌旗下DeepMind公司开发的人工智能——AlphaGo。
在这场比赛之前,几乎所有人都觉得,李世石会轻松赢下这场比赛。
因为围棋,被称为「人类智慧的最后堡垒」。
围棋的棋盘是19×19的格子,理论上的变化量,超过了10的170次方,比整个宇宙中已知的原子总数还要多。想要靠暴力枚举算出所有落子可能,是根本不可能的事。
和国际象棋完全不同,围棋没有明确的子力价值判断,很多时候,一步棋的好坏,全靠棋手的「棋感」和「直觉」——这是人类独有的、无法被量化的智慧。
在AlphaGo之前,最厉害的围棋AI,最高也只能打到业余五段的水平,连职业棋手的门槛都摸不到。围棋界有一句公认的话:「围棋AI能战胜人类职业棋手,至少还要再等一百年。」
可所有人都没想到,深度学习,把这个时间,提前了一百年。
DeepMind的团队,给AlphaGo设计了两套核心的深度神经网络,完美复刻了人类棋手的思考方式:
  • 策略网络:学习了人类几千万盘顶级棋谱,学会「在当前局面下,哪些落子点是值得考虑的」,就像棋手扫一眼棋盘,就知道该往哪几个地方落子,不用把所有位置都想一遍,直接把搜索范围缩小了几百倍;
  • 价值网络:判断当前局面的胜率,「我这么落子,赢的概率有多大」,就像棋手对棋局形势的判断,知道自己是占优还是落后,决定接下来的行棋策略。
更厉害的是,AlphaGo还用到了强化学习。它先学完了人类所有的顶级棋谱,然后开始自己和自己对弈,一局又一局,在无数次的对弈里,自己摸索围棋的规律,甚至走出了很多人类棋手从来没想过的、颠覆认知的棋路。
2016年3月9日,第一局比赛,AlphaGo赢了。
全世界都惊呆了,可还是有很多人觉得,这只是李世石轻敌,偶然失手了。
可接下来,AlphaGo又连赢两局,总比分3:0,提前锁定了胜利。
整个围棋界,乃至整个科技界,都陷入了巨大的震撼中。人们第一次意识到,AI不仅能做计算、识别这种「机械性」的工作,还能在人类最引以为傲的、靠直觉和智慧的领域,击败最顶级的人类高手。
第四局比赛,被逼入绝境的李世石,下出了震惊世界的「神之一手」第78手。这步完全不按常理、甚至被AI判定为「低概率」的棋,直接打乱了AlphaGo的判断,让它的后续行棋彻底乱了套。李世石艰难赢下了这一局,为人类挽回了一丝颜面。
现场的解说员和棋手,当场热泪盈眶。全网沸腾,所有人都在为李世石的这步棋欢呼——在AI的绝对实力面前,人类的智慧,依然闪着光。
最终,整场比赛结束,AlphaGo以4:1的比分,大胜李世石。
那一刻,全世界都沸腾了。
从来没有哪一次AI技术突破,能像AlphaGo战胜李世石一样,引发如此巨大的全民关注。不管是科技圈、围棋圈,还是完全不懂AI的普通大众,都被这场比赛震撼了。
人们第一次真切地意识到:AI已经强大到了这个地步,它不再是科幻电影里的想象,不再是实验室里的玩具,它真的能做到人类能做到的事,甚至能做得更好。
如果说2012年的AlexNet,是让深度学习在科技圈封神;那2016年的AlphaGo,就是让AI彻底破圈,走进了每一个普通人的视野里。
神经网络,这个在1957年诞生、两次被打入冷宫、在寒冬里沉寂了几十年的技术,终于在这一刻,完成了最华丽的王者归来。
从1994年寒冬里的默默坚守,到2006年的理论破冰,再到2012年AlexNet的横空出世,最终到2016年AlphaGo的封神之战,二十二年的时间,AI完成了一场从绝境到巅峰的史诗级逆袭。
很多人觉得,深度学习的爆发是一夜之间的奇迹。可事实上,没有辛顿、杨立昆、本吉奥们在寒冬里几十年的坚守,没有无数研究者默默啃下一个又一个技术难题,就不会有2012年的AlexNet,更不会有2016年的AlphaGo。
AI的发展史,从来都不是一帆风顺的高歌猛进,而是在无数次的质疑、失败、寒冬里,靠着一群人的坚守,一点点往前走。
AlphaGo的胜利,不是终点,只是一个全新的开始。
就在AlphaGo击败李世石的一年后,2017年,一篇名为《Attention Is All You Need》的论文发表了。当时很少有人想到,这篇论文里提出的Transformer架构,会在短短几年里,掀起一场更大的革命,把AI带入了大语言模型的全新时代。
下一篇预告:
AI简史08|Transformer与大模型时代:从GPT-1到ChatGPT,AI走进千家万户(2017-2023)
互动话题:
你还记得2016年AlphaGo和李世石的那场比赛吗?当时你看到比赛结果,是什么感受?欢迎在评论区留下你的回忆。
参考资料
  1. Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006.(深度学习里程碑论文,2006年理论破冰的核心文献)
  2. Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012.(AlexNet原始论文,计算机视觉领域的革命性研究)
  3. Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016.(AlphaGo原始论文,深度强化学习的里程碑成果)
  4. LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998.(LeNet-5核心论文,卷积神经网络的奠基性研究)
  5. Goodfellow I, Bengio Y, Courville A. Deep Learning[M]. MIT Press, 2016.(深度学习领域公认权威教材「花书」,详解核心技术原理)
  6. 凯德·梅茨. 深度学习革命[M]. 中信出版社, 2021.(还原深度学习从寒冬到爆发的完整历史,深度访谈三巨头与核心研究者)
  7. 尼尔·尼尔森. 人工智能的探索[M]. 机械工业出版社, 2017.(AI领域权威历史著作,完整梳理深度学习的发展历程)
  8. 周志华. 机器学习[M]. 清华大学出版社, 2016.