AI【简史06】:统计学习的黄金时代:SVM、随机森林与传统机器学习的王朝(1993-2012)

这是「AI简史」系列的第六篇文章。

上一篇我们讲到，1993年，日本第五代计算机计划宣告失败，专家系统的商业泡沫彻底破裂，人工智能坠入了更深、更冷的第二次寒冬。

曾经被寄予厚望的神经网络，成了学术界避之不及的「玄学」；曾经风光无限的专家系统，成了企业眼里的「无底洞」。政府停掉了经费，资本撤出了赛道，高校的AI专业招不到学生，无数研究者转行离开，整个AI领域陷入了前所未有的绝望。

可AI并没有在这场寒冬里彻底消亡。

就在神经网络被打入冷宫、专家系统全面崩塌的日子里，一群研究者带着一套全新的思路，撑起了AI的门面。他们抛弃了「复刻人脑神经元」的宏大幻想，也放弃了「把专家规则写进计算机」的死胡同，转而回归数学本质，用统计学的方法，让机器从数据里找规律。

这个方向，就是统计机器学习，也就是我们现在常说的「传统机器学习」。

从1993年到2012年，整整二十年的时间里，它是AI界无可争议的绝对王者。贝叶斯分类、支持向量机（SVM）、随机森林、决策树、k近邻……这些我们现在依然耳熟能详的算法，在那个年代里，几乎垄断了所有AI学术研究和工业落地场景。

今天，我们就来讲讲这段被很多人忽略的「统计学习黄金时代」，看看这些传统机器学习算法，如何在AI的至暗时刻里撑起了整个行业，它们到底解决了什么问题，又为什么最终会被深度学习超越。

寒冬里的破局：告别「规则」，拥抱「统计」

第二次AI寒冬的根源，本质上是两条路都走死了：

第一条路，专家系统：靠人工把专家知识写成「如果…就…」的规则，最终死在了「知识获取瓶颈」——人类的经验根本没法完全翻译成规则，维护成本高到离谱；

第二条路，神经网络：靠模拟人脑神经元自主学习，最终死在了「训练难题」——梯度消失问题没解决，算力跟不上，深层网络根本训不动，效果还不如简单的统计方法。

整个AI界都在问一个问题：难道除了写死规则和模拟人脑，就没有第三条路了吗？

答案是：有。

一群统计学家和计算机科学家站出来说：我们不用教机器规则，也不用复刻人脑，我们只需要让机器用统计学的方法，从数据里算出规律就行。

举个最通俗的例子，你就懂它和专家系统、神经网络的区别了：

我们想让机器判断「一封邮件是不是垃圾邮件」。

专家系统的做法：找一个反垃圾邮件专家，把他的经验写成规则。比如「如果邮件里有『中奖』『免费领』，就判定为垃圾邮件」「如果发件人是陌生地址，就加风险分」，规则越写越多，最终还是会被新的垃圾邮件套路绕过去；

神经网络的做法：给机器喂几百万封标注好的邮件，让它自己一层层学特征，自己判断哪些词、哪些特征和垃圾邮件相关，最终给出结果；
统计机器学习的做法：先给模型看大量已经标好“垃圾/正常”的邮件，让它统计出规律：垃圾邮件常出现“中奖”“免费”“外链”这些特征，然后用概率算出一封新邮件，更像垃圾还是正常邮件，最后直接给出判断结果。

你看，它既不用人工写死无数条规则，也不用搞复杂的深层神经网络，只用统计学的概率计算，就解决了实际问题。

更重要的是，它有严谨、可解释的数学理论支撑，不会像当时的神经网络一样，被嘲讽为「炼丹玄学」——你能清清楚楚地看到，机器是怎么算出这个结果的，每一个参数、每一步计算都有明确的数学意义。

在那个AI被全世界质疑「是骗局、是空想」的年代，这份「严谨、可控、可落地」，成了它最珍贵的特质。

也正是靠着这份特质，统计机器学习在第二次AI寒冬里，硬生生闯出了一条路，开启了属于自己的黄金二十年。

黄金时代的三大王者：撑起AI二十年的核心算法

在统计机器学习的王朝里，有三大算法门派，几乎垄断了当时所有的AI应用场景，从学术界顶刊论文，到工业界落地项目，处处都是它们的身影。

我们不用复杂公式，只用大白话，讲透这三大王者到底是什么，为什么它们能在那个年代封神。

1. 贝叶斯分类：最古老的统计神器，让AI第一次读懂文字

贝叶斯分类的根基，是18世纪英国数学家托马斯·贝叶斯提出的贝叶斯定理——一个能「根据已知事件，算未知事件发生概率」的公式。

这个诞生了两百多年的数学定理，在互联网兴起的90年代，迎来了自己的高光时刻，而它封神的第一个场景，就是垃圾邮件分类。

我们刚才举的垃圾邮件例子，就是贝叶斯分类最经典的应用。它的核心逻辑特别简单：

先给机器喂几万封已经标注好的邮件，让它算一算：正常邮件里出现「中奖」的概率是多少？垃圾邮件里出现「中奖」的概率是多少？

收到一封新邮件，机器就把邮件里的关键词拆出来，用贝叶斯公式算一算：这封邮件里出现了这些词，它是垃圾邮件的概率有多大？

如果算出来的概率超过90%，就直接把它扔进垃圾邮件箱。

在贝叶斯分类出现之前，全世界的邮箱都被垃圾邮件轰炸得苦不堪言，人工写规则根本防不住。而贝叶斯分类，只用一个简单的概率公式，就把垃圾邮件的拦截率做到了95%以上。

除了垃圾邮件分类，它还横扫了文本分类、情感分析、新闻推荐等几乎所有自然语言处理场景。在深度学习爆发前，贝叶斯分类，就是文本处理领域无可争议的王者。

更难得的是，它对算力要求极低，哪怕是90年代的老旧计算机，也能轻松跑起来，完美适配了当时的硬件条件。直到今天，贝叶斯分类依然是很多轻量级文本分类场景的首选算法。

2. 支持向量机（SVM）：90年代的绝对王者，神经网络的一生之敌

如果说贝叶斯分类是文本领域的王者，那支持向量机（SVM），就是整个90年代到2012年之前，AI界的绝对霸主。

它的发明者，是俄罗斯数学家弗拉基米尔·瓦普尼克。早在60年代，他就提出了支持向量机的核心理论，可在那个专家系统和神经网络当道的年代，没人关注这个苏联数学家的研究。直到90年代，第二次AI寒冬降临，专家系统和神经网络双双翻车，人们才发现，瓦普尼克的SVM，简直是为这个时代量身定做的神器。

SVM的核心逻辑，用一句话就能讲明白：找一条最宽的「分界线」，把两类数据完美分开。

举个通俗的例子：

桌子上散落着一堆红球和一堆蓝球，你要画一条直线，把红球和蓝球分开。你可以画无数条直线，可SVM要找的，是那条「离两边的球都最远、最宽的分界线」。

这条最宽的线，就是最优超平面；而离这条线最近的那几个红球和蓝球，就是支持向量——这也是支持向量机名字的由来。

为什么它能吊打当时的神经网络？有三个核心优势，在那个年代堪称降维打击：

小样本也能出好效果：当时的神经网络需要海量数据才能训好，可90年代根本没有那么多标注数据，而SVM哪怕只有小几千个样本，也能训练出效果极好的模型；

数学严谨，不会「玄学翻车」：SVM有完整的统计学习理论支撑，训练结果稳定可控，不会像神经网络一样，这次训出来效果极好，下次就完全不行，完美契合了学术界对「严谨性」的要求；

能解决线性不可分问题：它用「核函数」给数据升维，把二维平面里分不开的红球蓝球，升到三维空间里，轻轻松松用一个平面分开，完美解决了当年感知机搞不定的非线性难题。

从90年代开始，SVM就成了AI顶刊论文里的绝对主角。图像识别、语音识别、文本分类、人脸识别、医疗诊断……几乎所有AI场景里，SVM都是效果最好、最主流的算法。

2012年之前的ImageNet大赛，几乎所有的冠军队伍，用的都是基于SVM的方法。甚至在2012年AlexNet出来之后，还有很多人不服气，觉得SVM才是AI的正统。

它是神经网络的一生之敌，也是第二次AI寒冬里，撑起整个AI行业的顶梁柱。

3. 随机森林：工业界的实用王者，最接地气的机器学习算法

如果说SVM是学术界的顶流，那随机森林，就是工业界的绝对王者。

它的发明者，是美国统计学家里奥·布雷曼。2001年，布雷曼正式提出了随机森林算法，而它的核心思想，用一句中国老话就能讲明白：三个臭皮匠，顶个诸葛亮。

随机森林的基础单元，是决策树——我们之前在系列里提到过，它就像一个「猜东西的二十问游戏」。

比如判断一个西瓜甜不甜，决策树会一步步问：「纹路清不清晰？」「瓜蒂新不新鲜？」「重量够不够？」，每问一个问题，就分一个岔，最终得出「甜」或「不甜」的结论。

单棵决策树很容易「钻牛角尖」，也就是过拟合——它把训练样本里的细节记得死死的，遇到新样本就翻车。那怎么解决这个问题？布雷曼说：一棵不行，就种一万棵。

随机森林，就是用随机的方式，生成成千上万棵不一样的决策树，让它们一起投票，最终给出结果。

比如判断西瓜甜不甜，10000棵决策树里，有9000棵说「甜」，那最终结果就是「甜」。

这种「集体投票」的思路，完美解决了单棵决策树的过拟合问题，而且它还有着碾压级的优势：

效果好，抗造：几乎不会过拟合，对脏数据、缺失值的容忍度极高，不用像SVM一样费劲地调参数，随便跑跑效果就很好；

能解释，不玄学：你能清清楚楚地看到，每一棵决策树是怎么判断的，最终结果是怎么投票出来的，工业界落地的时候，能给客户讲得明明白白；

能并行，速度快：成千上万棵树的训练，可以同时进行，哪怕是海量数据，也能快速跑完，完美适配工业界的大数据场景。

从2000年开始，随机森林就成了工业界的「万金油」。金融行业用它做贷款风险评估，保险行业用它做理赔审核，零售行业用它做用户推荐，医疗行业用它做疾病预测……几乎所有需要数据预测的场景，都能看到随机森林的身影。

直到今天，在很多结构化数据的预测场景里，随机森林依然是很多算法工程师的首选，效果不输深度学习，成本却低得多。

黄金时代的落幕：成也严谨，败也局限

从1993年到2012年，这二十年里，统计机器学习就是AI的代名词。

贝叶斯分类搞定了文本处理，SVM横扫了图像识别和语音识别，随机森林垄断了工业界的落地场景，还有k近邻、决策树、梯度提升树等一众算法，在各自的领域里发光发热。

在AI最黑暗的寒冬里，是这些传统机器学习算法，让AI没有彻底消亡，反而第一次真正实现了大规模的工业落地，让企业和政府看到了AI的实用价值。

可为什么，统治了AI界二十年的它们，最终会在2012年之后，迅速被深度学习超越，从绝对主流，变成了「传统方法」？

答案很简单：成也严谨，败也局限。它们的核心优势，在大数据时代来临之后，反而成了最致命的短板。

传统机器学习有两个绕不开的死穴，在互联网爆发的2010年之后，被无限放大：

特征工程，必须靠人工：传统机器学习算法，不会自己从数据里学特征。比如做图像识别，你需要人工给它设计「边缘、纹理、轮廓」这些图像特征；做文本分类，你需要人工给它做分词、提取关键词。算法的上限，完全取决于人工特征工程做得好不好。而深度学习，能自己从海量数据里学到特征，根本不用人工干预。当数据量从几十万涨到几千万、几亿的时候，传统机器学习的人工特征工程，根本跟不上了。
能力天花板，一眼可见：传统机器学习算法，在小样本、结构化数据的场景里，效果极好。可面对图片、音频、视频这些高维的非结构化数据，面对海量的互联网数据，它的效果很快就摸到了天花板——哪怕你再给它喂更多的数据，它的准确率也不会再涨了。

而深度学习，恰恰相反：数据量越大，它的效果就越好。随着移动互联网的爆发，人类积累了海量的图片、视频、文本数据，这些数据，刚好喂饱了深度学习，却成了传统机器学习的负担。

2012年的ImageNet大赛，成了黄金时代的终点。

辛顿团队的AlexNet，用深度卷积神经网络，把图像识别错误率从26%直接干到了16%，碾压了所有用SVM、人工特征工程的参赛队伍。

那一刻，所有人都意识到：一个新的时代来了。

统治了AI界二十年的统计机器学习，从舞台中央，退到了配角的位置；而在寒冬里坚守了几十年的神经网络，以「深度学习」的名字，完成了史诗级的王者归来。

很多人回望AI发展史，只会记住1956年的达特茅斯会议、2012年的AlexNet、2016年的AlphaGo、2022年的ChatGPT，却常常忽略了1993-2012年这二十年的统计学习黄金时代。

可正是这段历史，才让我们真正看懂AI发展的本质：

AI从来不是一条高歌猛进的直线，而是在不同的技术路线之间，一次次试错、一次次轮回。专家系统走不通了，就有统计机器学习站出来；统计机器学习摸到天花板了，就有深度学习接棒爆发。

没有哪条路线是永远的王者，也没有哪次寒冬是真正的终点。

哪怕是在深度学习统治AI界的今天，贝叶斯分类、SVM、随机森林这些传统机器学习算法，依然在工业界的无数场景里，发挥着不可替代的作用。它们不是被淘汰了，只是回到了自己最适合的位置上。

2012年，AlexNet的横空出世，终结了统计学习的黄金时代，也开启了深度学习的全新时代。而我们的AI简史，也将回到那条在寒冬里坚守了几十年的技术路线，看看它如何完成王者归来，如何用一场又一场的突破，震撼整个世界。

下一篇预告：

AI简史07｜深度学习破冰：从AlexNet到AlphaGo，神经网络的王者归来（1994-2016）

互动话题：

你在工作和学习中，还在用哪些传统机器学习算法？你觉得它们会被深度学习彻底取代吗？欢迎在评论区留下你的看法。

参考资料

Vapnik V N. The nature of statistical learning theory[M]. Springer science & business media, 2013.（SVM与统计学习理论的奠基性著作，瓦普尼克原著）

Breiman L. Random forests[J]. Machine learning, 2001, 45(1): 5-32.（随机森林原始论文，布雷曼里程碑式研究）

Mitchell T M. Machine learning[M]. McGraw-Hill, 1997.（机器学习领域经典教材，完整梳理传统机器学习算法的发展与原理）

周志华. 机器学习[M]. 清华大学出版社, 2016.（国内机器学习权威教材「西瓜书」，详解贝叶斯、SVM、随机森林等核心算法）

尼尔·尼尔森. 人工智能的探索[M]. 机械工业出版社, 2017.（AI权威历史著作，梳理统计学习时代的完整发展脉络）

凯德·梅茨. 深度学习革命[M]. 中信出版社, 2021.（还原SVM与神经网络的二十年竞争，以及深度学习最终爆发的完整历史）

Cortes C, Vapnik V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273-297.（SVM正式提出的里程碑论文）