AI赢了围棋、赢了蛋白质折叠,却还在被Excel打脸

AI赢了围棋、赢了蛋白质折叠，却还在被Excel打脸

神经网络能写诗、能画画、能通过律师考试，但你把一张公司销售报表丢给它，让它预测下个季度的数字——它大概率输给一个跑了二十年的老旧随机森林模型。这个反差不是偶然，背后藏着一个被大多数人忽略的根本性问题。

2017年前后，有一场安静的学术争论没怎么进入公众视野。一批研究者把当时最先进的深度学习模型和XGBoost放在同一批表格数据集上跑，结果让人尴尬：神经网络输了，而且输得不轻。这个结论后来被反复验证，2022年一篇被广泛引用的论文《Why do tree-based models still outperform deep learning on tabular data?》直接把问题写进了标题。AI界对这个问题的态度，有点像一个钢琴神童被邻居大爷在象棋上连杀三盘——大家都知道发生了什么，但没人想大声说出来。

表格数据和图像数据，根本不是同一种东西

深度学习崛起的起点，是2012年AlexNet在图像识别上的惊天一跃。从那以后，「神经网络能学到任何模式」的信念深入人心。但这里有个被忽视的前提：图像数据有一种天然的结构——相邻的像素在空间上是相关的，一只猫的耳朵和它旁边的毛发共享着某种视觉逻辑。神经网络的卷积操作，本质上是在利用这种空间连续性。

表格数据没有这种东西。一张销售表里，第3列是「城市」，第4列是「客户年龄」，第5列是「折扣率」——这三列之间不存在任何「相邻即相关」的假设。每一列都是独立的语义单元，列与列之间的关系需要被显式学习，而不能靠位置来推断。表格数据本质上是无序的，这和图像、文本的内在逻辑截然不同。

99%

的真实业务数据集，行数不超过10万条

深度学习是个饥渴的怪物。它需要大量数据来学习有意义的表示。图像识别用的ImageNet有1400万张图，GPT系列的训练语料是互联网级别的文本。但现实中的表格数据集是什么规模？一家中型企业三年的交易记录，去重清洗之后可能只有几万行。医院的临床试验数据，几百行就算不错了。在这种数据量下，神经网络的参数多到根本「喂不饱」，它学到的不是规律，而是噪声。

XGBoost为什么在这里这么能打

以XGBoost为代表的梯度提升树，天生就是为表格数据设计的。它的工作方式有一种朴素的暴力美学：先建一棵粗糙的决策树，找出预测错的地方，然后专门针对这些错误再建一棵树，如此迭代。整个过程不需要假设特征之间的空间关系，不需要海量数据，甚至对特征缩放和缺失值都有天然的容忍度。

「

好的归纳偏置，比更多的参数更值钱。

」

这里有个关键概念：归纳偏置（inductive bias）。每种模型都内置了某种对「世界是什么样的」的假设。卷积神经网络假设「局部特征重要」，Transformer假设「任意位置的元素都可能相关」，而决策树假设「数据可以被一系列if-else规则切分」。对于表格数据来说，if-else规则恰好是人类整理数据的方式——业务规则、分类标准、阈值判断，这些本来就是表格数据的生成逻辑。模型的假设和数据的生成机制对齐了，自然就赢了。

研究者不是没有努力过

1TabNet（2019）：用注意力机制模拟特征选择，试图让神经网络学会「只看重要的列」

2SAINT（2021）：把行与行、列与列的交互都用Transformer建模，参数量直接爆炸

3FT-Transformer（2022）：把每个特征值都变成embedding，再用Transformer处理，在部分数据集上接近了树模型的水平

4TabPFN（2023）：换了个思路，直接在合成数据上预训练，推理时不训练，速度极快——但只能处理小数据集

这些工作都很有创意，但一个共同的问题是：它们在「大而复杂」的数据集上表现尚可，在「小而稀疏」的数据集上依然不稳定。而偏偏，大多数真实业务场景属于后者。研究者们在追赶一个不断移动的目标：XGBoost这边也没有停止进化，LightGBM、CatBoost一路迭代，工业界的工程师们把这些工具调得越来越顺手。

这件事真正有趣的地方在哪里

不是「神经网络不行」，而是「通用性」和「专用性」之间永恒的张力。深度学习的野心是做一个通用学习器，用足够多的数据和参数逼近任意函数。这个方向在某些领域确实成功了——语言、图像、音频，这些数据天然海量，且有内在的连续结构。但表格数据代表了另一类问题：数据稀少、特征异质、生成机制是人为规则。在这里，「少即是多」——一个内置了正确假设的简单模型，打败了一个什么都能学但什么都要从头学的复杂模型。

历史上这种事不是第一次发生。1990年代，神经网络曾经被支持向量机（SVM）打得节节败退，原因也类似：在小数据集上，SVM的数学结构提供了更好的泛化保证。后来深度学习靠着大数据和算力翻身。表格数据的故事会不会重演？也许会，但需要的不只是更大的模型，而是一种真正理解表格数据生成逻辑的新架构——目前还没有人找到。

●下次有人跟你说「用大模型处理业务数据」，先问一句：你的数据有多少行？特征有多少列？有没有缺失值？这几个问题的答案，往往比模型选型更重要。

✦ 小结

AI不是万能的，但更重要的是：它在哪里失效，失效的原因是什么，这件事本身就很值得想清楚。表格数据的故事告诉我们，算法的能力边界不是由算力决定的，而是由数据的内在结构和模型的归纳偏置是否匹配决定的。在这个匹配没有发生的地方，一个二十年前的老方法，依然可以让最新的神经网络下不了台。

表格数据XGBoost深度学习局限机器学习归纳偏置