
AI赢了围棋、赢了蛋白质折叠,却还在被Excel打脸
神经网络能写诗、能画画、能通过律师考试,但你把一张公司销售报表丢给它,让它预测下个季度的数字——它大概率输给一个跑了二十年的老旧随机森林模型。这个反差不是偶然,背后藏着一个被大多数人忽略的根本性问题。
2017年前后,有一场安静的学术争论没怎么进入公众视野。一批研究者把当时最先进的深度学习模型和XGBoost放在同一批表格数据集上跑,结果让人尴尬:神经网络输了,而且输得不轻。这个结论后来被反复验证,2022年一篇被广泛引用的论文《Why do tree-based models still outperform deep learning on tabular data?》直接把问题写进了标题。AI界对这个问题的态度,有点像一个钢琴神童被邻居大爷在象棋上连杀三盘——大家都知道发生了什么,但没人想大声说出来。
表格数据和图像数据,根本不是同一种东西
深度学习崛起的起点,是2012年AlexNet在图像识别上的惊天一跃。从那以后,「神经网络能学到任何模式」的信念深入人心。但这里有个被忽视的前提:图像数据有一种天然的结构——相邻的像素在空间上是相关的,一只猫的耳朵和它旁边的毛发共享着某种视觉逻辑。神经网络的卷积操作,本质上是在利用这种空间连续性。
表格数据没有这种东西。一张销售表里,第3列是「城市」,第4列是「客户年龄」,第5列是「折扣率」——这三列之间不存在任何「相邻即相关」的假设。每一列都是独立的语义单元,列与列之间的关系需要被显式学习,而不能靠位置来推断。表格数据本质上是无序的,这和图像、文本的内在逻辑截然不同。
99%
的真实业务数据集,行数不超过10万条
深度学习是个饥渴的怪物。它需要大量数据来学习有意义的表示。图像识别用的ImageNet有1400万张图,GPT系列的训练语料是互联网级别的文本。但现实中的表格数据集是什么规模?一家中型企业三年的交易记录,去重清洗之后可能只有几万行。医院的临床试验数据,几百行就算不错了。在这种数据量下,神经网络的参数多到根本「喂不饱」,它学到的不是规律,而是噪声。
XGBoost为什么在这里这么能打
以XGBoost为代表的梯度提升树,天生就是为表格数据设计的。它的工作方式有一种朴素的暴力美学:先建一棵粗糙的决策树,找出预测错的地方,然后专门针对这些错误再建一棵树,如此迭代。整个过程不需要假设特征之间的空间关系,不需要海量数据,甚至对特征缩放和缺失值都有天然的容忍度。
「
好的归纳偏置,比更多的参数更值钱。
」
这里有个关键概念:归纳偏置(inductive bias)。每种模型都内置了某种对「世界是什么样的」的假设。卷积神经网络假设「局部特征重要」,Transformer假设「任意位置的元素都可能相关」,而决策树假设「数据可以被一系列if-else规则切分」。对于表格数据来说,if-else规则恰好是人类整理数据的方式——业务规则、分类标准、阈值判断,这些本来就是表格数据的生成逻辑。模型的假设和数据的生成机制对齐了,自然就赢了。
研究者不是没有努力过
1TabNet(2019):用注意力机制模拟特征选择,试图让神经网络学会「只看重要的列」
2SAINT(2021):把行与行、列与列的交互都用Transformer建模,参数量直接爆炸
3FT-Transformer(2022):把每个特征值都变成embedding,再用Transformer处理,在部分数据集上接近了树模型的水平
4TabPFN(2023):换了个思路,直接在合成数据上预训练,推理时不训练,速度极快——但只能处理小数据集
这些工作都很有创意,但一个共同的问题是:它们在「大而复杂」的数据集上表现尚可,在「小而稀疏」的数据集上依然不稳定。而偏偏,大多数真实业务场景属于后者。研究者们在追赶一个不断移动的目标:XGBoost这边也没有停止进化,LightGBM、CatBoost一路迭代,工业界的工程师们把这些工具调得越来越顺手。
这件事真正有趣的地方在哪里
不是「神经网络不行」,而是「通用性」和「专用性」之间永恒的张力。深度学习的野心是做一个通用学习器,用足够多的数据和参数逼近任意函数。这个方向在某些领域确实成功了——语言、图像、音频,这些数据天然海量,且有内在的连续结构。但表格数据代表了另一类问题:数据稀少、特征异质、生成机制是人为规则。在这里,「少即是多」——一个内置了正确假设的简单模型,打败了一个什么都能学但什么都要从头学的复杂模型。
历史上这种事不是第一次发生。1990年代,神经网络曾经被支持向量机(SVM)打得节节败退,原因也类似:在小数据集上,SVM的数学结构提供了更好的泛化保证。后来深度学习靠着大数据和算力翻身。表格数据的故事会不会重演?也许会,但需要的不只是更大的模型,而是一种真正理解表格数据生成逻辑的新架构——目前还没有人找到。
●下次有人跟你说「用大模型处理业务数据」,先问一句:你的数据有多少行?特征有多少列?有没有缺失值?这几个问题的答案,往往比模型选型更重要。
✦ 小结
AI不是万能的,但更重要的是:它在哪里失效,失效的原因是什么,这件事本身就很值得想清楚。表格数据的故事告诉我们,算法的能力边界不是由算力决定的,而是由数据的内在结构和模型的归纳偏置是否匹配决定的。在这个匹配没有发生的地方,一个二十年前的老方法,依然可以让最新的神经网络下不了台。
夜雨聆风