AI学界的一个＂皇帝新衣＂:27%的性能提升,有75%是注水的

AI学界的一个”皇帝新衣”：27%的性能提升，有75%是注水的

最近读了一篇让我后背发凉的论文。

不是因为它提出了什么惊天动地的新方法，恰恰相反，它做的事情是”打假”。它用一组扎实的实验数据证明：过去两年，数据集蒸馏领域里那些被顶会接收、被大肆宣传的性能提升，大部分是假的。

不是数据造假，是比数据造假更隐蔽的东西：评估标准不统一。

先说说什么是数据集蒸馏

如果你训练过AI模型，你一定知道，训练数据越多，模型通常越强。但问题是，数据多了，训练成本也跟着暴涨。ImageNet-1K有超过120万张图片，用这些图片从头训练一个模型，没几张高端显卡根本搞不定。

于是就有人想：能不能把120万张图片”浓缩”成一小撮，比如每个类别只保留10张，总共1万张，然后用这1万张图片训练出来的模型，和用120万张训练出来的差不多？

这就是数据集蒸馏。

打个比方。你要准备一场考试，课本有1000页。数据集蒸馏做的事，就是帮你提炼出10页精华笔记。这10页笔记不能覆盖所有知识点，但学完之后，考试成绩不能差太多。

听起来很美好对吧？

过去两年，这个领域确实非常火热。各种新方法层出不穷，论文一篇接一篇，性能记录一次又一次被打破。从SRe²L到CDA，从RDED到EDC，每一篇都在说自己比前人强了多少。

但这篇论文告诉我们：这些”提升”里，有很多经不起推敲。

一个27%的提升，实际只有6.7%

论文的标题叫”Rectified Decoupled Dataset Distillation”，简称RD3。来自哈尔滨工业大学（深圳）、鹏城实验室和清华大学的研究团队。

他们做了一件很简单但很费力的事情：把所有主流方法放在同一个测试标准下，重新跑一遍。

结果令人震惊。

在ImageNet-1K这个最权威的图像识别数据集上，各方法之前报告的性能差距高达27.3%。比如说，EDC方法声称自己比最早的SRe²L方法高出了一大截。

但当RD3把所有方法统一到相同的测试条件后，这个差距直接缩水到了6.7%。

也就是说，27.3%的”提升”里，有大约四分之三不是来自方法本身的进步，而是来自评估设置的差异。

这就像一场跑步比赛，有人说自己比对手快了30%。但仔细一看，他穿的是专业跑鞋，跑道是下坡路，计时器是他自己带的。把条件拉平，他只快了7%。

差在哪？一个参数就能差出10%

具体差在哪？

论文逐一拆解了这些”隐形加成”。

第一，批量大小（Batch Size）。 最早的SRe²L用的是1024，后来的方法偷偷改小了。RD3发现，把批量大小统一改成50，几乎所有方法的准确率都能提升将近10%。这个提升和你的蒸馏方法好不好没关系，纯粹是训练参数的功劳。

第二，学习率衰减策略。 有的方法用标准余弦退火，有的加了平滑因子，还有的根据不同数据集手动调参。调得越精细，分数越高。但这分数高，是调参的功劳，不是蒸馏算法的功劳。

第三，数据增强策略。 CutMix、随机裁剪、随机翻转、Patch交换，各种增强手段叠加使用。策略越激进，性能越好。但问题是，这些增强手段对所有方法都有帮助，你用了不给别人用，这就是不公平比较。

第四，软标签的生成方式。 有的方法用单个教师模型生成软标签，有的用多个教师模型的混合软标签。混合软标签普遍更强，但有些方法只在论文里给自己的方法用了混合标签，基线方法却用的是单教师标签。

这些差异单独看都不大，但叠加在一起，就是27.3%和6.7%的差距。

最扎心的发现：随机图片居然能赢

如果说上面的发现让人警醒，那接下来这个发现就真的扎心了。

RD3团队做了一个实验：不用任何蒸馏方法，直接从原始数据集里随机抽图片，配上教师模型生成的软标签，然后训练。

结果在CIFAR-10、CIFAR-100、ImageNette和ImageNet-1K这些数据集上，随机抽出来的图片训练的模型，居然超过了所有精心设计的蒸馏方法。

你没看错。费尽心思蒸馏出来的”精华数据”，还不如随便抽的图片管用。

为什么？因为在大规模数据集上，教师模型的软标签本身携带了大量知识。只要图片足够多样，软标签就能把知识”灌”进学生模型。随机抽的图片天然就有最大的多样性，反而最配合软标签发挥作用。

这就像老师讲课，学生只要坐得住、听得进，用什么课本反而不那么重要了。老师讲得好（软标签质量高），比课本选得好（蒸馏方法精巧）更关键。

当然，在细粒度数据集（比如ImageWoof，专门区分不同品种的狗）上，蒸馏方法确实还是比随机采样强。因为这些任务需要高度代表性的图片，不是随便什么图都能撑得住。

数据集蒸馏的三条路线

为了让你更清楚这个领域的格局，我简单介绍一下目前的三种主要方法。

第一条路线：优化合成。 用一个训练好的模型当”老师”，然后从零开始，一个像素一个像素地”画”出合成图片。画的标准是：这些图片的统计特征（比如批量归一化层的均值和方差）要尽量接近原始数据集。SRe²L、CDA、G-VBSM、DWA、EDC都属于这一类。

第二条路线：生成合成。 用扩散模型（就是和Midjourney、Stable Diffusion同类的模型）直接”生成”新的图片。代表方法是Minimax和D4M。好处是生成的图片多样性天然就高，坏处是生成过程很慢，而且有时候生成的图片和目标类别关联性不强。

第三条路线：选择裁剪。 不生成新图片，而是从原始数据集中找到最能代表每个类别的图片区域，裁剪下来，拼成合成数据集。代表方法是RDED。优点是速度快、成本低，缺点是在低压缩比（图片很少）的时候多样性不够。

RD3的公平评估表明：没有一种方法在所有场景下都赢。 在高压缩比（每个类别只保留1张图）时，不同方法各有千秋；在低压缩比（每个类别保留100张图）时，性能差距更小，但计算时间差距可以达到100倍。

为什么这篇论文重要

你可能会说，这不就是一篇”打假”论文吗？有什么大不了的？

大在两个地方。

第一，它暴露了AI研究中的一个系统性问题。 当一个领域发展很快、论文很多的时候，大家都在争着刷分、抢排行榜。为了多几个百分点的提升，什么手段都上。调参、换评估策略、选对自己有利的数据集，这些都变成了”常规操作”。但从来没有人系统地追问：这些提升到底是真进步，还是统计噪声？

RD3做了这件事。结论是：在这个领域里，大部分所谓的”进步”经不起公平检验。

第二，它给出了一个建设性的解决方案。 RD3不只是批评，它建立了一套标准化的评估框架，包括统一的批量大小、学习率策略、数据增强方式、软标签生成方式。所有方法在同一个框架下比较，分数才是真分数。

而且，RD3还发现了一些真正有用的通用技巧。比如说，用多个教师模型的混合软标签，可以让所有方法都受益；用更好的初始化（比如从RDED的输出开始），可以让优化类方法的性能大幅提升。这些才是值得花精力研究的方向。

这对我们意味着什么

我自己在做智能体系统的开发，也关注AI领域的前沿研究。这篇论文给了我几个提醒。

第一，看到”XX方法比YY方法提升了N%”的标题，先别激动。 看看它们的评估条件是不是一样的。不一样的话，这个N%基本可以打折。打完折再看值不值得关注。

第二，标准化很重要。 无论是做研究还是做工程，公平比较是进步的基础。没有公平比较，你永远不知道自己是在前进还是在原地打转。

第三，有时候”笨方法”就够了。 随机采样配上好标签就能赢过精心设计的蒸馏方法，这说明在AI领域，简单粗暴往往被低估了。与其花大力气设计精巧的算法，不如先把基础做好。

数据集蒸馏这个领域方向是对的。用更少的数据训练出更强的模型，这在算力有限的场景下（比如私有化部署、边缘计算）有巨大的实用价值。但方向对不代表路径对。

RD3这篇论文的价值，不在于它提出了什么新方法，而在于它让这个领域慢下来，回头看了看自己走过的路，发现有些路其实是绕了弯的。

慢下来检查方向，有时候比埋头赶路更重要。

参考：

Rectified Decoupled Dataset Distillation: A Closer Look for Fair and Comprehensive Evaluation