论文标题:Regularization is all you Need:Simple Neural Nets can Excel on Tabular Data
论文链接:https://arxiv.org/abs/2106.11189
一、概述
一直以来,传统的机器学习方法,如GBDT,由于其优越的性能,在表格数据应用中占主导地位,而深度学习在一些其他类型的数据(如图像、语音和文本)方面取得了成功。然而在表格数据方面,深度网络模型的效果却始终没能战胜传统机器学习方法。虽然有一些文献提供了一些深度学习方法,并且宣称其战胜了GBDT,然而其他文献也证明了GBDT仍然是最有效的方法。
本文在40个数据集上的广泛实验证明了这些深度模型的方法的确未能战胜GBDT。本文假设解决神经网络在表格数据上的性能问题的关键在于利用深度学习在正则化技术上的最新进展,比如数据增强(data augmentation)、残差块(residual blocks)、模型平均(model averaging)等。本文发现同时应用多种正则化技术时,即使普通的多层感知机也能够达到SOTA的结果。
对于经常混合使用正则化技术的从业者来说,联合应用多个正则化器并不是一种新鲜的做法。不过一个更深层次的问题尚未解决,那就是:在多种可用方法中,在特定的数据集上正则化器的哪个子集具有最大的泛化性能?目前从业者选择正则化技术仅仅是通过简单的试错。在本文中,我们提供了一个方法,能够以13个现代正则化技术及其附属超参数作为候选,为每个数据集寻找MLP正则化器的最佳组合。
本文的成果证明了一个好的正则化神经网络能够在表格数据上战胜最近的一些深度学习方法以及GBDT。本文的主要贡献为:
①证明了为其他类型的数据(如图像、语音和文本)开发的现代正则化技术同样能够提高神经网络模型在表格数据上的性能;
②提出了一个简单而有原则的范式来选择正则化技术的最优子集及其附属超参数(称其为regularization cocktails);
③证明了regularization cocktails甚至能够使得简单MLP战胜最近的一些深度学习方法以及GBDT,并且在本文设计的公平的大规模实验中表明神经网络战胜了XGBoost。
二、方法
- 正则化技术
本文涉及的正则化技术以及包括以下几个大类:
①Weight decay:L1,L2,……;
②Data Augmentation:Cut-Out,Mix-Up,Aug-Mix,……;
③Model Averaging:Dropout,snapshot ensembles,……;
④Structural and Linearization:Skip Connection,……;
⑤一些隐式的正则化方法:Batch Normalization,early stopping,……
- 问题定义
- 搜索空间
本文从前面提到的几大类中的一共13种正则化器中进行选择,下表列出了这些正则化器以及控制它们的19个超参数:
正则化器
超参数优化采用BOHB方法,具体过程见文章附录。
三、实验
本文在40个表格数据集上进行了大规模实验,对比了多个baseline,包括深度学习的方法与GBDT,实验结果如下:
实验
同时也对比了与三个效果最好的baseline的错误率:
对比baseline
为了评估统计显著性,文章分析了40个数据集的分类精度等级。文章使用了基于Wilcoxon显著性检验的等级的临界差分(CD)图,这是在多个数据集上比较分类器的标准度量:
Critical difference diagrams
具体实验设置参看原文。