在机器学习领域,表征学习(Representation Learning)是理解和表示数据的关键步骤。对于表格数据,传统的机器学习方法如决策树、随机森林等在处理高维、稀疏和异构数据方面表现出色。然而,随着深度学习的兴起,研究者开始探索如何将神经网络应用于表格数据,以利用其强大的特征学习能力。
然而,将神经网络应用于表格数据面临一些挑战。首先,表格数据通常是高维的,包含连续和离散的特征,而神经网络更擅长处理低维、稠密的数据。其次,表格数据中的特征通常是异构的,即不同特征的取值范围和分布可能存在较大差异,而神经网络更适用于处理同构数据。最后,表格数据通常包含一些具有特殊意义的特征,如时间戳、地理位置等,而神经网络可能无法直接理解这些特征的含义。
为了解决这些挑战,研究者提出了一种基于语言模型的解决方案。具体来说,他们将表格数据的特征转换为文本表示,然后使用语言模型(如BERT)对这些文本表示进行编码和解码。通过这种方式,他们可以利用语言模型的强大语义理解能力来学习表格数据的特征表示,从而提高模型的预测性能。
在ICLR 2024上,来自浙江大学和伊利诺伊大学香槟分校的研究者提出了一种名为TP-BERTa(Tabular Prediction adapted BERT approach)的解决方案。TP-BERTa是一种基于BERT的语言模型,专门用于表格数据预测任务。它通过将连续数值特征转换为离散的、高维的文本表示,并结合特征名称和值的自注意力机制,实现了对表格数据的高效编码和解码。
TP-BERTa具有以下几个优势:
1.连续数值分布式表征:TP-BERTa通过将连续数值特征转换为离散的、高维的文本表示,实现了对这些特征的高效编码和解码。这种表示方法可以更好地捕捉连续数值特征的分布信息,从而提高模型的预测性能。
2.特征名称和值的自注意力机制:TP-BERTa通过结合特征名称和值的自注意力机制,实现了对表格数据的高效编码和解码。这种机制可以更好地理解特征名称和值之间的语义关系,从而提高模型的泛化能力。
3.预训练和微调:TP-BERTa通过在大规模的表格数据集上进行预训练,然后在具体的预测任务上进行微调,实现了对表格数据的高效学习和泛化。这种预训练和微调的方法可以更好地利用大规模数据集上的泛化知识,从而提高模型的泛化能力。
在实验中,研究者将TP-BERTa与传统的机器学习方法(如XGBoost、CatBoost)以及现有的深度学习方法(如FT-Transformer、TransTab)进行了比较。结果显示,TP-BERTa在各种表格数据预测任务上都取得了显著的性能提升,尤其是在处理具有大量连续数值特征的表格数据时。此外,研究者还对TP-BERTa进行了消融实验和超参数敏感性分析,以验证其设计的有效性和鲁棒性。