TabTransformer:用于表格数据的Transformer

简介: TabTransformer:用于表格数据的Transformer

在Transformers颠覆了自然语言处理和计算机视觉之后,他们现在把目光投向了最大的数据类型:表格数据。

在这篇文章中,我们将介绍亚马逊的最新论文TabTransformer。

首先,我们将回答为什么可以将transformer应用于表格数据。然后,我们将看到他们如何处理表格数据。

那么下面就开始吧:汽车人,变形出发!


为什么我们可以将Transformers应用于表格数据?

transformer最初是作为一种建模语言的方法被提出的。那么,表格数据是一种语言吗?把普通的表格和人类的语言进行比较感觉很奇怪。

事实是,统计模型并不关心我们的感觉。

他们所关心的只是表征数据的统计属性。这里我们要展示的是表格数据和语言有很多相同的属性。在某种意义上,分类表数据是一种超结构化的语言子集。

假设每一行都是一个“句子”,每一列值都是一个“单词”或一个标记。从语言到表格数据的额外约束如下:

这些句子都是固定长度的:每一行都有相同数量的列。

单词的顺序并不重要,但在定义表格语言时已达成共识。重要的是语言的真实顺序。  

在每个位置,一个单词可以采用的值都是固定的,并且每个单词的取值都不同:每个单词都是一个分类特征。使用常规语言,您可以在字典中的所有单词之间进行选择,甚至可以根据需要创建新的单词。

640.png

事实证明,这些限制并没有限制Transformers的使用。事实正好相反。

当令牌的顺序不重要时,Transformers变得更加完美的。它甚至简化了模型。现在可以省去原始论文中的位置编码步骤。

这也解释了为什么递归神经网络(RNN)不能很好地处理表格数据。RNNs本身就使用令牌的顺序性和位置。

下图显示了TabTransformer的模型架构:

640.png

因此,我们都同意至少在表格数据上尝试Transformers是有意义的。现在让我们看看它们与其他表格数据模型的比较情况。

Transformers的三个优点

模型特征与上下文嵌入的交互

在许多列表“语言”中,都存在有意义的特性交互。一个特性的值会影响另一个特性的解释方式。

由于决策树具有连续的决策制定过程,因此它可以很自然地为这些交互行为建模。树中更深层次的决策依赖于从根开始的所有以前的决策,因此以前的特征值会影响当前特征的解释。

其他模型,比如线性支持向量机,无法捕捉这些交互作用。

在自然语言中,这个概念(称为一词多义)也是至关重要的。正如英国语言学家约翰·r·弗斯所说:

“你应该根据一个词的语境来认识它。”

这就是为什么transformer还通过它的多头自注意机制来显式地建模令牌交互。通过这种方式,模型产生了上下文嵌入。

DeepEnFM的研究人员是第一个解决多头注意力表格数据中特征交互问题的研究人员。

使用了强大的半监督学习技术

在关于TabTransformer的文章中,作者指出可以从自然语言处理中复制两种强大的半监督训练技术。

第一个是BERT介绍的一种技术,称为掩蔽语言建模。与语言模型一样,您也可以通过屏蔽输入句子中的标记并学习预测屏蔽标记来训练表格数据上的transformers。

第二种是基于关于ELECTRA的论文的学习技术。这是“替换令牌检测”。他们没有掩盖功能,而是将其替换为替代类别。然后对TabTransformer进行训练,以预测哪些功能已换出。

处理缺失和嘈杂的数据

transformers的最后一个优点是,它们在处理缺失和嘈杂的特征方面表现出色。这些来自TabTransformer的图表显示了MLP和transformers之间的比较。

640.png

因为transformers使用上下文嵌入,所以它们可以从上下文中提取信息以纠正丢失或嘈杂的数据。

MLP还可以学习嵌入,但是它们无法对矢量方向的功能交互进行建模。它们的体系结构将它们限制为按位交互,但是这会损害其性能。

结论

TabTransformer打开了表示学习天堂的大门,同时匹配了基于树的集成模型的性能。这是MLP无法提供的。

很好奇,看看接下来的几个月还会有什么!

目录
相关文章
|
9天前
|
机器学习/深度学习 人工智能 自然语言处理
【EMNLP2024】面向长文本的文视频表征学习与检索模型 VideoCLIP-XL
阿里云人工智能平台 PAI 与华南理工大学金连文教授团队合作,在自然语言处理顶会 EMNLP 2024 上发表论文《VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models》。VideoCLIP-XL 模型,有效地提升了对视频的长文本描述的理解能力。
|
1月前
|
机器学习/深度学习 存储 自然语言处理
LangChain-22 Text Embedding 续接21节 文本切分后 对文本进行embedding向量化处理 后续可保存到向量数据库后进行检索 从而扩展大模型的能力
LangChain-22 Text Embedding 续接21节 文本切分后 对文本进行embedding向量化处理 后续可保存到向量数据库后进行检索 从而扩展大模型的能力
37 0
|
6月前
|
机器学习/深度学习 自然语言处理 搜索推荐
探索文本向量化的新高峰:合合信息acge_text_embedding 模型原创
文本向量化方法包括词袋模型、TF-IDF、词嵌入和预训练模型(如BERT、GPT)。词嵌入如Word2Vec、GloVe和FastText捕捉单词语义,预训练模型则保留上下文信息。C-MTEB是中文文本嵌入评估平台,测试模型在检索、相似性、分类等任务的性能。合合信息的acge_text_embedding模型在C-MTEB中表现优秀,适用于情感分析、文本生成等任务,具有高分类聚类准确性、资源效率和场景适应性。技术突破涉及数据集优化、模型训练策略和持续学习,提供Demo展示如何使用acge模型计算句子相似度。acge_text_embedding是提升文本处理效率和智能化的有力工具。
659 2
探索文本向量化的新高峰:合合信息acge_text_embedding 模型原创
|
存储 传感器 数据可视化
3D目标检测数据集 KITTI(标签格式解析、3D框可视化、点云转图像、BEV鸟瞰图)
本文介绍在3D目标检测中,理解和使用KITTI 数据集,包括KITTI 的基本情况、下载数据集、标签格式解析、3D框可视化、点云转图像、画BEV鸟瞰图等,并配有实现代码。
1495 1
|
6月前
|
测试技术
Vript:最为详细的视频文本数据集,每个视频片段平均超过140词标注 | 多模态大模型,文生视频
[Vript](https://github.com/mutonix/Vript) 是一个大规模的细粒度视频文本数据集,包含12K个高分辨率视频和400k+片段,以视频脚本形式进行密集注释,每个场景平均有145个单词的标题。除了视觉信息,还转录了画外音,提供额外背景。新发布的Vript-Bench基准包括三个挑战性任务:Vript-CAP(详细视频描述)、Vript-RR(视频推理)和Vript-ERO(事件时序推理),旨在推动视频理解的发展。
129 1
Vript:最为详细的视频文本数据集,每个视频片段平均超过140词标注 | 多模态大模型,文生视频
|
自然语言处理 数据库 C++
Table-GPT:让大语言模型理解表格数据
llm对文本指令非常有用,但是如果我们尝试向模型提供某种文本格式的表格数据和该表格上的问题,LLM更有可能产生不准确的响应。
454 0
|
6月前
|
存储 编解码 数据库
基于文本嵌入和 CLIP 图像嵌入的多模态检索
基于文本嵌入和 CLIP 图像嵌入的多模态检索
369 0
|
机器学习/深度学习 算法 测试技术
在表格数据上,为什么基于树的模型仍然优于深度学习?
在表格数据上,为什么基于树的模型仍然优于深度学习?
215 0
在表格数据上,为什么基于树的模型仍然优于深度学习?
|
机器学习/深度学习 自然语言处理 存储
我的文本数据和文本标签放在csv文件中的,如何将文本数据设置小批次和打乱,再传入RNN或者LSTM网络
在 TorchText 中,可以使用 TabularDataset 类来读取 CSV 文件中的数据,并使用 BucketIterator 来对数据进行小批次和打乱处理。假设我们的 CSV 文件中有以下内容。
337 1
|
XML 数据可视化 数据格式
【数据集显示标注】VOC文件结构+数据集标注可视化+代码实现
【数据集显示标注】VOC文件结构+数据集标注可视化+代码实现
430 0