TabTransformer:用于表格数据的Transformer

简介: TabTransformer:用于表格数据的Transformer

在Transformers颠覆了自然语言处理和计算机视觉之后,他们现在把目光投向了最大的数据类型:表格数据。

在这篇文章中,我们将介绍亚马逊的最新论文TabTransformer。

首先,我们将回答为什么可以将transformer应用于表格数据。然后,我们将看到他们如何处理表格数据。

那么下面就开始吧:汽车人,变形出发!


为什么我们可以将Transformers应用于表格数据?

transformer最初是作为一种建模语言的方法被提出的。那么,表格数据是一种语言吗?把普通的表格和人类的语言进行比较感觉很奇怪。

事实是,统计模型并不关心我们的感觉。

他们所关心的只是表征数据的统计属性。这里我们要展示的是表格数据和语言有很多相同的属性。在某种意义上,分类表数据是一种超结构化的语言子集。

假设每一行都是一个“句子”,每一列值都是一个“单词”或一个标记。从语言到表格数据的额外约束如下:

这些句子都是固定长度的:每一行都有相同数量的列。

单词的顺序并不重要,但在定义表格语言时已达成共识。重要的是语言的真实顺序。  

在每个位置,一个单词可以采用的值都是固定的,并且每个单词的取值都不同:每个单词都是一个分类特征。使用常规语言,您可以在字典中的所有单词之间进行选择,甚至可以根据需要创建新的单词。

640.png

事实证明,这些限制并没有限制Transformers的使用。事实正好相反。

当令牌的顺序不重要时,Transformers变得更加完美的。它甚至简化了模型。现在可以省去原始论文中的位置编码步骤。

这也解释了为什么递归神经网络(RNN)不能很好地处理表格数据。RNNs本身就使用令牌的顺序性和位置。

下图显示了TabTransformer的模型架构:

640.png

因此,我们都同意至少在表格数据上尝试Transformers是有意义的。现在让我们看看它们与其他表格数据模型的比较情况。

Transformers的三个优点

模型特征与上下文嵌入的交互

在许多列表“语言”中,都存在有意义的特性交互。一个特性的值会影响另一个特性的解释方式。

由于决策树具有连续的决策制定过程,因此它可以很自然地为这些交互行为建模。树中更深层次的决策依赖于从根开始的所有以前的决策,因此以前的特征值会影响当前特征的解释。

其他模型,比如线性支持向量机,无法捕捉这些交互作用。

在自然语言中,这个概念(称为一词多义)也是至关重要的。正如英国语言学家约翰·r·弗斯所说:

“你应该根据一个词的语境来认识它。”

这就是为什么transformer还通过它的多头自注意机制来显式地建模令牌交互。通过这种方式,模型产生了上下文嵌入。

DeepEnFM的研究人员是第一个解决多头注意力表格数据中特征交互问题的研究人员。

使用了强大的半监督学习技术

在关于TabTransformer的文章中,作者指出可以从自然语言处理中复制两种强大的半监督训练技术。

第一个是BERT介绍的一种技术,称为掩蔽语言建模。与语言模型一样,您也可以通过屏蔽输入句子中的标记并学习预测屏蔽标记来训练表格数据上的transformers。

第二种是基于关于ELECTRA的论文的学习技术。这是“替换令牌检测”。他们没有掩盖功能,而是将其替换为替代类别。然后对TabTransformer进行训练,以预测哪些功能已换出。

处理缺失和嘈杂的数据

transformers的最后一个优点是,它们在处理缺失和嘈杂的特征方面表现出色。这些来自TabTransformer的图表显示了MLP和transformers之间的比较。

640.png

因为transformers使用上下文嵌入,所以它们可以从上下文中提取信息以纠正丢失或嘈杂的数据。

MLP还可以学习嵌入,但是它们无法对矢量方向的功能交互进行建模。它们的体系结构将它们限制为按位交互,但是这会损害其性能。

结论

TabTransformer打开了表示学习天堂的大门,同时匹配了基于树的集成模型的性能。这是MLP无法提供的。

很好奇,看看接下来的几个月还会有什么!

目录
相关文章
|
机器学习/深度学习 自然语言处理 搜索推荐
神经网络算法 —— Embedding(嵌入)!!
神经网络算法 —— Embedding(嵌入)!!
5751 1
|
BI C语言 索引
Python科学计算库Numpy数值运算基础详解(超详细 附源码)
Python科学计算库Numpy数值运算基础详解(超详细 附源码)
752 0
|
编解码 JavaScript 数据可视化
Cesium中Viewer配置对照表
本文用于Cesium初始化界面的详细配置,是对这篇文章的延伸;内容不定时更新。
911 0
|
5月前
|
数据采集 机器学习/深度学习 人工智能
大模型“驯化”指南:从人类偏好到专属AI,PPO与DPO谁是你的菜?
本文深入解析让AI“懂你”的关键技术——偏好对齐,对比PPO与DPO两种核心方法。PPO通过奖励模型间接优化,适合复杂场景;DPO则以对比学习直接训练,高效稳定,更适合大多数NLP任务。文章涵盖原理、实战步骤、评估方法及选型建议,并推荐从DPO入手、结合低代码平台快速验证。强调数据质量与迭代实践,助力开发者高效驯化大模型,实现个性化输出。
895 8
|
消息中间件
RabbitMQ的 RPC 消息模式你会了吗?
【9月更文挑战第11天】RabbitMQ 的 RPC(远程过程调用)消息模式允许客户端向服务器发送请求并接收响应。其基本原理包括:1) 客户端发送请求,创建回调队列并设置关联标识符;2) 服务器接收请求并发送响应至回调队列;3) 客户端根据关联标识符接收并匹配响应。实现步骤涵盖客户端和服务器的连接、信道创建及请求处理。注意事项包括关联标识符唯一性、回调队列管理、错误处理及性能考虑。RPC 模式适用于构建可靠的分布式应用程序,但需根据需求调整优化。
567 3
|
数据采集 搜索推荐 API
小红书笔记详情 API 接口的开发、应用与收益
小红书(RED)作为国内领先的生活方式分享平台,汇聚了大量用户生成内容(UGC),尤其是“种草”笔记。小红书笔记详情API接口为开发者提供了获取笔记详细信息的强大工具,包括标题、内容、图片、点赞数等。通过注册开放平台账号、申请API权限并调用接口,开发者可以构建内容分析工具、笔记推荐系统、数据爬虫等应用,提升用户体验和运营效率,创造新的商业模式。本文详细介绍API的开发流程、应用场景及潜在收益,并附上Python代码示例。
1079 62
|
机器学习/深度学习 人工智能 自然语言处理
秒级响应 + 99.9%准确率:法律行业文本比对技术解析
本工具基于先进AI技术,采用自然语言处理和语义匹配算法,支持PDF、Word等格式,实现法律文本的智能化比对。具备高精度语义匹配、多格式兼容、高性能架构及智能化标注与可视化等特点,有效解决文本复杂性和法规更新难题,提升法律行业工作效率。
1029 9
|
存储 JavaScript 前端开发
介绍一下Vue的核心功能
介绍一下Vue的核心功能
595 17
|
分布式计算 资源调度 安全
Hadoop防火墙问题
【5月更文挑战第5天】防火墙问题
456 6
|
人工智能 数据库
【科研技巧】如何判断某个期刊是什么类别及影响因子?是否是顶会?如何期刊内检索?AI写综述?AI做PPT?
本文提供了关于如何判断期刊类别、影响因子,识别顶级会议,以及在期刊内部进行检索的科研技巧,并探讨了AI技术在撰写综述和制作PPT方面的应用。
632 6
【科研技巧】如何判断某个期刊是什么类别及影响因子?是否是顶会?如何期刊内检索?AI写综述?AI做PPT?

热门文章

最新文章