【论文解读】Co-attention network with label embedding for text classification

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: 华南理工出了一篇有意思的文章,将标签和文本进行深度融合,最终形成带标签信息的文本表示和带文本信息的标签表示。

🍥关键词:文本分类、多分类、多标签、标签嵌入

 

🍥发表期刊:Neurocomputing 2022  A2

🍥原始论文:https://mqianliu.github.io/files/CNLE_Neurocomputing22.pdf

🍥代码链接:https://github.com/lizhaoliu-Lec/CNLE

华南理工出了一篇有意思的文章,将标签和文本的序列信息进行深度融合,最终形成文本增强的标签表示和标签增强的文本表示。

一、Introduction

在本文中,我们试图通过进一步构造具有文本到标签注意的文本参与标签表示来利用标签信息。为此,我们提出了一种带有标签嵌入的协同注意网络(CNLE),该网络将文本和标签联合编码到它们相互参与的表示中。通过这种方式,该模型能够兼顾两者的相关部分。实验表明,我们的方法在7个多类分类基准和2个多标签分类基准上取得了与以前最先进的方法相比较不错的结果。

Paper中设计了一个网络模型,其包括Text-Lable Co-attentive Encoder(TLCE)和Adaptive Label Decoder(ALD)

image.gif编辑 二、Model

2.1 TLCE

假设文本x包含m个词和标签序列l包含c个标签

使用预训练词向量GloVe模型对单词进行嵌入,使用随机初始化对标签进行嵌入,随后使用两个独立的线性投影层进行投影,得到,

为了捕获文本序列中的上下文信息和标签序列中的相关性,使用BiLSTM来进行特征提取

为了获得文本参与的标签表示和标签参与的文本表示,使用改编的MultiHead Self-Attention

为了进一步利用标签连接文本编码的上下文信息和文本连接标签编码的相关性,使用两个独立的BiLSTM来传播文本序列和标签序列

到这里为止,编码工作就完成了

2.2 ALD

随后需要进行解码工作,主要使用了两个步骤

1)使用使用LSTM解码器获得隐藏状态、单元状态和循环上下文状态

2)通过自适应分类器计算每个类的概率

使用标准LSTMCell来生成标签序列进行解码操作,是隐藏层状态,是cell状态,是标签表示,是文本表示。

获得隐藏层状态之后,加上文本序列来计算注意力权重

那么,当前状态的上文表示为

获得了隐藏层状态后与标签序列一起来生成自适应分类器

损失函数的定义为

这里的损失函数既可以用于单标签也可以用于多标签

三、Experiment

数据集包括了7个多类分类数据集和2个多标签分类数据集,均为经典数据集

image.gif编辑

准确率

image.gif编辑

micro-F1

image.gif编辑

image.gif编辑

消融实验

image.gif编辑

image.gif编辑

对比实验

image.gif编辑

共享权重策略实验

image.gif编辑

共享参数对分类的效果没有多大影响,因为这样的模型使得标签和文本在语义空间上已经有高度的相似性。

四、Conclusion

这样的注意力机制还是蛮有意思的,将标签信息与文本信息进行融合,获得标签参与的文本表示和文本参与的标签表示。在多标签和低资源文本分类问题上可以进行借鉴。

目录
相关文章
|
数据采集 自然语言处理 数据可视化
Hidden Markov Model,简称 HMM
隐马尔可夫模型(Hidden Markov Model,简称 HMM)是一种统计模型,用于描述由隐藏的马尔可夫链随机生成观测序列的过程。它是一种生成模型,可以通过学习模型参数来预测观测序列的未来状态。HMM 主要包括以下几个步骤:
98 5
|
6月前
|
机器学习/深度学习 数据挖掘 API
[FastText in Text Classification]论文实现:Bag of Tricks for Efficient Text Classification
[FastText in Text Classification]论文实现:Bag of Tricks for Efficient Text Classification
38 2
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
182 0
|
机器学习/深度学习 编解码 自然语言处理
DeIT:Training data-efficient image transformers & distillation through attention论文解读
最近,基于注意力的神经网络被证明可以解决图像理解任务,如图像分类。这些高性能的vision transformer使用大量的计算资源来预训练了数亿张图像,从而限制了它们的应用。
524 0
|
数据可视化 数据挖掘
【论文解读】Dual Contrastive Learning:Text Classification via Label-Aware Data Augmentation
北航出了一篇比较有意思的文章,使用标签感知的数据增强方式,将对比学习放置在有监督的环境中 ,下游任务为多类文本分类,在低资源环境中进行实验取得了不错的效果
409 0
【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text
【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text
102 0
【多标签文本分类】Ensemble Application of Convolutional and Recurrent Neural Networks for Multi-label Text
|
数据挖掘
【多标签文本分类】Initializing neural networks for hierarchical multi-label text classification
【多标签文本分类】Initializing neural networks for hierarchical multi-label text classification
116 0
【多标签文本分类】Initializing neural networks for hierarchical multi-label text classification
|
机器学习/深度学习 数据挖掘
【文本分类】ACT: an Attentive Convolutional Transformer for Efficient Text Classification
【文本分类】ACT: an Attentive Convolutional Transformer for Efficient Text Classification
198 0
【文本分类】ACT: an Attentive Convolutional Transformer for Efficient Text Classification
|
机器学习/深度学习 算法 数据挖掘
【多标签文本分类】Deep Learning for Extreme Multi-label Text Classification
【多标签文本分类】Deep Learning for Extreme Multi-label Text Classification
333 0
【多标签文本分类】Deep Learning for Extreme Multi-label Text Classification
|
机器学习/深度学习 自然语言处理 数据挖掘
【文本分类】A C-LSTM Neural Network for Text Classification
【文本分类】A C-LSTM Neural Network for Text Classification
148 0
【文本分类】A C-LSTM Neural Network for Text Classification