【多标签文本分类】《融合注意力与CorNet的多标签文本分类》

简介: 【多标签文本分类】《融合注意力与CorNet的多标签文本分类》

·阅读摘要:

 本文主要提出标签与文本注意力+文本注意力、CorNet增强标签预测概率两个创新点,提升了实验精度。

·参考文献:

 [1] 融合注意力与CorNet的多标签文本分类

参考论文信息


  论文名称:《融合注意力与CorNet的多标签文本分类》

  发布期刊:《西北大学学报(自然科学版)》

  期刊信息:CSCD扩展

image.png

[0] 摘要


  目前文本分类存在问题:只关注文本本身的信息,忽略了标签的信息。

  为了解决这个问题:论文提出使用图注意力网络GAT来编码标签信息,然后使用 “文本-标签”注意力机制来强化标签与文本的语义联系,最后把它与文本的注意力向量融合,得到最终编入了标签信息的文本向量。

  论文最后使用CorNet模型增强标签预测概率。

[1] 相关工作


  论文介绍多标签文本分类算法的历史:机器学习算法和深度学习算法。

  机器学习算法有BR、CC、ML-DT、SVM、KNN等老算法;

  深度学习算法有CNN系列、RNN系列模型,比如CNN、LSTM、LSTM_Attention、Seq2Seq、SGM、CNN-RNN等。

【注一】:这里已经被各个论文介绍烂了,老生常谈。

  最后,还介绍了LSAN、GCN等会用到标签信息的模型。

【注二】:2022年的论文,竟然不介绍预训练语言模型,比如ELMo、BERT、XLNet这些。

[2] 模型


  模型图如下:

image.png

  该模型主要分为6个部分:

  1、嵌入层+LSTM层

  2、多标签注意力层

  3、图注意力网络  4、“文本 -标签”注意力机制

  5、自适应融合机制

  6、CorNet模块

  1、嵌入层+LSTM层

  论文使用的是Glove预训练词向量作为embedding层,然后输入到Bi-LSTM层得到文本表示。

【注三】:使用embedding+Bi-LSTM是比较早的深度学习方法,现在更多的是用预训练语言模型来微调。

  2、多标签注意力层

  论文原文写的是:多标签文本可以由多个标签标记,每个标签对应的最相关文本是不同的。通过多标签注意力机制计算每个标签对应的文本向量hi的线性组合,可以有效地表示文本的重要程度。

  论文给的小标题“多标签注意力层”比较让人困惑,似乎这里用了标签的信息?看原文的意思是用了,但是看他贴的公式并没有用,而且我也想象不到怎么使用标签信息。

【注四】:这里我去论文贴出来的参考论文《A structured self-attentive sentenceembedding》看了一下,人家写的是文本数据自注意,如下图:

ef3ab7fad62d47518b566029edbd5d4b.png

  3、图注意力网络

  图注意力网络GAT是比较火的一种图神经网络,不再介绍。

  它的输入是标签嵌入,输出是经过注意力机制后的标签向量。

【注五】:GAT原文 《GRAPH ATTENTION NETWORKS》值得一看

  4、“文本 -标签”注意力机制

  强化标签之间的语义联系,将标签语义信息与文本上下文语义信息进行交互,获得基于标签语义的文本特征表示。

  论文的做法是,把 嵌入层+LSTM层 的输出与 图注意力网络 的输出相乘。

  5、自适应融合机制

  自适应融合机制是把 多标签注意力层 的输出与 **“文本 -标签”注意力机制 ** 的输出加权相乘,得到最终的文本表示。

image.png

image.png

  6、CorNet模块

  CorNet模块能够学习标签相关性,使用相关性知识增强原始标签预测,并输出增强的标签预测。

【注六】:CorNet模型原文:《Correlation Networks for Extreme Multi-label Text Classification》

相关文章
|
机器学习/深度学习 运维 算法
梯度&散度&旋度&峰度&偏度你分得清楚吗?驻点&鞍点你分得清楚吗?曲率&斜率你分得清楚吗?
本文介绍了四种常见的物理量:加速度,速度,位移和力学功。详细介绍了它们的定义、计算以及在物理学和工程学领域中的应用。此外,本文还介绍了四种与物理量相关的概念:向量、标量、质量和密度。 数学,物理,机器学习领域常见概念区分
3242 0
|
双11
29 岁成为阿里巴巴P8,工作前5年完成晋升3连跳,他如何做到?
泡泡是我的好朋友。今年31岁,毕业后就进了阿里巴巴,工作五年内从P4晋升至 P6、P7、P8。
5481 0
|
6月前
|
监控 数据可视化 安全
进程管理工具是用于监控、控制和管理计算机系统中进程运行状态的软件工具
进程管理工具用于监控和管理系统中进程的运行状态,帮助用户了解资源使用情况、排查性能问题及管理后台程序。内容涵盖常用工具分类、核心功能场景、选择建议及注意事项,助力高效系统管理。
459 0
|
机器学习/深度学习 人工智能 算法
深入解析图神经网络:Graph Transformer的算法基础与工程实践
Graph Transformer是一种结合了Transformer自注意力机制与图神经网络(GNNs)特点的神经网络模型,专为处理图结构数据而设计。它通过改进的数据表示方法、自注意力机制、拉普拉斯位置编码、消息传递与聚合机制等核心技术,实现了对图中节点间关系信息的高效处理及长程依赖关系的捕捉,显著提升了图相关任务的性能。本文详细解析了Graph Transformer的技术原理、实现细节及应用场景,并通过图书推荐系统的实例,展示了其在实际问题解决中的强大能力。
1774 30
|
人工智能 自然语言处理 安全
千行百业,“义”不容辞:通义技术创新与商业实践
千行百业,“义”不容辞:通义技术创新与商业实践。本次分享分为两部分,首先介绍大模型的快速迭代与普及,探讨通义千问在精度和复杂任务执行上的突破;其次聚焦企业级落地,解决安全性、部署路径及模型调优三大问题。通过多模态理解(视觉、语音)和更强的生成控制力,携手伙伴服务各行业,推动技术向生产力转化,并关注公益应用,助力社会进步。
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
503 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
Rust 监控 Linux
这款开源网络监控工具(sniffnet),太实用了!
这款开源网络监控工具(sniffnet),太实用了!
646 0
|
机器学习/深度学习 数据可视化 搜索推荐
用Python进行社交媒体分析:挖掘用户行为和趋势
【4月更文挑战第12天】本文介绍了Python在社交媒体分析中的应用,包括数据处理、可视化、机器学习等方面的优势。基本流程涉及数据获取、预处理、探索、模型选择与训练、评估优化以及结果可视化。文中给出了用户行为分析、话题趋势分析和用户画像分析的Python代码示例,展示了Python在这一领域的实用性。通过学习和实践,读者可以掌握Python进行社交媒体分析的技能。
1420 4
阿里云香港主机要备案吗-阿里云香港服务器要备案吗-阿里云香港服务器主机价格
阿里云香港服务器需要备案吗? 阿里云香港服务器及主机不需要备案。阿里云香港及阿里云国外节点都不需要备案。 阿里云香港服务器和阿里云香港主机的区别: 阿里云服务器,就相当于一台网上电脑,和我们操作本地电脑是一样的。
17881 0
限制特定IP地址的连接数,例如每秒只允许来自同一IP地址的连接数不超过10个。这个具体如何设置?
限制特定IP地址的连接数,例如每秒只允许来自同一IP地址的连接数不超过10个。这个具体如何设置?
1405 0