【多标签文本分类】层次多标签文本分类方法

简介: 【多标签文本分类】层次多标签文本分类方法

·阅读摘要:

 本文是一篇中文综述,主要介绍了层次多标签分类的一些算法。

·参考文献:

 [1] 赵海燕,曹杰,陈庆奎,曹健.层次多标签文本分类方法[J/OL].小型微型计

算机系统. https://kns.cnki.net/kcms/detail/21.1106.TP .20211130.1228.002.html

[1] 引言


  层次结构的标签一般有两种表示:

d26f189dc50d425bad66bb0c8cd589ad.png

  两种结构表示的示例图如下:

image.png

[2] 基本概念


  文中提出层级多标签分类的基本处理过程:

2119b1fac775487a996e24e314c8a08b.png

【注一】:文中提到“特征降维”这个过程,解释为:由向量空间模型来描述的文本向量通常具有较高的维度,这对于后续的分类任务来说,将带来效率低下和精确性下降的危害。 一般的话,特征降维是在机器学习的算法用的,深度学习的话,用词向量表示完文本,就直接卫道模型里面去了。

[3] 层次多标签文本分类器研究现状


  脑图如下:

35936edf158544b88b8aed0fb0acf267.png

【注二】:个人觉得,基于图表示的算法值得深究。

[4] 展望


  文中提到的未来突破方向有四:

  (1)分类器的设计。如何利用文本和各层标签的关系、如何利用层次标签的依赖关系是考察分类器优劣的一个重要方面。

 (2)寻找更好的文本编码表示。文本分类和其他分类的一个很大区别在于,因为文本一般是非结构化或者半结构数据,如何将其表示并能够较少地损失其原来蕴含的信息,这对后续的文本分类来说很重要,当然,Transformer和 BERT是两个目前效果较好的语言模型,也可以寻求其他方法来表示文本,比如文本的图表示等。但是这些表示都是通用的表示方法,而什么样的编码表示更适合于层次多标签文本分类还有待进一步研究。

  (3)极端的层次多标签文本分类问题。随着应用的深入,不少应用面临极端的层次多标签文本分类任务。它的特点是层次标签的数目非常多,层次级别也非常深,造成模型规模可能非常庞大,目前的计算能力难以处理。如何高效地处理极端层次多标签文本分类问题将成为未来的一个研究方向。

  (4)现实数据集中标签的长尾问题在现实数据集中,大部分标签的数据是相对较少的,即很少的数据和一些标签关联,甚至没有数据关联,特别在层次结构的底层靠近叶子节点处。长尾问题在极端的层次多标签文本分类问题中尤其严重。这种情况对于模型学习将造成困难,可能导致无法预测的问题。因此,如何处理层次多标签文本分类中的长尾问题,也是未来的一个重要研究方向。

【注三】:比较好突破的是1、3、4。

模型是最好做出突破的;

其次是解决长尾问题,长尾问题不是只存在于文本分类任务中的,它几乎在所有的分类任务中都存在,包括CV领域,所以解决方法很多,比较容易找到灵感;

极端的层次多标签文本分类问题做的不多,但是“极端”就意味着“大”,“大”就意味着“显卡”,没有硬实力会很难做。


相关文章
|
机器学习/深度学习 自然语言处理 算法
【多标签文本分类】《多粒度信息关系增强的多标签文本分类》
提出一种多粒度的多标签文本分类方法。一共3个粒度:文档级分类模块、词级分类模块、标签约束性关系匹配辅助模块。
184 0
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
【论文精读】AAAI 2022- 统一的命名实体识别作为词与词之间的关系分类
【论文精读】AAAI 2022- 统一的命名实体识别作为词与词之间的关系分类
【论文精读】AAAI 2022- 统一的命名实体识别作为词与词之间的关系分类
|
自然语言处理 数据处理
浅析命名实体识别(NER)的三种序列标注方法
简述序列标注 序列标注(Sequence Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注(POS tagging)、命名实体识别(Named Entity Recognition,NER)、关键词抽取、语义角色标注(Semantic Role Labeling)、槽位抽取(Slot Filling)等实质上都属于序列标注的范畴。
|
计算机视觉
【多标签文本分类】《采用平衡函数的大规模多标签文本分类》
使用最常见的BERT+fc的多标签文本分类模型,只是改进了一下损失函数。
104 0
|
机器学习/深度学习 算法 数据挖掘
书写自动智慧文本分类器的开发与应用:支持多分类、多标签分类、多层级分类和Kmeans聚类
书写自动智慧文本分类器的开发与应用:支持多分类、多标签分类、多层级分类和Kmeans聚类
书写自动智慧文本分类器的开发与应用:支持多分类、多标签分类、多层级分类和Kmeans聚类
|
机器学习/深度学习 人工智能 自然语言处理
GraphIE:通过建模实例间和标签间依赖性联合抽取实体、关系和事件 论文解读
事件触发词检测、实体提及识别、事件论元抽取和关系抽取是信息抽取中的四个重要任务,它们被联合执行(联合信息抽取- JointIE),以避免错误传播并利用任务实例之间的依赖关系
205 1
|
XML 存储 数据处理
1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
1.基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等
|
存储 数据采集 自然语言处理
【BERT-多标签文本分类实战】之四——数据集预处理
【BERT-多标签文本分类实战】之四——数据集预处理
848 1
【BERT-多标签文本分类实战】之四——数据集预处理
|
数据挖掘 知识图谱
【多标签文本分类】《基于标签语义注意力的多标签文本分类》
【多标签文本分类】《基于标签语义注意力的多标签文本分类》
166 0
【多标签文本分类】《基于标签语义注意力的多标签文本分类》
|
机器学习/深度学习 算法 数据挖掘
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究
790 0
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究

热门文章

最新文章