【多标签文本分类】Deep Learning for Extreme Multi-label Text Classification

简介: 【多标签文本分类】Deep Learning for Extreme Multi-label Text Classification

·阅读摘要:

 本文提出结合CNN的XML-CNN模型来解决大规模的多标签文本分类问题。

 [1] Deep Learning for Extreme Multi-label Text Classification

[0] 摘要


  极端多标签文本分类(extreme multi-label text classification (XMTC))是指从一个非常大的标签集合为每个文档分类。巨大的特征空间、标签空间带来了数据稀疏性等挑战。

  XMTC在机器学习研究较多,本文是第一次提出将XMTC与深度学习(cnn)结合的模型的论文。

[1] 介绍


  极端多标签文本分类对机器学习是个挑战。

  传统的二元分类器将类标签视为独立的目标变量,这对于多标签分类不友好,因为类标签之间的联系不能被利用。

【注一】:二元分类器应用于多标签分类是老生长谈了。就像我们做文本分类的时候,使用词的tfidf来喂给深度学习算法,而不是用word embedding喂一样。

  XMTC面临两大问题:

  1、解决XMTC问题的困难部分是由于极其严重的数据稀疏问题。相当大比例的标签只有很少的训练实例与它们相关联。因此,学习标签之间的联系是很困难的。

  2、XMTC中的另一个重大挑战是,当标签的数量达到数十万甚至数百万时,训练和测试相互独立的分类器的计算成本难以接受

  有三种处理巨大的标签空间问题的方法:目标嵌入方法、基于树的集成方法、深度学习方法。

【注二】:这里文章介绍了一下目标嵌入方法基于树的集成方法深度学习方法,前两个算是机器学习算法,深度学习说的也比较基础,可以跳过。

[2] 相关工作


  介绍了几个神经网络模型。

[3] 提出的方法 XML-CNN


  论文提出的亮点有三:

  1、动态最大池化(dynamic max pooling)

  2、二进制交叉熵损失函数(binary cross-entropy loss function)

  3、隐藏的瓶颈层(hidden bottleneck layer)

  模型图如下所示:

image.png

[3.1] 动态最大池化(dynamic max pooling)

  这里需要对比最原始的TextCNN模型,如下图:

image.png

  传统做池化的方法是,一个filter卷积的数据(图中卷积层的一个竖条)池化为一个特征(即一个数字)。

   但是本论文提出的思想是:当一个文本太大,原始的TextCNN算法的每个filter经过卷积池化后,把文本变成一个特征(数字),这样会丢失太多信息。所以应该把filter卷积的数据(图中卷积层的一个竖条)分成p个块,按照每个块进行最大池化,池化后会剩下p个特征,这样即保留了 重要特征(important features) 也保留了 位置信息( position information) ,叫做动态最大池化(dynamic max pooling)。

[3.2] 二进制交叉熵损失函数(binary cross-entropy loss function)

【注三】:这也是多标签分类最常用的损失函数。

[3.3] 隐藏的瓶颈层(hidden bottleneck layer)

  在池化层与输出层之间增加一个全连接的隐含层,该隐含层有h个单元,称为隐藏的瓶颈层,其隐藏单元的数量h远小于pooling层和output层。

  这样做可以:1)降低计算量。假设pooling层有100个参数,output有100个参数,不加隐藏层会有10000个参数参与计算。如果加一个有h个神经元的隐藏层,参与计算的参数是200*h个,h稍小一点就可以降低很多计算量。2)没有这个隐藏层,模型只有一个非线性的隐藏层,这不够学习良好的文档表示和分类器。

【注四】:感受是名字起的真高大上。

【注五】:文章并没有说如何学习标签之间的关联信息(即标签之间也是具有信息量的,可以参与训练)。


相关文章
|
SQL
SQL获取当月天数的几种方法
原文:SQL获取当月天数的几种方法 日期直接减去int类型的数字 等于 DATEADD(DAY,- 数字,日期) 下面三种方法: 1,日期加一个月减去当前天数,相当于这个月最后一天的日期。然后获取天数。
5406 1
|
小程序
|
机器学习/深度学习 自然语言处理 数据挖掘
Kaggle Jigsaw文本分类比赛方案总结
Kaggle Jigsaw文本分类比赛方案总结
712 0
Kaggle Jigsaw文本分类比赛方案总结
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
《人工智能知识图谱构建与应用的最新突破与成果》
在人工智能蓬勃发展的背景下,知识图谱的构建与应用成为热点。新技术如基于大语言模型和向量库的方法,提升了实体识别、关系抽取及图谱优化的效率和精度。这些创新已在医疗、电力、信息检索等领域取得显著成效,如思通数科平台使病例处理速度提升40%,国网湖北电力提高信息检索准确性。未来,知识图谱将更高效、智能地处理多模态数据,并在金融、教育等更多领域发挥重要作用,但也需关注数据隐私和安全问题。
509 9
|
10月前
|
机器学习/深度学习 人工智能 测试技术
Qwen2.5-Max 发布,探索大规模 MoE 模型的智能
Qwen2.5-Max 发布,探索大规模 MoE 模型的智能
|
机器学习/深度学习 自然语言处理 算法
政府部门文档管理革新:实现90%自动内容抽取与智能标签化处理!
本文介绍了多模态数据处理技术,涵盖自然语言处理(NLP)、光学字符识别(OCR)和图像识别的技术原理,以及智能分类、标签化处理、系统集成与国产化适配、安全与合规、算法优化等方面的内容。通过这些技术的应用,实现了文档管理的全流程智能化,为用户提供高效、可靠的解决方案。
381 3
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力
这篇论文探讨了基于规则的强化学习(RL)如何提升大型语言模型(LLM)的高级推理能力。通过在程序生成的逻辑谜题上训练并强制执行结构化思考,即使是较小的模型也能开发出可转移的问题解决策略。研究引入了多层次奖励系统,包括格式、答案、推理一致性和反思奖励,以引导模型形成严谨的推理过程。实验结果表明,这种方法不仅提高了模型在逻辑任务上的性能,还在数学问题解决、代码调试等领域展现出显著的泛化能力。此外,该方法在较小模型上实现了与大模型相当甚至更优的推理表现,为资源受限环境下的高效推理提供了新途径。
949 0
Logic-RL: 小模型也能强推理,通过基于规则的强化学习提升大语言模型结构化推理能力
|
机器学习/深度学习 人工智能 Cloud Native
福利「Flink Forward Asia 2023 」视频合集!
2023 年 12 月 9 日,Flink Forward Asia 2023 在北京圆满结束。本届大会共有 70+ 演讲议题、30+ 一线大厂技术与实践分享。现所有专场回放视频已经出炉,并在开发者社区上线。
6431 2
福利「Flink Forward Asia 2023 」视频合集!
|
存储 数据可视化 搜索推荐
单细胞分析 | 基因组区域的可视化 (1)
单细胞分析 | 基因组区域的可视化 (1)
单细胞分析 | 基因组区域的可视化 (1)
|
机器学习/深度学习 人工智能 自然语言处理
智能笔下的学术:AI在学术写作中的革新应用
【7月更文第31天】随着人工智能技术的发展,AI工具已经成为学术界不可或缺的一部分。它们不仅能够帮助研究人员提高工作效率,还能提升论文的质量。本文将介绍一些流行的AI学术写作工具,并探讨它们如何重塑学术研究的过程。
1477 0