【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究

·阅读摘要:

 本文在BERT模型上,提出了利用多任务架构来解决层级多标签文本分类问题。

·参考文献:

 [1] MSML-BERT模型的层级多标签文本分类方法研究

[0] 摘要


  在摘要中,作者主要给出了本篇论文的创新点:

  1、多任务学习架构

  2、多尺度特征抽取模块

  3、多层级信息传播模块

  4、层次化门控机制

  最后论文再总结一下,提出的模型在数据集上效果良好。

【注一】:上述的四个创新名词,其实原理都比较简单。“多尺度特征抽取模块”等于“CNN”,“多层级信息传播模块”等于“向量拼接”。(要想论文发的好,名词一定要起的妙!哈哈)

 作者总结了当前HMTC(Hierarchical Multi-label Text Classification,层级多标签文本分类)面临的两大问题:

 (1)使用相同的模型结构来预测不同层级的标签,忽略了不同层级和粒度的标签之间的差异性和多样性,导致对各层级标签的预测性能较差;

  (2)没有显式和充分地建模层级依赖关系以及引入了不必要的噪音,造成对下层长尾标签的预测性能尤其差,并且会导致标签不一致问题。

【注二】:总结的说:用一个模型预测多个层级的标签并不准确;没有使用到层级的标签信息。

[1] 相关工作


d26f189dc50d425bad66bb0c8cd589ad.png

  如图,当前HMTC方法有三种算法方法:

  展平方法:就是不考虑标签的层级结构,直接把层级标签当成普通多标签文本分类来建模。有时候,展平方法是把所有的层级标签都展平,有时候是把最后一层的标签展平。

【注三】:展平方法对HMTC的效果是有瓶颈的。

  局部方法:局部方法指的是,为层级标签的每个节点都设置一个分类器,这中分类器一般是机器学习的分类器,如SVM等。

【注四】:可想而知,这样的效果也做不到最好。

  全局方法:用单个分类器并且更显式地对标签层次结构进行建模,模型通常采用端到端的方式训练并且对所有标签进行一次性地预测。

【注五】:全局方法旨在更好的利用标签信息、标签的层次结构信息。

[2] 基于MSML-BERT模型的层级多标签文本分类方法


  模型如下图:

1939e189a7804ce7a07ae5a698ad8895.png

  讲解模型:

  · 首先,架构是多任务学习架构,采用的是硬参数共享方法。每个任务的模型由共享任务特定层两个部分组成。共享层用于学习和共享通用的知识和表征,而任务特定层用于弥补不同任务之间的差异以及提高不同任务的泛化性。

  · 本文模型的共享层,就是bert模型。采用bert的后几层,bert的输出应用到下游任务。

【注六】:bert已经是基操了。这样算作是共享层的话,那么像普通使用glove等预训练词向量也能称为共享层。

  · MSFEM(多尺度特征抽取模块),特征抽取的意思就是卷积层的卷积,多尺度的意思是采用不同窗口大小的卷积核。图中使用了3个TextCNN模型,对应到数据集中的3层标签结构。

  · MLIPM(多层级信息传播模块),把上一层的输出,拼接在下一层的输入中。不过拼接的方式比较不一样,采用的是HGM(层次化门控机制)。

  · HGM(层次化门控机制),一种合并向量的门控方式,如下图:

image.png

【注七】:对于模型提取特征时,不同的层级,卷积层提取的宽度不一样,文中的解释为:对于较上的层级采用较宽的一维卷积核提取粗粒度特征,对于较下的层级采用较窄的一维卷积核提取细粒度特征。

[3] 实验


  数据集如下:

image.png

  RCV1-V2是非常经典的一个多标签文本分类数据集。

  实验结果如下:

image.png

  可以看到全局方法有碾压般的表现。

[4] 模型性能分析


【注八】:个人觉得这里写的很好,有理有据,值得学习。

  消融实验:(其实就是控制变量)

image.png

  这里就证明了,论文提出的模型改进方法确实是有效果的。

  分层表现分析 :(查看不同模型在不同标签层级的评分)

image.png

  这里就证明了,论文提出的模型,在层级较深时,表现就更好。说明论文的创新点是正确的。

  标签一致性分析 :

  标签一致性问题是模型预测的每一层标签,并不符合原始标签的层级关系。

image.png

  这里也证明了论文提出的模型的优点。

相关文章
|
30天前
|
机器学习/深度学习 人工智能 自然语言处理
昇腾AI行业案例(四):基于 Bert 模型实现文本分类
欢迎学习《昇腾行业应用案例》的“基于 Bert 模型实现文本分类”实验。在本实验中,您将学习如何使用利用 NLP (natural language processing) 领域的AI模型来构建一个端到端的文本系统,并使用开源数据集进行效果验证。为此,我们将使用昇腾的AI硬件以及CANN等软件产品。
40 0
|
4月前
|
自然语言处理 PyTorch 算法框架/工具
掌握从零到一的进阶攻略:让你轻松成为BERT微调高手——详解模型微调全流程,含实战代码与最佳实践秘籍,助你应对各类NLP挑战!
【10月更文挑战第1天】随着深度学习技术的进步,预训练模型已成为自然语言处理(NLP)领域的常见实践。这些模型通过大规模数据集训练获得通用语言表示,但需进一步微调以适应特定任务。本文通过简化流程和示例代码,介绍了如何选择预训练模型(如BERT),并利用Python库(如Transformers和PyTorch)进行微调。文章详细说明了数据准备、模型初始化、损失函数定义及训练循环等关键步骤,并提供了评估模型性能的方法。希望本文能帮助读者更好地理解和实现模型微调。
191 2
掌握从零到一的进阶攻略:让你轻松成为BERT微调高手——详解模型微调全流程,含实战代码与最佳实践秘籍,助你应对各类NLP挑战!
|
4月前
|
机器学习/深度学习 自然语言处理 知识图谱
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
【AI大模型】BERT模型:揭秘LLM主要类别架构(上)
|
5月前
|
搜索推荐 算法
模型小,还高效!港大最新推荐系统EasyRec:零样本文本推荐能力超越OpenAI、Bert
【9月更文挑战第21天】香港大学研究者开发了一种名为EasyRec的新推荐系统,利用语言模型的强大文本理解和生成能力,解决了传统推荐算法在零样本学习场景中的局限。EasyRec通过文本-行为对齐框架,结合对比学习和协同语言模型调优,提升了推荐准确性。实验表明,EasyRec在多个真实世界数据集上的表现优于现有模型,但其性能依赖高质量文本数据且计算复杂度较高。论文详见:http://arxiv.org/abs/2408.08821
147 7
|
4月前
|
机器学习/深度学习 自然语言处理 算法
[大语言模型-工程实践] 手把手教你-基于BERT模型提取商品标题关键词及优化改进
[大语言模型-工程实践] 手把手教你-基于BERT模型提取商品标题关键词及优化改进
402 0
|
6月前
|
算法 异构计算
自研分布式训练框架EPL问题之帮助加速Bert Large模型的训练如何解决
自研分布式训练框架EPL问题之帮助加速Bert Large模型的训练如何解决
|
9月前
|
机器学习/深度学习 人工智能 开发工具
如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face
Hugging Face是一个机器学习(ML)和数据科学平台和社区,帮助用户构建、部署和训练机器学习模型。它提供基础设施,用于在实时应用中演示、运行和部署人工智能(AI)。用户还可以浏览其他用户上传的模型和数据集。Hugging Face通常被称为机器学习界的GitHub,因为它让开发人员公开分享和测试他们所训练的模型。 本次分享如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face。
如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face
|
9月前
|
PyTorch 算法框架/工具
Bert Pytorch 源码分析:五、模型架构简图 REV1
Bert Pytorch 源码分析:五、模型架构简图 REV1
137 0
|
9月前
|
PyTorch 算法框架/工具
Bert Pytorch 源码分析:五、模型架构简图
Bert Pytorch 源码分析:五、模型架构简图
89 0

热门文章

最新文章