【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究

·阅读摘要:

 本文在BERT模型上,提出了利用多任务架构来解决层级多标签文本分类问题。

·参考文献:

 [1] MSML-BERT模型的层级多标签文本分类方法研究

[0] 摘要


  在摘要中,作者主要给出了本篇论文的创新点:

  1、多任务学习架构

  2、多尺度特征抽取模块

  3、多层级信息传播模块

  4、层次化门控机制

  最后论文再总结一下,提出的模型在数据集上效果良好。

【注一】:上述的四个创新名词,其实原理都比较简单。“多尺度特征抽取模块”等于“CNN”,“多层级信息传播模块”等于“向量拼接”。(要想论文发的好,名词一定要起的妙!哈哈)

 作者总结了当前HMTC(Hierarchical Multi-label Text Classification,层级多标签文本分类)面临的两大问题:

 (1)使用相同的模型结构来预测不同层级的标签,忽略了不同层级和粒度的标签之间的差异性和多样性,导致对各层级标签的预测性能较差;

  (2)没有显式和充分地建模层级依赖关系以及引入了不必要的噪音,造成对下层长尾标签的预测性能尤其差,并且会导致标签不一致问题。

【注二】:总结的说:用一个模型预测多个层级的标签并不准确;没有使用到层级的标签信息。

[1] 相关工作


d26f189dc50d425bad66bb0c8cd589ad.png

  如图,当前HMTC方法有三种算法方法:

  展平方法:就是不考虑标签的层级结构,直接把层级标签当成普通多标签文本分类来建模。有时候,展平方法是把所有的层级标签都展平,有时候是把最后一层的标签展平。

【注三】:展平方法对HMTC的效果是有瓶颈的。

  局部方法:局部方法指的是,为层级标签的每个节点都设置一个分类器,这中分类器一般是机器学习的分类器,如SVM等。

【注四】:可想而知,这样的效果也做不到最好。

  全局方法:用单个分类器并且更显式地对标签层次结构进行建模,模型通常采用端到端的方式训练并且对所有标签进行一次性地预测。

【注五】:全局方法旨在更好的利用标签信息、标签的层次结构信息。

[2] 基于MSML-BERT模型的层级多标签文本分类方法


  模型如下图:

1939e189a7804ce7a07ae5a698ad8895.png

  讲解模型:

  · 首先,架构是多任务学习架构,采用的是硬参数共享方法。每个任务的模型由共享任务特定层两个部分组成。共享层用于学习和共享通用的知识和表征,而任务特定层用于弥补不同任务之间的差异以及提高不同任务的泛化性。

  · 本文模型的共享层,就是bert模型。采用bert的后几层,bert的输出应用到下游任务。

【注六】:bert已经是基操了。这样算作是共享层的话,那么像普通使用glove等预训练词向量也能称为共享层。

  · MSFEM(多尺度特征抽取模块),特征抽取的意思就是卷积层的卷积,多尺度的意思是采用不同窗口大小的卷积核。图中使用了3个TextCNN模型,对应到数据集中的3层标签结构。

  · MLIPM(多层级信息传播模块),把上一层的输出,拼接在下一层的输入中。不过拼接的方式比较不一样,采用的是HGM(层次化门控机制)。

  · HGM(层次化门控机制),一种合并向量的门控方式,如下图:

image.png

【注七】:对于模型提取特征时,不同的层级,卷积层提取的宽度不一样,文中的解释为:对于较上的层级采用较宽的一维卷积核提取粗粒度特征,对于较下的层级采用较窄的一维卷积核提取细粒度特征。

[3] 实验


  数据集如下:

image.png

  RCV1-V2是非常经典的一个多标签文本分类数据集。

  实验结果如下:

image.png

  可以看到全局方法有碾压般的表现。

[4] 模型性能分析


【注八】:个人觉得这里写的很好,有理有据,值得学习。

  消融实验:(其实就是控制变量)

image.png

  这里就证明了,论文提出的模型改进方法确实是有效果的。

  分层表现分析 :(查看不同模型在不同标签层级的评分)

image.png

  这里就证明了,论文提出的模型,在层级较深时,表现就更好。说明论文的创新点是正确的。

  标签一致性分析 :

  标签一致性问题是模型预测的每一层标签,并不符合原始标签的层级关系。

image.png

  这里也证明了论文提出的模型的优点。

相关文章
|
2月前
|
机器学习/深度学习 人工智能 开发工具
如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face
Hugging Face是一个机器学习(ML)和数据科学平台和社区,帮助用户构建、部署和训练机器学习模型。它提供基础设施,用于在实时应用中演示、运行和部署人工智能(AI)。用户还可以浏览其他用户上传的模型和数据集。Hugging Face通常被称为机器学习界的GitHub,因为它让开发人员公开分享和测试他们所训练的模型。 本次分享如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face。
如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face
|
2月前
|
PyTorch 算法框架/工具
Bert Pytorch 源码分析:五、模型架构简图 REV1
Bert Pytorch 源码分析:五、模型架构简图 REV1
43 0
|
2月前
|
PyTorch 算法框架/工具
Bert Pytorch 源码分析:五、模型架构简图
Bert Pytorch 源码分析:五、模型架构简图
42 0
|
6天前
|
机器学习/深度学习 自然语言处理 TensorFlow
使用Python实现深度学习模型:BERT模型教程
使用Python实现深度学习模型:BERT模型教程
51 0
|
12天前
|
机器学习/深度学习 自然语言处理 PyTorch
【自然语言处理NLP】Bert预训练模型、Bert上搭建CNN、LSTM模型的输入、输出详解
【自然语言处理NLP】Bert预训练模型、Bert上搭建CNN、LSTM模型的输入、输出详解
29 0
|
2月前
|
机器学习/深度学习 数据采集 人工智能
【NLP】Datawhale-AI夏令营Day3打卡:Bert模型
【NLP】Datawhale-AI夏令营Day3打卡:Bert模型
|
2月前
|
机器学习/深度学习 自然语言处理 数据格式
训练你自己的自然语言处理深度学习模型,Bert预训练模型下游任务训练:情感二分类
训练你自己的自然语言处理深度学习模型,Bert预训练模型下游任务训练:情感二分类
|
2月前
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
8月前
lda模型和bert模型的文本主题情感分类实战
lda模型和bert模型的文本主题情感分类实战
151 0
|
8月前
|
并行计算 API C++
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
Bert-vits2项目近期炸裂更新,放出了v2.0.2版本的代码,修正了存在于2.0先前版本的重大bug,并且重炼了底模,本次更新是即1.1.1版本后最重大的更新,支持了三语言训练及混合合成,并且做到向下兼容,可以推理老版本的模型,本次我们基于新版V2.0.2来本地推理原神小姐姐们的音色模型。
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享