【多标签文本分类】《采用平衡函数的大规模多标签文本分类》

简介: 使用最常见的BERT+fc的多标签文本分类模型,只是改进了一下损失函数。

参考论文信息


  论文名称:《采用平衡函数的大规模多标签文本分类》


  发布期刊:《计算机工程与应用》


  期刊信息:CSCD扩展版


  难以想象我5分钟就把这篇论文看完了。。。难以想象我投的论文现在2个多月都没信,这种论文也能刊CSCD。。。


创新点


 首先,文章说大规模多标签文本分类标签呈现长尾分布。为了解决这个这问题,文章说CV领域使用平衡函数,通过调整类别权重,解决标签分布不平衡问题。介绍了3种:


 1、Focalloss(FL),在损失函数中增加了调制因子,减少分类良好的头部标签样本的损失,把模型的分类重点放在尾部标签上 。


 2、class-balanced loss(CB),通过在损失函数上估计不同类别中的有效样本数量方法,调整不同类别的损失权重,减少头部标签的冗余信息。


 3、 distribution-balanced loss(DB),考虑了头部标签和尾部标签共同出现的情况会影响模型对头部标签的分类能力,增加了一个权重使得模型能在这种情况下能提高分类性能。


 所以论文的创新点是:使用FL平衡函数应用在多标签文本分类的损失函数上:


 原始交叉熵损失函数:



 加了FL之后:



 其他地方没有任何特色。模型就是BERT+全连接层。


【注】模型介绍、对比实验、消融实验写的很大众化,没什么意思,就不讲了



相关文章
|
机器学习/深度学习 自然语言处理 算法
【多标签文本分类】《多粒度信息关系增强的多标签文本分类》
提出一种多粒度的多标签文本分类方法。一共3个粒度:文档级分类模块、词级分类模块、标签约束性关系匹配辅助模块。
191 0
|
8月前
|
机器学习/深度学习 算法 机器人
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
|
3月前
|
机器学习/深度学习 算法 数据建模
【机器学习】类别不平衡数据的处理
【机器学习】类别不平衡数据的处理
|
数据挖掘
InsTag:大语言模型监督微调数据标签标注工具
魔搭社区发布了一个名为“InsTagger”的工具,用于分析LLM(大语言模型)中符合人类偏好的监督微调(SFT)数据。InsTagger 是基于 InsTag 方法训练的本地指令标签标注器,用于为符合人类偏好的监督微调数据集中的指令标注描述其意图和语义的标签,从而指导指令的分流或监督微调数据集的分析。
|
机器学习/深度学习 算法 计算机视觉
【多标签文本分类】层次多标签文本分类方法
【多标签文本分类】层次多标签文本分类方法
790 0
【多标签文本分类】层次多标签文本分类方法
|
机器学习/深度学习 算法 数据挖掘
书写自动智慧文本分类器的开发与应用:支持多分类、多标签分类、多层级分类和Kmeans聚类
书写自动智慧文本分类器的开发与应用:支持多分类、多标签分类、多层级分类和Kmeans聚类
书写自动智慧文本分类器的开发与应用:支持多分类、多标签分类、多层级分类和Kmeans聚类
|
机器学习/深度学习 自然语言处理 分布式计算
零样本文本分类——低资源场景下文本分类的利器(1)
零样本文本分类——低资源场景下文本分类的利器
|
缓存 自然语言处理 测试技术
零样本文本分类——低资源场景下文本分类的利器(2)
零样本文本分类——低资源场景下文本分类的利器
|
机器学习/深度学习 算法 数据挖掘
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究
803 0
【多标签文本分类】MSML-BERT模型的层级多标签文本分类方法研究
|
数据挖掘 知识图谱
【多标签文本分类】《基于标签语义注意力的多标签文本分类》
【多标签文本分类】《基于标签语义注意力的多标签文本分类》
166 0
【多标签文本分类】《基于标签语义注意力的多标签文本分类》