开发者社区> 毛球饲养员> 正文

NLP 语料分类不均衡的解决办法

简介: 一、Introduction 二、Influence 三、别人的解决办法 数据层面: 算法层面: 四、个人的解决办法 五、Reference 一、Introduction 以前在做情感分类问题都是用sst等等,一些经典的语料,但是当自己要做语料的时候,才发现事情并不是想象的那么简单。
+关注继续查看

一、Introduction

以前在做情感分类问题都是用sst等等,一些经典的语料,但是当自己要做语料的时候,才发现事情并不是想象的那么简单。要进行语料清洗,语料的切分(十折交叉),现在又要考虑语料的均衡性问题。

不平衡问题:类别之间的语料数目相差很大

看一下我的语料:
语料种类
一共6类,数目差别非常大。

二、Influence

类别之间的语料数目不平衡是制约很多分类算法准确率的一个因素。很多分类器分类的时候都会倾向将语料分为大类,因此造成分类的准确率降低。但是不平衡分类这个问题是确实存在而且普遍存在的,很多时候那些少数类才是值得我们关注的。例如,网络攻击,信用卡非法交易,等。信用卡非法交易是属于少类,分类是少类的语料准确率低,难以发现这个非法的记录。
为啥少类语料分类准确率低?因为少类语料的特征不明显,容易跟噪声语料混在一起。而大部分的分类方法都是基于特征来进行分类。少类特征不明显,因此也难以将少类的语料区别出来。

三、别人的解决办法

常规的做法:

数据层面:

过抽样

  • 直接复制,即不断复制类别样本数少的类别样本。
  • 插值法:通过对样本归一化,采样,求得样本分布,极值,均值等,然后根据样本分布,极值,均值来生成新样本来扩充样本数目。

欠抽样

  • 直接删除
  • 随机减少多数类样本的数量。

算法层面:

Weighted loss function,一个处理非平衡数据常用的方法就是设置损失函数的权重,使得少数类判别错误的损失大于多数类判别错误的损失。在python的sk-learn中我们可以使用class_weight参数来设置权重,提高少数类权重,例如设置为多数类的10倍。

RBG和Kaiming给出的相当牛逼的方法,这里不做详细介绍。
详情见链接:http://blog.csdn.net/u014380165/article/details/77019084

看到一篇博客:
感觉脑洞很大,一种特殊的过抽样

本文首先分析样本数少的类别,通过文本句法依赖分析,文本词性标记分析词的相关属性,然后采用同义词替换的方式生成新的文本。方法简单有效

https://blog.csdn.net/u014535908/article/details/79035653

四、个人的解决办法

暂时没有想好,要尝试一下,结果出来再填上

五、Reference

https://blog.csdn.net/jerryfy007/article/details/72904257
http://blog.sina.com.cn/s/blog_afa352bf0102vo57.html
https://blog.csdn.net/u014380165/article/details/77019084

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
基于深度学习LSTM的古代汉语切分标注算法及语料库研究(下)
基于深度学习LSTM的古代汉语切分标注算法及语料库研究(下)
481 0
基于深度学习LSTM的古代汉语切分标注算法及语料库研究(上)
基于深度学习LSTM的古代汉语切分标注算法及语料库研究
25535 0
让机器更懂你--Modelscope情感分析模型
笔者团队最近在Modelscope平台上线了一系列情感分析模型,欢迎大家试用,多多提供意见。
109 0
零样本文本分类——低资源场景下文本分类的利器
笔者近期在使用一些开源算法解决低资源场景分类时,发现使用一些在modelscope社区上开源的零样本分类模型可以极大提高分类准确率,因此对零样本文本分类模型进行了梳理,希望对大家有所帮助~
101 0
深度学习数据集的一些相关名词解释
深度学习数据集的一些相关名词解释
33 0
NLP知识图谱项目合集(信息抽取、文本分类、图神经网络、性能优化等)
NLP知识图谱项目合集(信息抽取、文本分类、图神经网络、性能优化等)
90 0
深度学习炼丹-超参数设定和模型训练
所谓超参数,即不是通过学习算法本身学习出来的,需要作者手动调整(可优化参数)的参数(理论上我们也可以设计一个嵌套的学习过程,一个学习算法为另一个学习算法学出最优超参数),卷积神经网络中常见的超参数有: 优化器学习率、训练 Epochs 数、批次大小 batch_size 、输入图像尺寸大小。
356 0
SnowNLP使用自定义语料进行模型训练(情感分析)
SnowNLP使用自定义语料进行模型训练(情感分析)
477 0
深度学习分类数据集小工具
深度学习分类数据集小工具
34 0
深度学习修炼(六)—— 分类任务
在这一讲中,我们打算探讨一下神经网络中是如何处理分类任务的。
352 0
+关注
毛球饲养员
文章
问答
视频
文章排行榜
最热
最新
相关电子书
更多
纯干货 | 机器学习中梯度下降法的分类及对比分析
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载