【BERT-多标签文本分类实战】之三——多标签文本分类的方向与常用数据集介绍

简介: 【BERT-多标签文本分类实战】之三——多标签文本分类的方向与常用数据集介绍

·请参考本系列目录:【BERT-多标签文本分类实战】之一——实战项目总览

·下载本实战项目资源:>=点击此处=<

【注】本篇将首先介绍多标签文本分类中几个小方向,然后介绍这几个小方向对应的常用数据集。最后介绍如何自己寻找和下载数据集。

[1] 多标签文本分类的若干小方向


  目前学术上,多标签文本分类任务大概可以分为3个小方向:

  · 普通多标签文本分类

  · 层级多标签文本分类

  · 极端多标签文本分类

  不同的小方向,数据集的特点比较不一样,任务的难点也不同。

[2] 普通多标签文本分类


  普通多标签文本分类就是指我们平常提到的多标签文本分类,英文称作multi-label text classification,MTC

  MTC任务的数据集特点是:数据集中的每条文本,都对应着1-N个标签,在某些特殊数据集中有的文本甚至没有标签。数据集中的总类别标签往往不大,一般在几千以内,一些常用的数据集总标签数在几百、几十以内。而且我们说,MTC任务的数据集中的标签是平面的,标签之间没有归属关系、没有层次结构,是一维展开的。

  MTC任务的主要目标很朴素,就是尽量提高模型最后分类出来的各项评价指标,越理想越好。


  常用的MTC数据集有:

  Ren-CECps1.0: 一个多标签的中文情感语料库。它包含了37678 个中文博客的句子和 11 种情感标签,其中每句话被赋予一种或多种情感。

  Reuters-21578:是路透社金融新闻服务进行分类的常用数据集,其中包含了 7769 个训练文本和 3019 个测试文本,其中包含多个标签和单个标签。

  AAPD:从网络上收集了 55840 篇论文的摘要和相应学科类别,一篇学术论文属于一个或者多个学科,总共由 54个学科组成,目的是根据给定的摘要来预测学术论文相对应的学科。

  RCV1-V2:共有 804414篇新闻,每篇新闻故事分配有多个主题,共有 103 个主题。

  EUR-Lex:由欧盟法律组成的,里面包含了许多不同类型的文件,包括条约、立法、判例法和立法提案,共有 19314 个文档,3956 个分类。

  AmazonCat-13K:该数据集是来自于亚马逊,其中包括评论(评分,文字,帮助性投票),产品元数据(描述,类别信息,价格,品牌和图像特征)和链接(也可以查看/购买的图表),在做多标签文本分类得时候主要考虑的是类别信息。

  Amazon-670K:亚马逊商品的评论、产品的数据,和 AmazonCat-13K 的数据有类似之处,只是规模和商品不一样。

  Amazon-3M:亚马逊,包含的是产品的信息,链接以及产品的评论。

以上8个常用数据集的介绍信息来自论文《多标签文本分类研究进展 - 郝超》

本次系列实战项目,采用的数据集就是Reuters-21578。

[3] 层次多标签文本分类


  层次多标签文本分类是对文本标签具有层次化结构的数据集进行分类,英文称作Hierarchical Multi-label Text Classification, HMTC

 HMTC任务特点是:标签之间具有层次结构,其中,一个标签可以被特殊化为子类然后被一个父类所包含。层次多标签可以采用树(Tree)或者有向无环图(DAG)进行表示。其中对于Tree结构来说,一个标签节点只有一个父节点;而对于DAG结构来说,一个标签节点可以有多个父节点。对于一个给定的样本,同时将一个或多个类标签指定给该样本,并且这些类标签以层次结构的形式存储,这就是层次多标签分类问题。

  常用的HMTC数据集有:

  BlurbGenreCollection(BGC):是作者收集的由书籍介绍以及层次结构的写作题材组成,共有91892 个文本,四个层级,146 个类别,四个层级分别有 7,46,77,16 个类别。

 WOS-11967(Web of Science):由 Web of Science 发表的论文的摘要组成,共有11967 个文本,两个层级,40 个类别,两个层级分别有 7,33个类别。

 WIPO-alpha2:共有四个层级,5229 个类别,四个层级分别有 8,114,451,4656 个类别。

  Enron:是一个邮件的语料数据集,共有三个层级,56 个类别,三个层级分别有 3,40,13 个类别.

  Reuters:是由路透社提供的人工新闻分类数据集,有超过 800000 条的数据,共有三个层级,101个类别,三个层级分别有 4,55,42 个类别。

以上5个常用数据集的介绍信息来自论文《层次多标签文本分类方法 - 赵海燕》

[4] 极端多标签文本分类


  极端多标签文本分类寻求从一个极端大的标签集合中为给定的文本输入找到相关的标签,英文称作Extreme Multi-label Text Classification, XMTC,其实也可以叫大规模多标签文本分类(Large Scale Multi-label Text Classification, LMTC),一样的意思。

 XMTC任务的特点是:标签的数量有成千上百万,特征空间也非常大,严重的样本稀疏性,巨大的内存消耗、显存消耗,成千上百万的标签往往还伴随着层次化结构。标签存在长尾分布,绝大部分标签仅仅有少量样本关联。

 XMTC任务的难点有很多。如何解决数据稀疏?如何使模型运行更高效?如何解决样本少的问题?去哪搞服务器跑代码,直接劝退了好吧!

[5] 总结


  数据集越大,越吃设备,所以建议大家还是从较为简单的普通多标签文本分类任务着手入门。其中,数据集最好选择一些不是太大的,例如:Reuters-21578AAPDRCV1-V2EUR-Lex

[6] 进行下一篇实战


  【BERT-多标签文本分类实战】之四——数据集预处理


相关文章
|
9月前
lda模型和bert模型的文本主题情感分类实战
lda模型和bert模型的文本主题情感分类实战
171 0
|
2月前
|
机器学习/深度学习 自然语言处理 数据可视化
BERT-IMDB电影评论情感分类实战:SwanLab可视化训练
这篇文章介绍了使用BERT模型进行IMDB电影评论情感分类的实战教程,涉及SwanLab、transformers和datasets库。作者提供了一键安装库的命令,并详细解释了每个库的作用。文章展示了如何加载BERT模型和IMDB数据集,以及如何利用SwanLab进行可视化训练。训练过程在SwanLab平台上进行,包括模型微调、指标记录和结果可视化。此外,还提供了完整代码、模型与数据集的下载链接,以及相关工具的GitHub仓库地址。
BERT-IMDB电影评论情感分类实战:SwanLab可视化训练
|
3月前
|
机器学习/深度学习 数据采集 自然语言处理
【传知代码】BERT论文解读及情感分类实战-论文复现
本文介绍了BERT模型的架构和技术细节,包括双向编码器、预训练任务(掩码语言模型和下一句预测)以及模型微调。文章还提供了使用BERT在IMDB数据集上进行情感分类的实战,包括数据集处理、模型训练和评估,测试集准确率超过93%。BERT是基于Transformer的预训练模型,适用于多种NLP任务。在实践中,BERT模型加载预训练权重,对输入数据进行预处理,然后通过微调适应情感分类任务。
【传知代码】BERT论文解读及情感分类实战-论文复现
|
机器学习/深度学习 数据采集 自然语言处理
【Deep Learning A情感文本分类实战】2023 Pytorch+Bert、Roberta+TextCNN、BiLstm、Lstm等实现IMDB情感文本分类完整项目(项目已开源)
亮点:代码开源+结构清晰+准确率高+保姆级解析 🍊本项目使用Pytorch框架,使用上游语言模型+下游网络模型的结构实现IMDB情感分析 🍊语言模型可选择Bert、Roberta 🍊神经网络模型可选择BiLstm、LSTM、TextCNN、Rnn、Gru、Fnn共6种 🍊语言模型和网络模型扩展性较好,方便读者自己对模型进行修改
528 0
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
深度解析BERT:从理论到Pytorch实战
深度解析BERT:从理论到Pytorch实战
823 0
|
数据采集
基于Bert文本分类进行行业识别
基于Bert文本分类进行行业识别
188 0
|
机器学习/深度学习 XML 人工智能
ELMo、GPT、BERT、X-Transformer…你都掌握了吗?一文总结文本分类必备经典模型(五)
ELMo、GPT、BERT、X-Transformer…你都掌握了吗?一文总结文本分类必备经典模型
404 0
|
机器学习/深度学习 自然语言处理 数据可视化
ELMo、GPT、BERT、X-Transformer…你都掌握了吗?一文总结文本分类必备经典模型(四)
ELMo、GPT、BERT、X-Transformer…你都掌握了吗?一文总结文本分类必备经典模型
269 0
|
3月前
|
机器学习/深度学习 人工智能 开发工具
如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face
Hugging Face是一个机器学习(ML)和数据科学平台和社区,帮助用户构建、部署和训练机器学习模型。它提供基础设施,用于在实时应用中演示、运行和部署人工智能(AI)。用户还可以浏览其他用户上传的模型和数据集。Hugging Face通常被称为机器学习界的GitHub,因为它让开发人员公开分享和测试他们所训练的模型。 本次分享如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face。
如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face
|
3月前
|
PyTorch 算法框架/工具
Bert Pytorch 源码分析:五、模型架构简图 REV1
Bert Pytorch 源码分析:五、模型架构简图 REV1
57 0