【Pytorch神经网络理论篇】 36 NLP中常见的任务+BERT模型+发展阶段+数据集

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 是一种类似于卷积思想的网络。它通过矩阵相乘,计输入向量与目的输出之间的相似度,进而完成语义的理解。

同学你好!本文章于2021年末编写,获得广泛的好评!


故在2022年末对本系列进行填充与更新,欢迎大家订阅最新的专栏,获取基于Pytorch1.10版本的理论代码(2023版)实现


Pytorch深度学习·理论篇(2023版)目录地址为:


CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录


本专栏将通过系统的深度学习实例,从可解释性的角度对深度学习的原理进行讲解与分析,通过将深度学习知识与Pytorch的高效结合,帮助各位新入门的读者理解深度学习各个模板之间的关系,这些均是在Pytorch上实现的,可以有效的结合当前各位研究生的研究方向,设计人工智能的各个领域,是经过一年时间打磨的精品专栏!

https://v9999.blog.csdn.net/article/details/127587345


欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~

103b746101d146cd93357daedb91d512.png



1 NLP发展阶段


深度学习在NLP上有两个阶段:基础的神经网络阶段


1.1 基础神经网络阶段


1.1.1 卷积神经网络


将语言当作图片数据,进行卷积操作。


104a0cad58064d5a982a9c0a420ef8b9.png


1.1.2 循环神经网络


按照语言文本的顺序,用循环神经网络来学习一段连续文本中的语义。


1.1.3 基于注意力机制的神经网络


是一种类似于卷积思想的网络。它通过矩阵相乘,计输入向量与目的输出之间的相似度,进而完成语义的理解。


1.2 BERTology阶段


通过运用以上3种基础模型,不断地搭建出拟合能力越来越强的模型,直到最终出现了BERT模型。


1.2.1 BERT的发展


BERT模型几乎在各种任务上都优于其他模型, 最终演变出多种BERT的预训练模型 :


1.引入BERT模型中双向上下文信息的广义自回归模型XLNet;


2.改进BERT模型训练方式和目标的RoBERTa和SpanBERT模型;


3.结合多任务和知识蒸馏强化 BERT 模型的MT-DNN模型


1.2.2 关于BERT模型的疑问


试图探究BERT模型的原理及其在某些任务中表现出众的真正原因。BERT模型在其出现之后的一个时段内, 成为NLP任务的主流技术思想。这种思想也称为BERT学。


2 NLP常见的任务


NLP可以细分为自然语言理解(Natural Language Understanding, NLU) 与 自然语言生成(Natural Language Generation,NLG) 两种情况。


1cbabe559ab54bee8123c241e3d4afa8.png


2.1 基于文章处理的任务


2.1.1 含义


主要是对文章中的全部文本进行处理,即文本挖掘。该任务的文章为单位,模型会对文章中的全部文本进行处理,得到该篇文章的语义。当得到语义之后,便可以在模型的输出层,按照具体任务输出相应的结果。


2.1.2 基于文章处理任务的细分


  • 序列到类别:如文本分类和情感分析。


  • 同步序列到序列:是指为每个输入位置生成输出,如中文分词、命名实体识别和词性标注。


  • 异步序列到序列:如机器翻译、自动摘要。


2.2 基于句子处理的任务/序列级别任务


主要包括句子分类任务(如情感分类)、句子推断任务(推断两个句子是否同义)及句子生成任务(如回答问题、图像描述)等。


2.2.1 句子分类任务及相关数据集


句子分类任务常用于评论分类、病句检查等场景,常用的数据集如下:


1.SST-2(Stanford Sentiment Treebank):这是一个二分类数据集,目的是判断一个句子(句子来源于人们对一部电影的评价)的情感。


2.CoLA(Corpus of Linguistic Acceptability):这是一个二分类数据集,目的是判断一个英文句子的语法是否正确。


2.2.2 句子推断任务及相关数据集


句子推断任务(又称基于句子对的分类任务)的输入是两个成对的句子,其目的是判断两个句子的意思是蕴含、矛盾的,还是中立的。常用在智能问答,智能客服及多轮对话中。常见数据集如下:


1.MNLI:这是GLUEDatasets数据集中的一个数据集,是一个大规模的、来源众多的数据集,目的是判断两个句子语义之间的关系。


2.QQP(Quora Question Pairs):这是一个二分类数据集,目的是判断两个来自Quora的问题句子在语义上是否是等价的。


3.QNLI(Question Natural Language Inference):这也是一个二分类数据集,每个样本包含两个句子(一个是问题,另一个是答案)。正向样本的答案与问题相对应,负向样本则相反。


4.STS-B(Semantic Textual Similarity Benchmark):这是一个类似回归问题的数据集,给出一对句子,使用1~5的评分评价两者在语义上的相似程度。


5.MRPC(Microsoft Research Paraphrase Corpus)这是一个二分类数据集,句子对来源于对同一条新闻的评论,判断这一对句子在语义上是否相同。


6.RTE(Recognizing Textual Entailment):这是一个二分类数据集,类似于MNLI数据集,但是数据量较少。


7.SWAG(Situations With Adversarial Generations):这是一个问答数据集,给一个陈述句子和4个备选句子,判断前者与后者中的哪一个最有逻辑的连续性,相当于阅读理解问题。


2.2.3 句子生成任务及数据集


句子生成任务:属于类别(实体对象)到序列任务,如文本生成、回答问题和图像描述。


典型数据集如下:


SQuAD数据集的样本为语句对(两个句子)。其中,第一个句子是一段来自某百科的文本,第二个句子是一个问题(问题的答案包含在第一个句子中)。这样的语句对输入模型后,要求模型输出一个短句作为问题的答案。


SQuAD2.0,它整合了现有的SQuAD数据集中可回答的问题和50000多个由公众编写的难以回答的问题,其中那些难以回答的问题与可回答的问题语义相似。它弥补现有数据集中的不足。现有数据集要么只关注可回答的问题,要么使用容易识别的自动生成的不可回答的问题作为数据集。


为了在SQuAD2.0数据集中表现得更好,模型不仅要在可能的情况下回答问题,还要确定什么时候段落的上下文不支持回答。


2.3基于句子中词的处理任务


基于句子中词的处理任务又叫作token级别任务,常用于完形填空(Cloze)、预测句子中某个位置的单词(或实体词)、对句子中的词性进行标注等。


2.3.1 token级别任务与BERT模型


token级别任务也属于BERT模型预训练的任务之一,即完形填空,根据句子中的上下文token,推测出当前位置应当是什么token。


BERT模型预训练时使用了遮蔽语言模型(Masked Language Model,MLM)。该模型可以直接用于解决token级别任务,即在预训练时,将句子中的部分token用[masked]这个特殊的token进行替换,将部分单词遮掩住。该模型的输出就是预测[masked]对应位置的单词。这种训练的好处是不需要人工标注的数据,只需要通过合适的方法,对现有语料库中的句子进行随机的遮掩即可得到可以用来训练的语料,训练好的模型就可以直接使用。


2.3.2 token级别任务与序列级别任务


在某种情况下,序列级别任务也可以拆分成token级别任务来处理。


SQuAD数据集是一个基于句子处理的生成式数据集。这个数据集的特殊性在于最终的答案包含在样本的内容之中,是有范围的,而且是连续分布在内容之中的。


2.3.3 实体词识别任务及常用模型


实体词识别(Named Entity Recognition,NER)任务也称为实体识别、实体分块或实体提取任务。它是信息提取的一个子任务,旨在定位文本中的命名实体,并将命名实体进行分类,如人员、组织、位置、时间表达式、数量、货币值、百分比等。


本质:对句子中的每个token标注标签,然后判断每个token的类别,可以用于快速评估简历、优化搜索引擎算法、优化推荐系统算法等。


常见的实体词识别模型包括:


1.SpaCy模型是一个基于Python的命名实体识别统计系统,它可以将标签分配给连续的令牌组。SpaCy模型提供了一组默认的实体类别,这些类别包括各种命名或数字实体,如公司名称、位置、组织、产品名称等。这些默认的实体类别还可以通过训练的方式进行更新。


2.Stanford NER模型是一个命名实体Recognizer,用Java实现。它提供了一个默认的实体类别,如组织、人员和位置等,可支持多种语言。

目录
相关文章
|
2天前
|
机器学习/深度学习 人工智能 PyTorch
【深度学习】使用PyTorch构建神经网络:深度学习实战指南
PyTorch是一个开源的Python机器学习库,特别专注于深度学习领域。它由Facebook的AI研究团队开发并维护,因其灵活的架构、动态计算图以及在科研和工业界的广泛支持而受到青睐。PyTorch提供了强大的GPU加速能力,使得在处理大规模数据集和复杂模型时效率极高。
112 59
|
17天前
|
自然语言处理
【NLP】from glove import Glove的使用、模型保存和加载
使用 from glove import Glove 进行词向量训练、保存和加载的基本示例。
26 2
【NLP】from glove import Glove的使用、模型保存和加载
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【深度学习】探讨最新的深度学习算法、模型创新以及在图像识别、自然语言处理等领域的应用进展
深度学习作为人工智能领域的重要分支,近年来在算法、模型以及应用领域都取得了显著的进展。以下将探讨最新的深度学习算法与模型创新,以及它们在图像识别、自然语言处理(NLP)等领域的应用进展。
14 6
|
4天前
|
机器学习/深度学习 自然语言处理 数据处理
|
14天前
|
机器学习/深度学习 PyTorch 算法框架/工具
PyTorch代码实现神经网络
这段代码示例展示了如何在PyTorch中构建一个基础的卷积神经网络(CNN)。该网络包括两个卷积层,分别用于提取图像特征,每个卷积层后跟一个池化层以降低空间维度;之后是三个全连接层,用于分类输出。此结构适用于图像识别任务,并可根据具体应用调整参数与层数。
|
12天前
|
自然语言处理
【NLP】如何实现快速加载gensim word2vec的预训练的词向量模型
本文探讨了如何提高使用gensim库加载word2vec预训练词向量模型的效率,提出了三种解决方案:保存模型以便快速重新加载、仅保存和加载所需词向量、以及使用Embedding工具库代替word2vec原训练权重。
32 2
|
18天前
|
机器学习/深度学习 存储 自然语言处理
【NLP-新闻文本分类】3 Bert模型的对抗训练
详细介绍了使用BERT模型进行新闻文本分类的过程,包括数据集预处理、使用预处理数据训练BERT语料库、加载语料库和词典后用原始数据训练BERT模型,以及模型测试。
19 1
|
18天前
|
机器学习/深度学习 自然语言处理 数据挖掘
【NLP】深度学习的NLP文本分类常用模型
本文详细介绍了几种常用的深度学习文本分类模型,包括FastText、TextCNN、DPCNN、TextRCNN、TextBiLSTM+Attention、HAN和Bert,并提供了相关论文和不同框架下的实现源码链接。同时,还讨论了模型的优缺点、适用场景以及一些优化策略。
17 1
|
4天前
|
机器学习/深度学习 自然语言处理 并行计算
|
17天前
|
数据采集 机器学习/深度学习 存储
【NLP】讯飞英文学术论文分类挑战赛Top10开源多方案–5 Bert 方案
在讯飞英文学术论文分类挑战赛中使用BERT模型进行文本分类的方法,包括数据预处理、模型微调技巧、长文本处理策略以及通过不同模型和数据增强技术提高准确率的过程。
17 0

相关产品

  • 自然语言处理