预训练语言模型中Transfomer模型、自监督学习、BERT模型概述(图文解释)

简介: 预训练语言模型中Transfomer模型、自监督学习、BERT模型概述(图文解释)

一、Transformer变换器模型

Transformer模型的编码器是由6个完全相同的层堆叠而成,每一层有两个子层 。


第一个子层是多头自注意力机制层,第二个子层是由一一个简单的、按逐个位置进行全连接的前馈神经网络。在两个子层之间通过残差网络结构进行连接,后接一一个层正则化层。可以得出,每一一个子层的输出通过公式可以表示为LayerNorm(x + Sublayer(x)),其中,Sublayer(x)函数由各个子层独立实现。为了方便各层之间的残差连接,模型中所有的子层包括嵌人层,固定输出的维度为512。Transformer 模型网络架构如图2.2所示。


Transformer模型的解码器也是由6个完全相同的层堆叠而成。除了编码器中介绍过的两个子层之外解码器还有第三个子层用于对编码器对的输出实现多头注意力机制。与编码器类似,使用残差架构连接每个子层,后接 一个层正则化层。对于解码器对的掩码自注意力子层,原论文对结构做了了改变来防止当前序列的位置信息和后续序列的位置信息混在一起。 这样的一个位置掩码操作作,再加上原有输出嵌入端对位置信息做悄难,我可以确保对位置;的预测仅依赖于已知的位置:之前的输出,而不会依赖于位置i之后的输出。


Transformer采用多头自注意力(multitheadsltentin)机制通过联合处理来自序列中不同表征子空间的不同位置的信息来来计算序列语义表征,利用不同的自注意力模块获得文本中每个词在不同语义空间下与原始词向量长度)相同的上下文语义向量在一系列任务中都表现很好

二、自监督学习

自然语言处理的表征学习有很多种形式,如卷积神经网络参数的监督(superised)训练是一种监督的表征学习形式;对自编码器和限制玻尔兹曼机参数的无监督(unsupervised)预训练是一种 无监督的表征学习形式;对深度信念网络参数先进行无监督预训练,再进行有监督微调是一种半监督(semisupervised1)的共享表征学习形式。早期的无监督预训练模型中一此对无监督任务学习到的有用特征也可能对监督学习任务有用

纯粹的监督学习是通过神经网络来表征一个句子 ,然后通过分类任务数据集去学习网络参数;而纯粹的无监督学习是通过上文预测下文来学习句子表征,利用得到的表征进行分类任务,例如,聚类降维、异常值检测、自编码器。纯监督学习和纯无监督学习都存在各自的瓶颈,为了摆脱人为监督的束缚,神经网络架构转向了数据的自监督。自监督(self-supervised)学习是利用辅助任务(pretext)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征,例如,BERT、MASS、BART等模型都是自监督学习。自监督学习是学习归纳偏差的有效方法,自监督学习最主要的目的就是学习到更丰富的语义表征,自监督的预训练在各种自然语言理解任务中已经取得了巨大的成功。

三、BERT基于变换器的双向编码器表征

深度双向变换器的预训练语言理解模型

 

相关文章
|
4月前
|
PyTorch 算法框架/工具
Bert Pytorch 源码分析:五、模型架构简图 REV1
Bert Pytorch 源码分析:五、模型架构简图 REV1
33 0
|
4月前
|
机器学习/深度学习 人工智能 开发工具
如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face
Hugging Face是一个机器学习(ML)和数据科学平台和社区,帮助用户构建、部署和训练机器学习模型。它提供基础设施,用于在实时应用中演示、运行和部署人工智能(AI)。用户还可以浏览其他用户上传的模型和数据集。Hugging Face通常被称为机器学习界的GitHub,因为它让开发人员公开分享和测试他们所训练的模型。 本次分享如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face。
如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face
|
4月前
|
PyTorch 算法框架/工具
Bert Pytorch 源码分析:五、模型架构简图
Bert Pytorch 源码分析:五、模型架构简图
27 0
|
4月前
|
机器学习/深度学习 数据采集 人工智能
【NLP】Datawhale-AI夏令营Day3打卡:Bert模型
【NLP】Datawhale-AI夏令营Day3打卡:Bert模型
|
4月前
|
机器学习/深度学习 自然语言处理 数据格式
训练你自己的自然语言处理深度学习模型,Bert预训练模型下游任务训练:情感二分类
训练你自己的自然语言处理深度学习模型,Bert预训练模型下游任务训练:情感二分类
55 0
Coggle 30 Days of ML(23年7月)任务十:使用Bert在比赛数据集中完成预训练
Coggle 30 Days of ML(23年7月)任务十:使用Bert在比赛数据集中完成预训练
|
6月前
lda模型和bert模型的文本主题情感分类实战
lda模型和bert模型的文本主题情感分类实战
111 0
|
5月前
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
6月前
|
并行计算 API C++
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
Bert-vits2项目近期炸裂更新,放出了v2.0.2版本的代码,修正了存在于2.0先前版本的重大bug,并且重炼了底模,本次更新是即1.1.1版本后最重大的更新,支持了三语言训练及混合合成,并且做到向下兼容,可以推理老版本的模型,本次我们基于新版V2.0.2来本地推理原神小姐姐们的音色模型。
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
|
5月前
|
人工智能 语音技术
Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)
中英文混合输出是文本转语音(TTS)项目中很常见的需求场景,尤其在技术文章或者技术视频领域里,其中文文本中一定会夹杂着海量的英文单词,我们当然不希望AI口播只会念中文,Bert-vits2老版本(2.0以下版本)并不支持英文训练和推理,但更新了底模之后,V2.0以上版本支持了中英文混合推理(mix)模式。
Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)

热门文章

最新文章