BERT模型基本理念、工作原理、配置讲解(图文解释)

简介: BERT模型基本理念、工作原理、配置讲解(图文解释)

一、BERT的基本理念

BERT是Birdirectional Encoder Representation from Transformers的缩写,意为多Transformer的双向编码器表示法,它是由谷歌发布的先进的嵌入模型,BERT是自然语言处理领域的一个重大突破,它在许多自然语言处理任务中取得了突出的成果,比如问答任务,文本生成,句子分类等等,BERT成功的一个主要原因是,它是基于上下文的嵌入模型,这是它与其他流行的嵌入模型的最大不同,首先让我么了解有上下文的嵌入模型和无上下文的嵌入模型之间的区别,如以下两个句子

A:he got bit by python(他被蟒蛇咬了)

B:python is my favorite programming lauguage(python是我最喜爱的编程语言)

如果使用上下文无关的的嵌入模型进行计算单词python的嵌入值,则两个句子中python嵌入值相同,因为它会忽略语境

BERT是一个基于上下文的模型,它先理解预警,然后根据上下文生成该词的嵌入值,对于上面两个句子它将生成python不同的嵌入值,BERT将该句中的每个单词与句子中的所有单词相关联,以了解每个单词的上下文含义

由此可见,与上下文无关的模型生成的静态嵌入不同,BERT能够根据语境生成动态嵌入

二、BERT的工作原理

顾名思义,BERT是基于Transformer的,我们可以把它看成只有编码器的Transformer

Transformer的编码器是双向的,它可以从两个方向读取一个句子,因此BERT由Transformer获得双向编码器特征,通过BERT模型,对于一个给定的句子,我们可以获得每个单词的上下文特征

三、BERT的配置

BERT的研究人员在发布该模型是提出了两种标准配置

BERT-base

BERT-large

1:BERT-base

它由十二层编码器叠加而成,每层编码器都使用十二个注意力头,其中前馈网络层由768个隐藏神经元组成,所以它得到的特征向量的大小为768

我们使用符号来表示上述内容

编码器的层数用L表示

注意力头的数量用A表示

隐藏神经元的数量用H表示

它的网络参数总数可达1.1亿个

2:BERT-large

该模型由二十四层编码器叠加而成,每层编码器都使用十六个注意力头,其中前馈网络层包含1024个隐藏神经元,所以得到的特征向量大小为1024

它的网络参数可达3.4亿个

3:BERT的其他配置

除了上述两种标准配置外,BERT还有多种不同的配置,下面列举一些小型配置

BERT-tiny L=2 H=128

BERT-mini L=4 H=256

BERT-small L=4 H=512

BERT-medium L=8 H=512

在计算资源有限的情况下,我们可以使用较小的BERT配置,但是标准的BERT配置可以得到更准确的结果并且应用更为广泛

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
18天前
|
PyTorch 算法框架/工具
Bert Pytorch 源码分析:五、模型架构简图 REV1
Bert Pytorch 源码分析:五、模型架构简图 REV1
38 0
|
18天前
|
机器学习/深度学习 人工智能 开发工具
如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face
Hugging Face是一个机器学习(ML)和数据科学平台和社区,帮助用户构建、部署和训练机器学习模型。它提供基础设施,用于在实时应用中演示、运行和部署人工智能(AI)。用户还可以浏览其他用户上传的模型和数据集。Hugging Face通常被称为机器学习界的GitHub,因为它让开发人员公开分享和测试他们所训练的模型。 本次分享如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face。
如何快速部署本地训练的 Bert-VITS2 语音模型到 Hugging Face
|
18天前
|
PyTorch 算法框架/工具
Bert Pytorch 源码分析:五、模型架构简图
Bert Pytorch 源码分析:五、模型架构简图
34 0
|
18天前
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
18天前
|
机器学习/深度学习 数据采集 人工智能
【NLP】Datawhale-AI夏令营Day3打卡:Bert模型
【NLP】Datawhale-AI夏令营Day3打卡:Bert模型
|
18天前
|
机器学习/深度学习 自然语言处理 数据格式
训练你自己的自然语言处理深度学习模型,Bert预训练模型下游任务训练:情感二分类
训练你自己的自然语言处理深度学习模型,Bert预训练模型下游任务训练:情感二分类
|
18天前
|
机器学习/深度学习 自然语言处理 数据挖掘
预训练语言模型中Transfomer模型、自监督学习、BERT模型概述(图文解释)
预训练语言模型中Transfomer模型、自监督学习、BERT模型概述(图文解释)
67 0
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
极智AI | 变形金刚大家族Transformer ViT CLIP BLIP BERT模型结构
大家好,我是极智视界,本文整理介绍一下 Transformer ViT CLIP BLIP BERT 模型结构。
191 0
|
7月前
lda模型和bert模型的文本主题情感分类实战
lda模型和bert模型的文本主题情感分类实战
131 0
|
7月前
|
并行计算 API C++
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
Bert-vits2项目近期炸裂更新,放出了v2.0.2版本的代码,修正了存在于2.0先前版本的重大bug,并且重炼了底模,本次更新是即1.1.1版本后最重大的更新,支持了三语言训练及混合合成,并且做到向下兼容,可以推理老版本的模型,本次我们基于新版V2.0.2来本地推理原神小姐姐们的音色模型。
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享

热门文章

最新文章