人工智能|BERT的简单介绍

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: BERT(2018年谷歌提出)是基于Transformer编码器的双向预训练语言模型,通过掩码语言建模(MLM)和下一句预测(NSP)任务学习深度上下文语义,在文本分类、问答、NER等理解型任务中表现卓越。

 简单介绍

       自 2017 年 Transformer 模型发布以来,自然语言处理领域迎来了颠覆性变革,这一时期诞

生了两款极具代表性的语言模型:BERT 与 GPT。二者分别由谷歌(Google)OpenAI推出,

也代表了当时两条完全不同的技术路线。

        从任务方向来看,预训练语言模型整体可以分为两大类:一类是以语义理解、识别、分类为

核心目标的理解型模型;另一类是以文本自动生成为核心目标的生成型模型。  

image.gif

二者在模型结构上有着本质区别:BERT 采用 Transformer 编码器架构,擅长双向上下文理解;

GPT 采用 Transformer 解码器架构,擅长自回归文本生成,也由此分别走向了语言理解与语言生

成两条完全不同的发展道路。

BERT 系(编码器)→ 专注语言理解,代表 RoBERTa、中文 MacBERT;

GPT 系(解码器)→ 专注语言生成,当前主力 GPT-5.4、最新旗舰 GPT-6;

image.gif

BERT 相当于做完型填空,训练时会随机遮挡句子中的部分词语,模型可以同时看到被遮挡位置前

面和后面的全部上下文,根据双向信息预测被遮住的词。而 GPT 相当于续写句子,模型只能看到

前面已经出现的文字,单向预测下一个词应该是什么,无法看到未来的内容。

     也正是这个训练方式的差异,造就了二者完全不同的能力:BERT 擅长双向深度理解语义,

GPT 擅长单向连贯文本生成。

image.gif


训练过程

    BERT 的完整训练流程分为两个核心步骤:

首先是无监督预训练,模型在海量无标注文本上做完型填空学习通用语言知识;

再进行有监督微调,在特定任务标注数据上进一步优化,完成文本分类、语义理解等下游任务。完

成微调之后,模型就可以应用于各类下游自然语言处理任务。

image.gif

BERT 相当于做完型填空,是一个双向语言模型。模型只有同时正确理解词语的前文与后文,才能

为单词 Python 生成在不同语境下、精准对应的语义嵌入向量。

image.gif

两个版本

BERT 于2018 年正式发布,官方同期推出了两个版本:基础版(BERT-Base)与大模型版

(BERT-Large)

二者主要区别在于网络层数、注意力头数与参数量:

BERT-Base(基础版)12 层 Transformer 编码器,12 个注意力头,总参数约 110M,速度快、占

用资源低,适合日常开发、实验与普通下游任务。

BERT-Large(大版本)24 层 Transformer 编码器,16 个注意力头,总参数约 340M,模型更深更

大,语义理解能力更强,但训练和推理速度更慢、算力要求更高。

image.gif

输入表示

在词嵌入与位置嵌入的基础上,BERT 额外引入了片段嵌入(Segment Embedding)。BERT 大

多以两个句子组成的句对作为输入,片段嵌入的作用,就是用来区分词语属于第一句还是第二句。

image.gif

假如我们有一段包含两句话的文本,BERT 会先对其进行分词处理(通常采用 WordPiece 分词

器,将单词拆解为更小的子词单元)。随后,会在第一句话的开头插入一个特殊的 [CLS] 标记,其

作用是告诉模型这个位置是整个句对(或单句)的聚合表示,常用于分类任务。在第一句话和第二

句话的结尾,则分别加上一个 [SEP] 标记,用来分隔两个句子,同时也让模型明白每个句子的边

界。经过这样的标记插入后,整个序列会被送入嵌入层。在 BERT 中,每个 token 最终获得的输

入向量由三部分嵌入向量逐元素相加而成:

image.gif

预训练

BERT 在预训练阶段采用 掩码语言模型(MLM,Masked Language Model)与下一句预测

(NSP,Next Sentence Prediction)两个核心自监督预训练任务,联合对模型进行训练。

其中掩码语言模型 MLM属于双向语言建模任务:模型在输入文本中随机对部分 Token 进行掩码替

换,让 BERT 根据上下文左右双向信息预测被掩码的原始词汇,以此让模型学习词语之间的语义

关联、语法逻辑与上下文语义理解能力,也是 BERT 实现双向深度语义建模的核心。

而下一句预测 NSP任务,则专门用于学习句子之间的关系与句间语义逻辑。模型会输入成对句

子,判断第二句是否为第一句在原文中连续的下一句,从而让模型具备句子级推理、句间连贯性理

解能力,完美适配后续问答、分类、句子匹配等下游任务。

image.gif

首先我们来详细理解掩码语言模型 MLM(Masked Language Model)。在 BERT 预训练过程

中,模型会对输入的原始句子进行处理:随机挑选句子中 15% 的 Token 单词,用特殊标记

[MASK] 进行掩码遮挡,把原本的词汇隐藏起来。处理好的掩码句子序列输入 BERT 多层

Transformer 编码器,经过多层编码器的特征计算与语义交互后,模型会输出序列中每个单词全新

的语义向量表示。这些输出向量不再是单纯的单词本身含义,而是融合了单词自身语义、上下文双

向语义依赖、以及该单词与句子中其他所有单词之间的关联关系的深度特征向量。之后模型会根据

这个深度向量,预测被 [MASK] 遮挡住的原始单词是什么。通过不断最小化预测损失,BERT 就能

学会利用上下文双向信息理解词义、语法和语义逻辑,这也是 BERT 区别于单向语言模型最核心

的优势。

image.gif

下面我们来看 BERT 的 NSP(Next Sentence Prediction,下一句预测) 预训练任务。假设我们

构造一个训练样本:第一段话包含两个连续的句子,其中第二句在逻辑和语义上紧承第一句,构成

一个正样本;第二段话同样包含两个句子,但这两句之间没有连贯关系(例如从不同文档中随机抽

取),构成一个负样本。在预训练阶段,BERT 每次会接收一个由两个句子组成的输入对(记为

Sentence A 和 Sentence B),并需要判断 B 是否为 A 的真实后续句子。

具体处理时,我们会将这对句子按之前的方式拼接,并在开头加入 [CLS],句尾和句间加入

[SEP]。然后将整个序列送入 BERT 模型。经过多层 Transformer 编码后,我们只取 [CLS] 位置对

应的输出向量,因为 BERT 设计上让 [CLS] 的最终隐状态聚合了整个句对的全局信息。这个向量

随后被送入一个全连接层,再经过 Softmax 函数,输出一个二分类概率:表示“是下一句”

(IsNext)和“不是下一句”(NotNext)的可能性。通过最小化预测结果与真实标签之间的交叉熵

损失,BERT 就能学习到句子间的连贯性关系,从而增强对篇章级别语义的理解能力。

image.gif

微调任务

句子对分类(如 NSP):判断两句话是否连贯。例如:“今天天气不错” + “我们去散步吧” → 是下

一句。

单句分类(如情感分析):输入一条评论,输出情感极性。例如:“这家餐厅太难吃了” → 负向。

问答任务:给一个问题和一个包含答案的上下文,让 BERT 用两个指针标出答案的起始和结束位

置。例如:问题“姚明在哪里出生?”、上下文“姚明出生于上海” → 答案起止为“上海”。

单句标注(序列标注):为每个单词打标签,如命名实体识别(NER)。例如:“马云在杭州创办

了阿里巴巴” → 马云(人名)、杭州(地名)、阿里巴巴(机构名)。

[1]参考资料大白话讲明白Bert #BERT #Transformer #知识前沿派对#AI新星计划 #申请加入抖音计算科学顶流班 - 抖音


目录
相关文章
|
11小时前
|
数据采集 人工智能 数据可视化
人工智能|YOLOv5必须了解的知识
本文详解YOLOv5网络结构(Input/Backbone/Neck/Head)及train.py核心实现:包括模型加载(预训练权重适配)、yaml配置解析、数据集读取与增强、标签格式说明、多尺度特征融合机制,以及推理阶段预处理、NMS过滤与结果可视化全流程。
31 0
|
11小时前
|
数据采集 机器学习/深度学习 人工智能
人工智能|YOLOv1的损失函数和非极大值抑制
YOLOv1将图像划分为7×7网格,每格预测2个边界框(共98个),含中心点、宽高、置信度及20类概率。损失函数由坐标(加权5)、置信度(含/不含物体分权重)和分类三部分构成,均采用带平衡系数的均方误差,并以IoU为核心匹配与评估依据。(239字)
28 1
|
11小时前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能 |手算CLIP模型
本文详解CLIP模型原理:突破传统CNN需重新训练的局限,通过4亿图文对联合训练文本与图像编码器,实现零样本迁移。利用对比学习对齐多模态特征,支持图文检索、零样本分类等应用,让AI像人一样理解未见过的概念。(239字)
30 1
|
11小时前
|
数据采集 人工智能 计算机视觉
人工智能|YOLOv1的简单介绍
YOLOv1将输入图像划分为7×7网格,每个网格单元预测2个边界框(BBOX)及对应置信度,并输出20类概率。通过中心点归属、相对坐标偏移与归一化,实现端到端实时目标检测。(239字)
35 1
|
10小时前
|
人工智能 自然语言处理 数据挖掘
用ChatGPT和Codex搭建个人AI工作流:从一人部门到开源实践
本文探讨AI时代“一人部门”工作法:用ChatGPT拆解任务、构建知识库,用Codex将流程工具化,结合复盘与沉淀,打造可持续的个人AI工作系统(OPC)。非替代团队,而是以工具+流程+知识,提升单人可复用、可迭代的系统性产出能力。
34 0
|
12小时前
|
机器学习/深度学习 人工智能 应用服务中间件
别再被误导了!一文讲透 MCP 与 Function Calling 的真实关系
AI圈热议MCP能否取代Function Calling?实则二者定位迥异:Function Calling是大模型的“决策层”,负责选工具、生成参数;MCP是后端与工具间的“执行协议”,统一调用标准。二者分属不同链路环节,非替代关系,而是协同互补的“黄金搭档”。
|
10小时前
|
人工智能 机器人 芯片
人工智能|YOLOv8实战
本内容为安全帽检测实战项目,基于YOLOv8模型,涵盖Kaggle数据获取、自定义yaml配置、模型训练(yolo_train.py)与测试(yolo_test.py),并提供服务器(FastAPI+Docker)、边缘(Jetson+TensorRT)及国产嵌入式(RK3588+RKNN)三类部署方案,支持工业场景实时智能识别。(239字)
33 0
|
11小时前
|
机器学习/深度学习 人工智能 编解码
人工智能|手算Swin Transformer模型
Swin Transformer是一种高效视觉Transformer,通过移位窗口注意力(Shifted Window)替代全局自注意力,结合分层下采样与局部窗口计算,显著降低计算复杂度,同时保持强大建模能力。其核心包括Patch划分、线性嵌入、W-MSA/SW-MSA交替模块及Patch Merging,构成多尺度特征金字塔,已成为目标检测、分割等任务的主流骨干网络。(239字)
30 0
|
11小时前
|
机器学习/深度学习 人工智能 算法
人工智能|大白话DETR 模型
DETR(检测变换器)是首个端到端目标检测模型,摒弃锚框与NMS后处理。它以CNN提取特征,经Transformer编码器-解码器处理,配合100个可学习目标查询(OQ),通过二分图匹配实现预测框与真实框的一对一最优分配,直接输出类别与坐标。(239字)
28 0
|
11小时前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能|大白话GPT
GPT-1是首个基于Transformer解码器的生成式预训练模型,采用自回归方式逐词生成文本:以起始,依上下文预测下一词,循环直至。其核心为12层Decoder-only架构,通过掩码自注意力实现单向语言建模,并支持分类、蕴含等下游任务微调。(239字)
29 0