【Pytorch神经网络实战案例】33 使用BERT模型实现完形填空任务

2023-05-11 653

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 案例：加载Transformers库中的BERT模型，并用它实现完形填空任务，即预测一个句子中缺失的单词。

1 案例描述

案例：加载Transformers库中的BERT模型，并用它实现完形填空任务，即预测一个句子中缺失的单词。

2 代码实现：使用BERT模型实现完形填空任务

2.1 代码实现：载入词表，并对输入的文本进行分词转化---BERT_MASK.py（第1部分）

import torch
from transformers import BertTokenizer, BertForMaskedLM
# 1.1 载入词表，并对输入的文本进行分词转化
# 加载预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
# 输入文本，BERT模型需要特殊词来标定句子：
# [CLS]：标记一个段落的开始。一个段落可以有一个或多个句子，但是只能有一个[CLS]。[CLS]在BERT模型中还会被用作分类任务的输出特征。
# [SEP]：标记一个句子的结束。在一个段落中，可以有多个[SEP]。
text = "[CLS] Who is Li BiGor ? [SEP] Li BiGor is a programmer [SEP]"
tokenized_text = tokenizer.tokenize(text)
# 使用词表对输入文本进行转换。与中文分词有点类似。由于词表中不可能覆盖所有的单词，因此当输入文本中的单词不存在时，系统会使用带有通配符的单间（以“#”开头的单词）将其拆开。
print("词表转化结果：",tokenized_text)
# 词表转化结果：['[CLS]','who','is','li','big','##or','?','[SEP]','li','big','##or','is','a','programmer','[SEP]']

2.2 代码实现：遮蔽单词，并将其转换为索引值---BERT_MASK.py（第2部分）

# 1.2 遮蔽单词，并将其转换为索引值，使用标记字符[MAS]代替输入文本中索引值为8的单词，对“Li”进行遮蔽，并将整个句子中的单词转换为词表中的索引值。
masked_index = 8  # 掩码一个标记，再使用'BertForMaskedLM'预测回来
tokenized_text[masked_index] = '[MASK]' # 标记字符[MASK]，是BERT模型中的特殊标识符。在BERT模型的训练过程中，会对输入文本的随机位置用[MASK]字符进行替换，并训练模型预测出[MASK]字符对应的值。
print("句子中的索引：",tokenized_text)
# 句子中的索引：['[CLS]','who','is','li','big','##or','?','[SEP]','[MASK]','big','##or','is','a','programmer','[SEP]']
# 将标记转换为词汇表索引
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
# 将输入转换为PyTorch张量
tokens_tensor = torch.tensor([indexed_tokens])
print("句子中的向量：",tokens_tensor)
# 句子中的向量：tensor([[101,2040,2003,5622,2502,2953,1029,102,103,2502,2953,2003,1037,20273,102]])

2.3 代码实现：加载预训练模型，并对遮蔽单词进行预测---BERT_MASK.py（第3部分）

# 1.3 加载预训练模型，并对遮蔽单词进行预测
# 指定设备
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)
# 加载预训练模型 (weights)
model = BertForMaskedLM.from_pretrained('bert-base-uncased') # 用BertForMaskedLM类加载模型，该类可以对句子中的标记字符[MASK]进行预测。
model.eval()
model.to(device)
# 段标记索引：定义输入的BertForMaskedLM类句子指示参数，用于指示输入文本中的单词是属于第一句还是属于第二句。属于第一句的单词用0来表示（一共8个)，属于第二句的单词用1来表示（一共7个)。
segments_ids = [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1]
segments_tensors = torch.tensor([segments_ids]).to(device)
tokens_tensor = tokens_tensor.to(device)
# 预测所有的tokens
with torch.no_grad():
    # 将文本和句子指示参数输入模型进行预测。
    # 输出结果是一个形状为[1，15，30522]的张量。其中，1代表批次个数，15代表输入句子中的15个单词，30522是词表中单词的个数。
    # 模型的结果表示词表中每个单词在句子中可能出现的概率。
    outputs = model(tokens_tensor, token_type_ids=segments_tensors)
predictions = outputs[0]  # [1, 15, 30522]
# 预测结果：从输出结果中取出[MASK]字符对应的预测索引值。
predicted_index = torch.argmax(predictions[0, masked_index]).item()
# 将预测索引值转换为单词。
predicted_token = tokenizer.convert_ids_to_tokens([predicted_index])[0]
print('预测词为:', predicted_token)
# 预测词为: li

3 代码总览---BERT_MASK.py

import torch
from transformers import BertTokenizer, BertForMaskedLM
# 1.1 载入词表，并对输入的文本进行分词转化
# 加载预训练模型
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
# 输入文本，BERT模型需要特殊词来标定句子：
# [CLS]：标记一个段落的开始。一个段落可以有一个或多个句子，但是只能有一个[CLS]。[CLS]在BERT模型中还会被用作分类任务的输出特征。
# [SEP]：标记一个句子的结束。在一个段落中，可以有多个[SEP]。
text = "[CLS] Who is Li BiGor ? [SEP] Li BiGor is a programmer [SEP]"
tokenized_text = tokenizer.tokenize(text)
# 使用词表对输入文本进行转换。与中文分词有点类似。由于词表中不可能覆盖所有的单词，因此当输入文本中的单词不存在时，系统会使用带有通配符的单间（以“#”开头的单词）将其拆开。
print("词表转化结果：",tokenized_text)
# 词表转化结果：['[CLS]','who','is','li','big','##or','?','[SEP]','li','big','##or','is','a','programmer','[SEP]']
# 1.2 遮蔽单词，并将其转换为索引值，使用标记字符[MAS]代替输入文本中索引值为8的单词，对“Li”进行遮蔽，并将整个句子中的单词转换为词表中的索引值。
masked_index = 8  # 掩码一个标记，再使用'BertForMaskedLM'预测回来
tokenized_text[masked_index] = '[MASK]' # 标记字符[MASK]，是BERT模型中的特殊标识符。在BERT模型的训练过程中，会对输入文本的随机位置用[MASK]字符进行替换，并训练模型预测出[MASK]字符对应的值。
print("句子中的索引：",tokenized_text)
# 句子中的索引：['[CLS]','who','is','li','big','##or','?','[SEP]','[MASK]','big','##or','is','a','programmer','[SEP]']
# 将标记转换为词汇表索引
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
# 将输入转换为PyTorch张量
tokens_tensor = torch.tensor([indexed_tokens])
print("句子中的向量：",tokens_tensor)
# 句子中的向量：tensor([[101,2040,2003,5622,2502,2953,1029,102,103,2502,2953,2003,1037,20273,102]])
# 1.3 加载预训练模型，并对遮蔽单词进行预测
# 指定设备
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)
# 加载预训练模型 (weights)
model = BertForMaskedLM.from_pretrained('bert-base-uncased') # 用BertForMaskedLM类加载模型，该类可以对句子中的标记字符[MASK]进行预测。
model.eval()
model.to(device)
# 段标记索引：定义输入的BertForMaskedLM类句子指示参数，用于指示输入文本中的单词是属于第一句还是属于第二句。属于第一句的单词用0来表示（一共8个)，属于第二句的单词用1来表示（一共7个)。
segments_ids = [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1]
segments_tensors = torch.tensor([segments_ids]).to(device)
tokens_tensor = tokens_tensor.to(device)
# 预测所有的tokens
with torch.no_grad():
    # 将文本和句子指示参数输入模型进行预测。
    # 输出结果是一个形状为[1，15，30522]的张量。其中，1代表批次个数，15代表输入句子中的15个单词，30522是词表中单词的个数。
    # 模型的结果表示词表中每个单词在句子中可能出现的概率。
    outputs = model(tokens_tensor, token_type_ids=segments_tensors)
predictions = outputs[0]  # [1, 15, 30522]
# 预测结果：从输出结果中取出[MASK]字符对应的预测索引值。
predicted_index = torch.argmax(predictions[0, masked_index]).item()
# 将预测索引值转换为单词。
predicted_token = tokenizer.convert_ids_to_tokens([predicted_index])[0]
print('预测词为:', predicted_token)
# 预测词为: li