RNN、LSTM、GRU神经网络构建人名分类器（三）-阿里云开发者社区

RNN、LSTM、GRU神经网络构建人名分类器（三）

2024-06-22 276

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这个文本描述了一个使用RNN（循环神经网络）、LSTM（长短期记忆网络）和GRU（门控循环单元）构建的人名分类器的案例。案例的主要目的是通过输入一个人名来预测它最可能属于哪个国家。这个任务在国际化的公司中很重要，因为可以自动为用户注册时提供相应的国家或地区选项。

RNN、LSTM、GRU神经网络构建人名分类器（二）+https://developer.aliyun.com/article/1544721?spm=a2c6h.13148508.setting.17.2a1e4f0eMtMqGK

7 构建时间计算函数

def timeSince(since):
    "获得每次打印的训练耗时, since是训练开始时间"
    # 获得当前时间
    now = time.time()
    # 获得时间差，就是训练耗时
    s = now - since
    # 将秒转化为分钟, 并取整
    m = math.floor(s / 60)
    # 计算剩下不够凑成1分钟的秒数
    s -= m * 60
    # 返回指定格式的耗时
    return '%dm %ds' % (m, s)

8 构建训练过程的日志打印函数

# 设置训练迭代次数
n_iters = 1000
# 设置结果的打印间隔
print_every = 50
# 设置绘制损失曲线上的制图间隔
plot_every = 10

def train(train_type_fn):
    """训练过程的日志打印函数, 参数train_type_fn代表选择哪种模型训练函数, 如trainRNN"""
    # 每个制图间隔损失保存列表
    all_losses = []
    # 获得训练开始时间戳
    start = time.time()
    # 设置初始间隔损失为0
    current_loss = 0
    # 从1开始进行训练迭代, 共n_iters次 
    for iter in range(1, n_iters + 1):
        # 通过randomTrainingExample函数随机获取一组训练数据和对应的类别
        category, line, category_tensor, line_tensor = randomTrainingExample()
        # 将训练数据和对应类别的张量表示传入到train函数中
        output, loss = train_type_fn(category_tensor, line_tensor)      
        # 计算制图间隔中的总损失
        current_loss += loss   
        # 如果迭代数能够整除打印间隔
        if iter % print_every == 0:
            # 取该迭代步上的output通过categoryFromOutput函数获得对应的类别和类别索引
            guess, guess_i = categoryFromOutput(output)
            # 然后和真实的类别category做比较, 如果相同则打对号, 否则打叉号.
            correct = '✓' if guess == category else '✗ (%s)' % category
            # 打印迭代步, 迭代步百分比, 当前训练耗时, 损失, 该步预测的名字, 以及是否正确                                
            print('%d %d%% (%s) %.4f %s / %s %s' % (iter, iter / n_iters * 100, timeSince(start), loss, line, guess, correct))

        # 如果迭代数能够整除制图间隔
        if iter % plot_every == 0:
            # 将保存该间隔中的平均损失到all_losses列表中
            all_losses.append(current_loss / plot_every)
            # 间隔损失重置为0
            current_loss = 0
    # 返回对应的总损失列表和训练耗时
    return all_losses, int(time.time() - start)

9 开始训练RNN, LSTM, GRU模型并制作对比图

# 调用train函数, 分别进行RNN, LSTM, GRU模型的训练
# 并返回各自的全部损失, 以及训练耗时用于制图
all_losses1, period1 = train(trainRNN)
all_losses2, period2 = train(trainLSTM)
all_losses3, period3 = train(trainGRU)

# 绘制损失对比曲线, 训练耗时对比柱张图
# 创建画布0
plt.figure(0)
# 绘制损失对比曲线
plt.plot(all_losses1, label="RNN")
plt.plot(all_losses2, color="red", label="LSTM")
plt.plot(all_losses3, color="orange", label="GRU") 
plt.legend(loc='upper left') 


# 创建画布1
plt.figure(1)
x_data=["RNN", "LSTM", "GRU"] 
y_data = [period1, period2, period3]
# 绘制训练耗时对比柱状图
plt.bar(range(len(x_data)), y_data, tick_label=x_data)

10 日志输出

模型训练的耗时长短代表模型的计算复杂度, 由图可知, 也正如我们之前的理论分析, 传统RNN复杂度最低, 耗时几乎只是后两者的一半, 然后是GRU, 最后是复杂度最高的LSTM

训练次数还是有点少，如果多的话效果更加明显

模型训练的损失降低快慢代表模型收敛程度。由图可知, 传统RNN的模型收敛情况最好, 然后是GRU, 最后是LSTM, 这是因为: 我们当前处理的文本数据是人名, 他们的长度有限, 且长距离字母间基本无特定关联, 因此无法发挥改进模型LSTM和GRU的长距离捕捉语义关联的优势. 所以在以后的模型选用时, 要通过对任务的分析以及实验对比, 选择最适合的模型。

构建评估函数并进行预测

1 构建RNN评估函数

def evaluateRNN(line_tensor):
    """评估函数, 和训练函数逻辑相同, 参数是line_tensor代表名字的张量表示"""
    # 初始化隐层张量
    hidden = rnn.initHidden()
    # 将评估数据line_tensor的每个字符逐个传入rnn之中
    for i in range(line_tensor.size()[0]):
        output, hidden = rnn(line_tensor[i], hidden)
    # 获得输出结果
    return output.squeeze(0)

2 构建LSTM评估函数

def evaluateLSTM(line_tensor):
    # 初始化隐层张量和细胞状态张量
    hidden, c = lstm.initHiddenAndC()
    # 将评估数据line_tensor的每个字符逐个传入lstm之中
    for i in range(line_tensor.size()[0]):
        output, hidden, c = lstm(line_tensor[i], hidden, c)
    return output.squeeze(0)

3 构建GRU评估函数

def evaluateGRU(line_tensor):
    hidden = gru.initHidden()
    # 将评估数据line_tensor的每个字符逐个传入gru之中
    for i in range(line_tensor.size()[0]):
        output, hidden = gru(line_tensor[i], hidden)
    return output.squeeze(0)

4 构建预测函数

def predict(input_line, evaluate, n_predictions=3):
    """预测函数, 输入参数input_line代表输入的名字, 
       n_predictions代表需要取最有可能的top个"""
    # 首先打印输入
    print('\n> %s' % input_line)

    # 以下操作的相关张量不进行求梯度
    with torch.no_grad():
        # 使输入的名字转换为张量表示, 并使用evaluate函数获得预测输出
        output = evaluate(lineToTensor(input_line))

        # 从预测的输出中取前3个最大的值及其索引
        topv, topi = output.topk(n_predictions, 1, True)
        # 创建盛装结果的列表
        predictions = []
        # 遍历n_predictions
        for i in range(n_predictions):
            # 从topv中取出的output值
            value = topv[0][i].item()
            # 取出索引并找到对应的类别
            category_index = topi[0][i].item()
            # 打印ouput的值, 和对应的类别
            print('(%.2f) %s' % (value, all_categories[category_index]))
            # 将结果装进predictions中
            predictions.append([value, all_categories[category_index]])

小结

学习了关于人名分类问题: 以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗, 限制手机号码位数等等。

人名分类器的实现可分为以下五个步骤:

第一步: 导入必备的工具包.

第二步: 对data文件中的数据进行处理，满足训练要求.

第三步: 构建RNN模型(包括传统RNN, LSTM以及GRU).

第四步: 构建训练函数并进行训练.

第五步: 构建评估函数并进行预测.

第一步: 导入必备的工具包

python版本使用3.6.x, pytorch版本使用1.3.1

第二步: 对data文件中的数据进行处理，满足训练要求

定义数据集路径并获取常用的字符数量.

字符规范化之unicode转Ascii函数unicodeToAscii.

构建一个从持久化文件中读取内容到内存的函数readLines.

构建人名类别（所属的语言）列表与人名对应关系字典

将人名转化为对应onehot张量表示函数lineToTensor

第三步: 构建RNN模型

构建传统的RNN模型的类class RNN.

构建LSTM模型的类class LSTM.

构建GRU模型的类class GRU.

第四步: 构建训练函数并进行训练

从输出结果中获得指定类别函数categoryFromOutput.

随机生成训练数据函数randomTrainingExample.

构建传统RNN训练函数trainRNN.

构建LSTM训练函数trainLSTM.

构建GRU训练函数trainGRU.

构建时间计算函数timeSince.

以及该国家或地区的国旗, 限制手机号码位数等等。

人名分类器的实现可分为以下五个步骤:

第一步: 导入必备的工具包.

第二步: 对data文件中的数据进行处理，满足训练要求.

第三步: 构建RNN模型(包括传统RNN, LSTM以及GRU).

第四步: 构建训练函数并进行训练.

第五步: 构建评估函数并进行预测.

第一步: 导入必备的工具包

python版本使用3.6.x, pytorch版本使用1.3.1

第二步: 对data文件中的数据进行处理，满足训练要求

定义数据集路径并获取常用的字符数量.

字符规范化之unicode转Ascii函数unicodeToAscii.

构建一个从持久化文件中读取内容到内存的函数readLines.

构建人名类别（所属的语言）列表与人名对应关系字典

将人名转化为对应onehot张量表示函数lineToTensor

第三步: 构建RNN模型

构建传统的RNN模型的类class RNN.

构建LSTM模型的类class LSTM.

构建GRU模型的类class GRU.

第四步: 构建训练函数并进行训练

从输出结果中获得指定类别函数categoryFromOutput.

随机生成训练数据函数randomTrainingExample.

构建传统RNN训练函数trainRNN.

构建LSTM训练函数trainLSTM.

构建GRU训练函数trainGRU.

构建时间计算函数timeSince.

构建训练过程的日志打印函数train.得到损失对比曲线和训练耗时对比图

RNN、LSTM、GRU神经网络构建人名分类器（三）

7 构建时间计算函数

8 构建训练过程的日志打印函数

9 开始训练RNN, LSTM, GRU模型并制作对比图

10 日志输出

构建评估函数并进行预测

1 构建RNN评估函数

2 构建LSTM评估函数

3 构建GRU评估函数

4 构建预测函数

小结

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

RNN、LSTM、GRU神经网络构建人名分类器（三）

7 构建时间计算函数

8 构建训练过程的日志打印函数

9 开始训练RNN, LSTM, GRU模型并制作对比图

10 日志输出

构建评估函数并进行预测

1 构建RNN评估函数

2 构建LSTM评估函数

3 构建GRU评估函数

4 构建预测函数

小结

热门文章

最新文章

相关电子书