Char RNN原理介绍以及文本生成实践

简介: Char-RNN,字符级循环神经网络,出自于Andrej Karpathy写的The Unreasonable Effectiveness of Recurrent Neural Networks。众所周知,RNN非常擅长处理序列问题。序列数据前后有很强的关联性,而RNN通过每个单元权重与偏置的共享以及循环计算(前面处理过的信息会被利用处理后续信息)来体现。Char-RNN模型是从字符的维度上,让机器生成文本,即通过已经观测到的字符出发,预测下一个字符出现的概率,也就是序列数据的推测。现在网上介绍的用深度学习写歌、写诗、写小说的大多都是基于这个方法。

1 简介


Char-RNN,字符级循环神经网络,出自于Andrej Karpathy写的The Unreasonable Effectiveness of Recurrent Neural Networks。众所周知,RNN非常擅长处理序列问题。序列数据前后有很强的关联性,而RNN通过每个单元权重与偏置的共享以及循环计算(前面处理过的信息会被利用处理后续信息)来体现。Char-RNN模型是从字符的维度上,让机器生成文本,即通过已经观测到的字符出发,预测下一个字符出现的概率,也就是序列数据的推测。现在网上介绍的用深度学习写歌、写诗、写小说的大多都是基于这个方法。

在基本的RNN单元中,只有一个隐藏状态,对于长距离的记忆效果很差(序列开始的信息在后期保留很少),而且存在梯度消失的问题,因此诞生了许多变体,如LSTM、GRU等。本文介绍的Char-RNN就是选用LSTM作为基本模型。


2 Char RNN 原理


56.png

Char RNN 原理


上图展示了Char-RNN的原理。以要让模型学习写出“hello”为例,Char-RNN的输入输出层都是以字符为单位。输入“h”,应该输出“e”;输入“e”,则应该输出后续的“l”。输入层我们可以用只有一个元素为1的向量来编码不同的字符,例如,h被编码为“1000”、“e”被编码为“0100”,而“l”被编码为“0010”。使用RNN的学习目标是,可以让生成的下一个字符尽量与训练样本里的目标输出一致。在图一的例子中,根据前两个字符产生的状态和第三个输入“l”预测出的下一个字符的向量为<0.1, 0.5, 1.9, -1.1>,最大的一维是第三维,对应的字符则为“0010”,正好是“l”。这就是一个正确的预测。但从第一个“h”得到的输出向量是第四维最大,对应的并不是“e”,这样就产生代价。学习的过程就是不断降低这个代价。学习到的模型,对任何输入字符可以很好地不断预测下一个字符,如此一来就能生成句子或段落。


3 实践


下面是一个利用Char RNN实现写诗的应用,代码来自来自原先比较火的项目:https://github.com/jinfagang/tensorflow_poems,然后自己将其做成WEB应用,凑着学习了下如何使用tensorflow实现char rnn


def char_rnn(model,input_data,output_data,vocab_size,rnn_size=128,num_layers=2,batch_size=64,
             learning_rate=0.01):
    """
    :param model: rnn单元的类型 rnn, lstm gru
    :param input_data: 输入数据
    :param output_data: 输出数据
    :param vocab_size: 词汇大小
    :param rnn_size:
    :param num_layers:
    :param batch_size:
    :param learning_rate:学习率
    :return:
    """
    end_points = {}
    if model=='rnn':
        cell_fun=tf.contrib.rnn.BasicRNNCell
    elif model=='gru':
        cell_fun=tf.contrib.rnn.GRUCell
    elif model=='lstm':
        cell_fun=tf.contrib.rnn.BasicLSTMCell
    cell = cell_fun(rnn_size, state_is_tuple=True)
    cell = tf.contrib.rnn.MultiRNNCell([cell] * num_layers, state_is_tuple=True)
    if output_data is not None:
        initial_state = cell.zero_state(batch_size, tf.float32)
    else:
        initial_state = cell.zero_state(1, tf.float32)
    with tf.device("/cpu:0"):
        embedding=tf.get_variable('embedding',initializer=tf.random_uniform(
            [vocab_size+1,rnn_size],-1.0,1.0))
        inputs=tf.nn.embedding_lookup(embedding,input_data)
    # [batch_size, ?, rnn_size] = [64, ?, 128]
    outputs, last_state = tf.nn.dynamic_rnn(cell, inputs, initial_state=initial_state)
    output = tf.reshape(outputs, [-1, rnn_size])
    # logit计算
    weights = tf.Variable(tf.truncated_normal([rnn_size, vocab_size + 1]))
    bias = tf.Variable(tf.zeros(shape=[vocab_size + 1]))
    logits = tf.nn.bias_add(tf.matmul(output, weights), bias=bias)
    # [?, vocab_size+1]
    if output_data is not None:
        # 独热编码
        labels = tf.one_hot(tf.reshape(output_data, [-1]), depth=vocab_size + 1)
        # [?, vocab_size+1]
        loss = tf.nn.softmax_cross_entropy_with_logits(labels=labels, logits=logits)
        # [?, vocab_size+1]
        total_loss = tf.reduce_mean(loss)
        train_op = tf.train.AdamOptimizer(learning_rate).minimize(total_loss)
        end_points['initial_state'] = initial_state
        end_points['output'] = output
        end_points['train_op'] = train_op
        end_points['total_loss'] = total_loss
        end_points['loss'] = loss
        end_points['last_state'] = last_state
    else:
        prediction = tf.nn.softmax(logits)
        end_points['initial_state'] = initial_state
        end_points['last_state'] = last_state
        end_points['prediction'] = prediction
    return end_points


效果如下:


57.png

效果 1


58.png

效果 2

项目地址:https://github.com/yanqiangmiffy/char-rnn-writer/


4 参考资料



相关文章
|
9月前
|
机器学习/深度学习 自然语言处理 TensorFlow
tensorflow循环神经网络(RNN)文本生成莎士比亚剧集
我们将使用 Andrej Karpathy 在《循环神经网络不合理的有效性》一文中提供的莎士比亚作品数据集。给定此数据中的一个字符序列 (“Shakespear”),训练一个模型以预测该序列的下一个字符(“e”)。通过重复调用该模型,可以生成更长的文本序列。
160 0
|
4月前
|
机器学习/深度学习 存储 自然语言处理
深度学习入门:循环神经网络------RNN概述,词嵌入层,循环网络层及案例实践!(万字详解!)
深度学习入门:循环神经网络------RNN概述,词嵌入层,循环网络层及案例实践!(万字详解!)
|
6月前
|
自然语言处理 C# 开发者
Uno Platform多语言开发秘籍大公开:轻松驾驭全球用户,一键切换语言,让你的应用成为跨文化交流的桥梁!
【8月更文挑战第31天】Uno Platform 是一个强大的开源框架,允许使用 C# 和 XAML 构建跨平台的原生移动、Web 和桌面应用程序。本文详细介绍如何通过 Uno Platform 创建多语言应用,包括准备工作、设置多语言资源、XAML 中引用资源、C# 中加载资源以及处理语言更改。通过简单的步骤和示例代码,帮助开发者轻松实现应用的国际化。
56 1
|
9月前
|
机器学习/深度学习 存储 自然语言处理
RNN:文本生成
RNN:文本生成
66 2
|
机器学习/深度学习 人工智能 自然语言处理
深度学习基础入门篇-序列模型[11]:循环神经网络 RNN、长短时记忆网络LSTM、门控循环单元GRU原理和应用详解
深度学习基础入门篇-序列模型[11]:循环神经网络 RNN、长短时记忆网络LSTM、门控循环单元GRU原理和应用详解
深度学习基础入门篇-序列模型[11]:循环神经网络 RNN、长短时记忆网络LSTM、门控循环单元GRU原理和应用详解
|
机器学习/深度学习 算法 计算机视觉
RNN原理总结
二阶段目标检测算法RNN原理总结
219 0
|
机器学习/深度学习 数据采集 自然语言处理
【深度学习实践(三)】RNN实现股票预测
【深度学习实践(三)】RNN实现股票预测
【深度学习实践(三)】RNN实现股票预测
|
机器学习/深度学习
《机器能理解上下文吗 RNN和LSTM神经网络的原理及应用》电子版地址
机器能理解上下文吗 RNN和LSTM神经网络的原理及应用
96 0
《机器能理解上下文吗 RNN和LSTM神经网络的原理及应用》电子版地址
|
机器学习/深度学习 文字识别 算法
DL之CNN:基于CNN-RNN(GRU,2)算法(keras+tensorflow)实现不定长文本识别
DL之CNN:基于CNN-RNN(GRU,2)算法(keras+tensorflow)实现不定长文本识别
|
机器学习/深度学习 算法框架/工具 算法
使用Keras进行深度学习:(五)RNN和双向RNN讲解及实践
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识! 笔者:Ray 介绍 通过对前面文章的学习,对深度神经网络(DNN)和卷积神经网络(CNN)有了一定的了解,也感受到了这些神经网络在各方面的应用都有不错的效果。
2913 0

热门文章

最新文章