·阅读摘要:
提出基于3层LSTM和CNN网络结构的ResLCNN深度学习模型。该模型使用了3层LSTM获取文本的长距离依赖,用CNN通过卷积获取句子局部特征,同时使用了残差模型,在第1层LSTM层与CNN层之间加入恒等映射,构建残差层,缓解深层模型梯度消失问题。
·参考文献:
[1] 短文本分类的ResLCNN模型
参考论文信息
论文名称:《短文本分类的ResLCNN模型》
发布期刊:《软件学报》
期刊信息:CSCD
本文是2017年提出的,模型较为简单,年份也比较老,感觉没太大的参考价值了。
模型结构
模型结构如下:
1. 长短时记忆网络
长短时记忆网络是为解决循环神经网络长距离传输中的梯度消失和梯度爆炸问题而提出来的一种改进模型。LSTM的每个单元有 4个神经网络层,分别是输入门、遗忘门 、输出门、记忆单元,它们被以一种特别的方式结合起来,得出隐藏层输出
2. 卷积神经网络
通过卷积层对单词进行卷积运算,将低级特征组合形成更高级的特征表示,可以得到更高级的特征信息,这可以直观地理解为从单词到词组的特征学习,比如学习词组 neural network的含义。然后通过池化层(max-over-time pooling),针对卷积得到的若干特征值,保留最有价值的特征。
3. ResLCNN模型
ResLCNN模型以Word2vec和GloVe词向量构成的句子矩阵作为输入,第1层LSTM根据隐藏层和记忆单元获取文本时序特征,随后残差层包含两层 LSTM,接着 CNN层使用多个卷积核进行卷积运算,并提取最优卷积特征通过softmax分类。ResLCNN模型为了获取更复杂的特征,将3层LSTM结合CNN构建深层网络,同时在第1层LSTM输出与CNN层输入之间添加恒等映射,构建残差层缓解训练模型阶段低网络层梯度消失问题。