3、 CLSTM
神经网络在情感分类任务中取得了巨大的成功,因为它们能够减轻特征工程的任务压力。然而,由于存储单元的缺陷,如何在递归架构下对文档级情感分类的长文本进行建模仍有待研究。为了解决这个问题,本文提出了一个缓存的长短期记忆神经网络(Cached Long Short-Term Memory Neural Networks ,CLSTM)来捕捉长文本中的整体语义信息。CLSTM引入了一个缓存机制,它将内存分为具有不同遗忘率的几组,从而使网络能够在一个循环单元中更好地保持情感信息。
由于标准的LSTM不可避免地会丢失有价值的特征,本文提出了一种缓存的长短期记忆神经网络(cached long short-term memory neural networks,CLSTM),通过引入缓存机制,在较长的步骤中捕捉信息。此外,为了更好地控制和平衡历史信息和传入信息,采用了LSTM的一个特殊变体,耦合输入和遗忘门LSTM(Coupled Input and Forget Gate LSTM,CIFG-LSTM)。在CIFG-LSTM中,输入门和遗忘门被耦合为一个统一的门,即i(t)=1-f(t)。用f(t)来表示耦合门:
CLSTM旨在通过缓存机制捕捉长距离信息,该机制将记忆分为若干组,不同的遗忘率被视为过滤器,分配给不同的组。不同的组别通过 squashing 遗忘率的尺度来捕捉不同尺度的依赖性。遗忘率高的组是短期记忆,而遗忘率低的组是长期记忆。特别是,把存储单元分为K组{G_1, - -, G_K}。每组包括一个内部存储器c_k、输出门o_k和遗忘率r_k。不同组的遗忘率被压制在不同的范围内。LSTM修改如下:
为了更好地区分每组的不同作用,其遗忘率被squash到一个明显的区域。squash函数ψ_k(z)可以被形式化为:
图5 模型架构。不同风格的箭头表示不同的遗忘率。将带有星星的组送入全连接层进行softmax分类。下面是一个B-CLSTM的实例,文本长度等于4,记忆组的数量是3
双向CLSTM(B-LSTM)模型利用了额外的后向信息,从而增强了记忆能力。作者继续向CLSTM上引入双向机制,文本中的单词能够从上下文中获得信息。形式上,第k组的前向LSTM的输出为:
第k组的后向LSTM的输出为:
因此,将给定文本w_1:T中的每个词wt编码为(h_k()^t):
至此,用于文档级情感分类的特定任务输出层具有了对长文本进行建模的能力,可以使用本文提出的模型来分析文档中的情感。
项目 | SOTA!平台项目详情页 |
CLSTM |
前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/clstm |
二、Aspect level
4、 TD-LSTM/TC-LSTM
本文首先提出了一种基本的长短期记忆(LSTM)方法,建模一个句子的语义表示,而不考虑被评价的目标词。然后,考虑目标词对LSTM进行扩展,得到目标依赖的长短期记忆模型(TD-LSTM)。TD-LSTM是对目标词与其上下文词的相关度进行建模,并选择上下文的相关部分来推断指向目标词的情感极性。该模型采用标准的反向传播方法进行端到端的训练,其损失函数为监督情感分类的交叉熵误差。最后,对目标连接的TD-LSTM进行了扩展,其中,合并目标与上下文词的语义关联。
图6 基本长短期记忆(LSTM)方法及其用于目标相关情感分类的目标相关扩展TD-LSTM。其中,w代表长度为n的句子中的词,{w_l+1, w_l+2, …, w_r-1} 为目标单词,{w_1, w_2, …, w_l}是前面的上下文单词,{w_r, …, w_n−1, w_n}是上下文词
如图6,TD-LSTM是以目标词为分界点利用两个LSTM,从目标词的左右向目标词方向进行上下文信息融合。具体来说,使用两个LSTM神经网络,一个左LSTM L和一个右LSTM R,分别对前面和后面的上下文进行建模。LSTM L的输入是前面的上下文加上目标字符串,LSTM R的输入是后面的上下文加上目标字符串。从左到右运行lstm l,从右到左运行lstm r,因为作者认为将目标字符串作为最后一个单元可以更好地利用目标字符串的语义。然后,将LSTM L和 LSTM R的最后一个隐藏向量连接到一个softmax层,对情感极性标签进行分类。还可以尝试对LSTM L和LSTM R的最后隐藏向量进行平均或求和。
TD-LSTM相较于LSTM可以更好的结合上下文的信息,但是人在阅读时除了会考虑到上下文信息,还会考虑到语境,就是目标词与上下文之间的交互关系。由此本文提出了TC-LSTM,TC-LSTM就是简单粗暴的在输入上concat一个目标词的向量表示。该组件在构成句子时明确地利用目标词与上下文词之间的连接。目标字符串t,将目标t表示为{w_l+1, w_l+2…, W_r−1},因为目标可以是可变长度的单词序列,通过对t所包含单词的向量进行平均,得到目标向量v_target。TC-LSTM与TD-LSTM模型的区别是在TC-LSTM中,每个位置的输入是单词嵌入和目标向量v_target的连接。TC-LSTM可以更好地利用目标词和上下文词之间的联系来构建句子的表征。
图7 目标连接长短期记忆(TC-LSTM)模型用于目标依赖的情感分类,其中w代表长度为n的句子中的词,{w_l+1, w_l+2, ..., w_r-1}是目标词,v_target是目标表示,{w_1, w_2, ..., w_l}是前面的上下文词,{w_r, ..., w_n-1, w_n}是后面的上下文词
最后,模型训练交叉熵损失函数:
其中,S为训练数据,C为情感类别数,s为一句话,Pc(s)是通过softmax层给出的预测s为C类的概率,(P_c)^g (s)表示C类是否是正确的情感类别,其值为1或0。通过反向传播对损失函数对所有参数求导,并用随机梯度下降法更新参数。
项目 | SOTA!平台项目详情页 |
TD-LSTM |
前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/td-lstm-2 |