CNN、GRNN、CLSTM、TD-LSTM/TC-LSTM…你都掌握了吗?一文总结情感分析必备经典模型(2)

简介: CNN、GRNN、CLSTM、TD-LSTM/TC-LSTM…你都掌握了吗?一文总结情感分析必备经典模型

3、  CLSTM

神经网络在情感分类任务中取得了巨大的成功,因为它们能够减轻特征工程的任务压力。然而,由于存储单元的缺陷,如何在递归架构下对文档级情感分类的长文本进行建模仍有待研究。为了解决这个问题,本文提出了一个缓存的长短期记忆神经网络(Cached Long Short-Term Memory Neural Networks ,CLSTM)来捕捉长文本中的整体语义信息。CLSTM引入了一个缓存机制,它将内存分为具有不同遗忘率的几组,从而使网络能够在一个循环单元中更好地保持情感信息。

由于标准的LSTM不可避免地会丢失有价值的特征,本文提出了一种缓存的长短期记忆神经网络(cached long short-term memory neural networks,CLSTM),通过引入缓存机制,在较长的步骤中捕捉信息。此外,为了更好地控制和平衡历史信息和传入信息,采用了LSTM的一个特殊变体,耦合输入和遗忘门LSTM(Coupled Input and Forget Gate LSTM,CIFG-LSTM)。在CIFG-LSTM中,输入门和遗忘门被耦合为一个统一的门,即i(t)=1-f(t)。用f(t)来表示耦合门:
CLSTM旨在通过缓存机制捕捉长距离信息,该机制将记忆分为若干组,不同的遗忘率被视为过滤器,分配给不同的组。不同的组别通过 squashing 遗忘率的尺度来捕捉不同尺度的依赖性。遗忘率高的组是短期记忆,而遗忘率低的组是长期记忆。特别是,把存储单元分为K组{G_1, - -, G_K}。每组包括一个内部存储器c_k、输出门o_k和遗忘率r_k。不同组的遗忘率被压制在不同的范围内。LSTM修改如下:



为了更好地区分每组的不同作用,其遗忘率被squash到一个明显的区域。squash函数ψ_k(z)可以被形式化为:


图5 模型架构。不同风格的箭头表示不同的遗忘率。将带有星星的组送入全连接层进行softmax分类。下面是一个B-CLSTM的实例,文本长度等于4,记忆组的数量是3

双向CLSTM(B-LSTM)模型利用了额外的后向信息,从而增强了记忆能力。作者继续向CLSTM上引入双向机制,文本中的单词能够从上下文中获得信息。形式上,第k组的前向LSTM的输出为:



第k组的后向LSTM的输出为:



因此,将给定文本w_1:T中的每个词wt编码为(h_k()^t):



至此,用于文档级情感分类的特定任务输出层具有了对长文本进行建模的能力,可以使用本文提出的模型来分析文档中的情感。

项目 SOTA!平台项目详情页

CLSTM

前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/clstm


二、Aspect level

4、 TD-LSTM/TC-LSTM

本文首先提出了一种基本的长短期记忆(LSTM)方法,建模一个句子的语义表示,而不考虑被评价的目标词。然后,考虑目标词对LSTM进行扩展,得到目标依赖的长短期记忆模型(TD-LSTM)。TD-LSTM是对目标词与其上下文词的相关度进行建模,并选择上下文的相关部分来推断指向目标词的情感极性。该模型采用标准的反向传播方法进行端到端的训练,其损失函数为监督情感分类的交叉熵误差。最后,对目标连接的TD-LSTM进行了扩展,其中,合并目标与上下文词的语义关联。


图6 基本长短期记忆(LSTM)方法及其用于目标相关情感分类的目标相关扩展TD-LSTM。其中,w代表长度为n的句子中的词,{w_l+1, w_l+2, …, w_r-1} 为目标单词,{w_1, w_2, …, w_l}是前面的上下文单词,{w_r, …, w_n−1, w_n}是上下文词


如图6,TD-LSTM是以目标词为分界点利用两个LSTM,从目标词的左右向目标词方向进行上下文信息融合。具体来说,使用两个LSTM神经网络,一个左LSTM L和一个右LSTM R,分别对前面和后面的上下文进行建模。LSTM L的输入是前面的上下文加上目标字符串,LSTM R的输入是后面的上下文加上目标字符串。从左到右运行lstm l,从右到左运行lstm r,因为作者认为将目标字符串作为最后一个单元可以更好地利用目标字符串的语义。然后,将LSTM L和 LSTM R的最后一个隐藏向量连接到一个softmax层,对情感极性标签进行分类。还可以尝试对LSTM L和LSTM R的最后隐藏向量进行平均或求和。

TD-LSTM相较于LSTM可以更好的结合上下文的信息,但是人在阅读时除了会考虑到上下文信息,还会考虑到语境,就是目标词与上下文之间的交互关系。由此本文提出了TC-LSTM,TC-LSTM就是简单粗暴的在输入上concat一个目标词的向量表示。该组件在构成句子时明确地利用目标词与上下文词之间的连接。目标字符串t,将目标t表示为{w_l+1, w_l+2…, W_r−1},因为目标可以是可变长度的单词序列,通过对t所包含单词的向量进行平均,得到目标向量v_target。TC-LSTM与TD-LSTM模型的区别是在TC-LSTM中,每个位置的输入是单词嵌入和目标向量v_target的连接。TC-LSTM可以更好地利用目标词和上下文词之间的联系来构建句子的表征。


图7 目标连接长短期记忆(TC-LSTM)模型用于目标依赖的情感分类,其中w代表长度为n的句子中的词,{w_l+1, w_l+2, ..., w_r-1}是目标词,v_target是目标表示,{w_1, w_2, ..., w_l}是前面的上下文词,{w_r, ..., w_n-1, w_n}是后面的上下文词

最后,模型训练交叉熵损失函数:



其中,S为训练数据,C为情感类别数,s为一句话,Pc(s)是通过softmax层给出的预测s为C类的概率,(P_c)^g (s)表示C类是否是正确的情感类别,其值为1或0。通过反向传播对损失函数对所有参数求导,并用随机梯度下降法更新参数。

项目 SOTA!平台项目详情页

TD-LSTM

前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/td-lstm-2


相关文章
|
3月前
|
机器学习/深度学习 API 异构计算
7.1.3.2、使用飞桨实现基于LSTM的情感分析模型的网络定义
该文章详细介绍了如何使用飞桨框架实现基于LSTM的情感分析模型,包括网络定义、模型训练、评估和预测的完整流程,并提供了相应的代码实现。
|
3月前
|
机器学习/深度学习 自然语言处理 算法
7.1.3、使用飞桨实现基于LSTM的情感分析模型
该文章介绍了如何使用飞桨(PaddlePaddle)实现基于长短时记忆网络(LSTM)的情感分析模型,包括数据处理、网络定义、模型训练、评估和预测的详细步骤。
|
22天前
|
机器学习/深度学习 编解码 算法
【深度学习】经典的深度学习模型-01 开山之作:CNN卷积神经网络LeNet-5
【深度学习】经典的深度学习模型-01 开山之作:CNN卷积神经网络LeNet-5
31 0
|
2月前
|
机器学习/深度学习
ACM MM24:复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它
【9月更文挑战第23天】复旦大学研究团队提出了ReToMe-VA,一种基于扩散模型的视频非限制性对抗攻击框架,通过时间步长对抗性潜在优化(TALO)与递归令牌合并(ReToMe)策略,实现了高转移性且难以察觉的对抗性视频生成。TALO优化去噪步骤扰动,提升空间难以察觉性及计算效率;ReToMe则确保时间一致性,增强帧间交互。实验表明,ReToMe-VA在攻击转移性上超越现有方法,但面临计算成本高、实时应用受限及隐私安全等挑战。[论文链接](http://arxiv.org/abs/2408.05479)
70 3
|
3月前
|
机器学习/深度学习
CNN模型验证和CNN模型保存
【8月更文挑战第10天】CNN模型验证和CNN模型保存。
63 27
|
3月前
|
机器学习/深度学习
加载CNN保存模型
【8月更文挑战第10天】加载CNN保存模型。
43 12
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
算法金 | 秒懂 AI - 深度学习五大模型:RNN、CNN、Transformer、BERT、GPT 简介
**RNN**,1986年提出,用于序列数据,如语言模型和语音识别,但原始模型有梯度消失问题。**LSTM**和**GRU**通过门控解决了此问题。 **CNN**,1989年引入,擅长图像处理,卷积层和池化层提取特征,经典应用包括图像分类和物体检测,如LeNet-5。 **Transformer**,2017年由Google推出,自注意力机制实现并行计算,优化了NLP效率,如机器翻译。 **BERT**,2018年Google的双向预训练模型,通过掩码语言模型改进上下文理解,适用于问答和文本分类。
153 9
|
3月前
|
机器学习/深度学习 算法 数据可视化
基于Python flask的豆瓣电影数据分析可视化系统,功能多,LSTM算法+注意力机制实现情感分析,准确率高达85%
本文介绍了一个基于Python Flask框架的豆瓣电影数据分析可视化系统,该系统集成了LSTM算法和注意力机制进行情感分析,准确率高达85%,提供了多样化的数据分析和情感识别功能,旨在帮助用户深入理解电影市场和观众喜好。
128 0
|
15天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化CNN-LSTM网络的数据分类识别算法matlab仿真
本项目展示了基于贝叶斯优化(BO)的CNN-LSTM网络在数据分类中的应用。通过MATLAB 2022a实现,优化前后效果对比明显。核心代码附带中文注释和操作视频,涵盖BO、CNN、LSTM理论,特别是BO优化CNN-LSTM网络的batchsize和学习率,显著提升模型性能。
|
3月前
|
机器学习/深度学习
【机器学习】面试题:LSTM长短期记忆网络的理解?LSTM是怎么解决梯度消失的问题的?还有哪些其它的解决梯度消失或梯度爆炸的方法?
长短时记忆网络(LSTM)的基本概念、解决梯度消失问题的机制,以及介绍了包括梯度裁剪、改变激活函数、残差结构和Batch Normalization在内的其他方法来解决梯度消失或梯度爆炸问题。
106 2

热门文章

最新文章

下一篇
无影云桌面