CNN、GRNN、CLSTM、TD-LSTM/TC-LSTM…你都掌握了吗?一文总结情感分析必备经典模型(2)

简介: CNN、GRNN、CLSTM、TD-LSTM/TC-LSTM…你都掌握了吗?一文总结情感分析必备经典模型

3、  CLSTM

神经网络在情感分类任务中取得了巨大的成功,因为它们能够减轻特征工程的任务压力。然而,由于存储单元的缺陷,如何在递归架构下对文档级情感分类的长文本进行建模仍有待研究。为了解决这个问题,本文提出了一个缓存的长短期记忆神经网络(Cached Long Short-Term Memory Neural Networks ,CLSTM)来捕捉长文本中的整体语义信息。CLSTM引入了一个缓存机制,它将内存分为具有不同遗忘率的几组,从而使网络能够在一个循环单元中更好地保持情感信息。

由于标准的LSTM不可避免地会丢失有价值的特征,本文提出了一种缓存的长短期记忆神经网络(cached long short-term memory neural networks,CLSTM),通过引入缓存机制,在较长的步骤中捕捉信息。此外,为了更好地控制和平衡历史信息和传入信息,采用了LSTM的一个特殊变体,耦合输入和遗忘门LSTM(Coupled Input and Forget Gate LSTM,CIFG-LSTM)。在CIFG-LSTM中,输入门和遗忘门被耦合为一个统一的门,即i(t)=1-f(t)。用f(t)来表示耦合门:
CLSTM旨在通过缓存机制捕捉长距离信息,该机制将记忆分为若干组,不同的遗忘率被视为过滤器,分配给不同的组。不同的组别通过 squashing 遗忘率的尺度来捕捉不同尺度的依赖性。遗忘率高的组是短期记忆,而遗忘率低的组是长期记忆。特别是,把存储单元分为K组{G_1, - -, G_K}。每组包括一个内部存储器c_k、输出门o_k和遗忘率r_k。不同组的遗忘率被压制在不同的范围内。LSTM修改如下:



为了更好地区分每组的不同作用,其遗忘率被squash到一个明显的区域。squash函数ψ_k(z)可以被形式化为:


图5 模型架构。不同风格的箭头表示不同的遗忘率。将带有星星的组送入全连接层进行softmax分类。下面是一个B-CLSTM的实例,文本长度等于4,记忆组的数量是3

双向CLSTM(B-LSTM)模型利用了额外的后向信息,从而增强了记忆能力。作者继续向CLSTM上引入双向机制,文本中的单词能够从上下文中获得信息。形式上,第k组的前向LSTM的输出为:



第k组的后向LSTM的输出为:



因此,将给定文本w_1:T中的每个词wt编码为(h_k()^t):



至此,用于文档级情感分类的特定任务输出层具有了对长文本进行建模的能力,可以使用本文提出的模型来分析文档中的情感。

项目 SOTA!平台项目详情页

CLSTM

前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/clstm


二、Aspect level

4、 TD-LSTM/TC-LSTM

本文首先提出了一种基本的长短期记忆(LSTM)方法,建模一个句子的语义表示,而不考虑被评价的目标词。然后,考虑目标词对LSTM进行扩展,得到目标依赖的长短期记忆模型(TD-LSTM)。TD-LSTM是对目标词与其上下文词的相关度进行建模,并选择上下文的相关部分来推断指向目标词的情感极性。该模型采用标准的反向传播方法进行端到端的训练,其损失函数为监督情感分类的交叉熵误差。最后,对目标连接的TD-LSTM进行了扩展,其中,合并目标与上下文词的语义关联。


图6 基本长短期记忆(LSTM)方法及其用于目标相关情感分类的目标相关扩展TD-LSTM。其中,w代表长度为n的句子中的词,{w_l+1, w_l+2, …, w_r-1} 为目标单词,{w_1, w_2, …, w_l}是前面的上下文单词,{w_r, …, w_n−1, w_n}是上下文词


如图6,TD-LSTM是以目标词为分界点利用两个LSTM,从目标词的左右向目标词方向进行上下文信息融合。具体来说,使用两个LSTM神经网络,一个左LSTM L和一个右LSTM R,分别对前面和后面的上下文进行建模。LSTM L的输入是前面的上下文加上目标字符串,LSTM R的输入是后面的上下文加上目标字符串。从左到右运行lstm l,从右到左运行lstm r,因为作者认为将目标字符串作为最后一个单元可以更好地利用目标字符串的语义。然后,将LSTM L和 LSTM R的最后一个隐藏向量连接到一个softmax层,对情感极性标签进行分类。还可以尝试对LSTM L和LSTM R的最后隐藏向量进行平均或求和。

TD-LSTM相较于LSTM可以更好的结合上下文的信息,但是人在阅读时除了会考虑到上下文信息,还会考虑到语境,就是目标词与上下文之间的交互关系。由此本文提出了TC-LSTM,TC-LSTM就是简单粗暴的在输入上concat一个目标词的向量表示。该组件在构成句子时明确地利用目标词与上下文词之间的连接。目标字符串t,将目标t表示为{w_l+1, w_l+2…, W_r−1},因为目标可以是可变长度的单词序列,通过对t所包含单词的向量进行平均,得到目标向量v_target。TC-LSTM与TD-LSTM模型的区别是在TC-LSTM中,每个位置的输入是单词嵌入和目标向量v_target的连接。TC-LSTM可以更好地利用目标词和上下文词之间的联系来构建句子的表征。


图7 目标连接长短期记忆(TC-LSTM)模型用于目标依赖的情感分类,其中w代表长度为n的句子中的词,{w_l+1, w_l+2, ..., w_r-1}是目标词,v_target是目标表示,{w_1, w_2, ..., w_l}是前面的上下文词,{w_r, ..., w_n-1, w_n}是后面的上下文词

最后,模型训练交叉熵损失函数:



其中,S为训练数据,C为情感类别数,s为一句话,Pc(s)是通过softmax层给出的预测s为C类的概率,(P_c)^g (s)表示C类是否是正确的情感类别,其值为1或0。通过反向传播对损失函数对所有参数求导,并用随机梯度下降法更新参数。

项目 SOTA!平台项目详情页

TD-LSTM

前往 SOTA!模型平台获取实现资源:https://sota.jiqizhixin.com/project/td-lstm-2


相关文章
|
17天前
|
机器学习/深度学习 存储 人工智能
【AI系统】轻量级CNN模型综述
本文介绍了几种常见的小型化CNN模型,包括SqueezeNet、ShuffleNet、MobileNet等系列。这些模型通过减少参数量和计算量,实现在有限资源下高效运行,适用于存储和算力受限的场景。文章详细解释了各模型的核心技术和优化策略,如Fire Module、Channel Shuffle、Depthwise Separable Convolutions等,旨在帮助读者理解和应用这些高效的小型化CNN模型。
36 3
|
4月前
|
机器学习/深度学习 API 异构计算
7.1.3.2、使用飞桨实现基于LSTM的情感分析模型的网络定义
该文章详细介绍了如何使用飞桨框架实现基于LSTM的情感分析模型,包括网络定义、模型训练、评估和预测的完整流程,并提供了相应的代码实现。
|
4月前
|
机器学习/深度学习 自然语言处理 算法
7.1.3、使用飞桨实现基于LSTM的情感分析模型
该文章介绍了如何使用飞桨(PaddlePaddle)实现基于长短时记忆网络(LSTM)的情感分析模型,包括数据处理、网络定义、模型训练、评估和预测的详细步骤。
|
2月前
|
机器学习/深度学习 编解码 算法
【深度学习】经典的深度学习模型-01 开山之作:CNN卷积神经网络LeNet-5
【深度学习】经典的深度学习模型-01 开山之作:CNN卷积神经网络LeNet-5
52 0
|
3月前
|
机器学习/深度学习
ACM MM24:复旦提出首个基于扩散模型的视频非限制性对抗攻击框架,主流CNN和ViT架构都防不住它
【9月更文挑战第23天】复旦大学研究团队提出了ReToMe-VA,一种基于扩散模型的视频非限制性对抗攻击框架,通过时间步长对抗性潜在优化(TALO)与递归令牌合并(ReToMe)策略,实现了高转移性且难以察觉的对抗性视频生成。TALO优化去噪步骤扰动,提升空间难以察觉性及计算效率;ReToMe则确保时间一致性,增强帧间交互。实验表明,ReToMe-VA在攻击转移性上超越现有方法,但面临计算成本高、实时应用受限及隐私安全等挑战。[论文链接](http://arxiv.org/abs/2408.05479)
84 3
|
4月前
|
机器学习/深度学习
CNN模型验证和CNN模型保存
【8月更文挑战第10天】CNN模型验证和CNN模型保存。
69 27
|
4月前
|
机器学习/深度学习
加载CNN保存模型
【8月更文挑战第10天】加载CNN保存模型。
47 12
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
深入理解深度学习中的卷积神经网络(CNN)##
在当今的人工智能领域,深度学习已成为推动技术革新的核心力量之一。其中,卷积神经网络(CNN)作为深度学习的一个重要分支,因其在图像和视频处理方面的卓越性能而备受关注。本文旨在深入探讨CNN的基本原理、结构及其在实际应用中的表现,为读者提供一个全面了解CNN的窗口。 ##
|
28天前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的卷积神经网络(CNN): 从理论到实践
本文将深入浅出地介绍卷积神经网络(CNN)的工作原理,并带领读者通过一个简单的图像分类项目,实现从理论到代码的转变。我们将探索CNN如何识别和处理图像数据,并通过实例展示如何训练一个有效的CNN模型。无论你是深度学习领域的新手还是希望扩展你的技术栈,这篇文章都将为你提供宝贵的知识和技能。
92 7
|
24天前
|
机器学习/深度学习 自然语言处理 算法
深入理解深度学习中的卷积神经网络(CNN)
深入理解深度学习中的卷积神经网络(CNN)
33 1

热门文章

最新文章

相关实验场景

更多