【传知代码】图神经网络长对话理解-论文复现

简介: 在ACL2023会议上发表的论文《使用带有辅助跨模态交互的关系时态图神经网络进行对话理解》提出了一种新方法,名为correct,用于多模态情感识别。correct框架通过全局和局部上下文信息捕捉对话情感,同时有效处理跨模态交互和时间依赖。模型利用图神经网络结构,通过构建图来表示对话中的交互和时间关系,提高了情感预测的准确性。在IEMOCAP和CMU-MOSEI数据集上的实验结果证明了correct的有效性。源码和更多细节可在文章链接提供的附件中获取。
本文涉及的源码可从图神经网络长对话理解该文章下方附件获取

论文:Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction
原文链接
ACL2023

概述

情感识别在促进人类对话深度理解中占据举足轻重的地位。随着多模态数据的崛起,这一领域的研究因融合了语言、声音和面部表情等多元化信息而面临前所未有的挑战。为了应对这一挑战,我们提出了一种创新方法,该方法充分利用全局和局部上下文信息来预测对话中每句话的情感标签。

具体而言,全局表示通过建模会话级别的跨模态交互得以捕获,从而深入洞察整个对话的情感脉络。相比之下,局部语义的推断通常基于说话者的时间信息或情感波动,却往往忽视了话语层面的核心要素。此外,当前主流方法虽尝试在统一输入中融合多模态特征,但未能充分利用特定模态的独特表征。

为解决上述问题,我们研发了关系时态图神经网络(correct),这一先进的神经网络框架能够高效地捕捉会话级别的跨模态交互和话语级别的时间依赖。特别的是,该框架以模态特定的方式实现会话理解,为情感识别提供了更为精细和准确的视角。

通过大量实验,我们在IEMOCAP和CMU-MOSEI等权威数据集上取得了最新成果,充分验证了correct框架在多模态情感识别任务中的卓越性能。

原理介绍

关系时态图神经网络(correct)原理介绍

关系时态图神经网络(correct)是一种创新的神经网络框架,专为多模态情感识别任务设计。该框架通过整合全局和局部上下文信息,以及有效地捕捉会话级别的跨模态交互和话语级别的时间依赖,显著提升了情感识别的准确性。

  • 全局上下文信息的捕获

    correct框架首先通过建模会话级别的跨模态交互来捕获全局上下文信息。这意味着,它不仅考虑了对话中的每一句话,还考虑了这些话语如何与语言、声音和面部表情等多模态数据相互交织、共同影响情感表达。通过这种方法,correct能够深入理解整个对话的情感脉络,为后续的局部情感分析提供坚实的基础。

  • 局部语义的推断

    在捕获全局上下文信息的基础上,correct进一步关注局部语义的推断。与以往方法不同,correct不仅考虑说话者的时间信息和情感变化,还特别关注话语层面的重要因素。通过对话语级别的细致分析,correct能够更准确地捕捉每个句子中的情感细节,并推断出相应的情感标签。

  • 多模态特征的融合与利用

    correct框架的另一个关键优势在于其对多模态特征的融合与利用。与大多数现有方法不同,correct并没有简单地将多个模态的特征融合到一个统一的输入中,而是采用了模态特定的表示方式。这意味着,对于语言、声音和面部表情等不同模态的数据,correct能够分别进行学习和建模,从而更充分地利用每种模态的独特信息。通过这种方式,correct能够更全面地理解对话中的情感表达,提高情感识别的准确性。

  • 关系时态图神经网络的结构

    correct框架的核心是其关系时态图神经网络的结构。该网络通过构建图结构来表示对话中的跨模态交互和时间依赖关系。图中的节点表示对话中的句子或话语,而边则表示这些句子或话语之间的关联和依赖。通过图卷积操作和时间序列分析,correct能够同时捕捉对话中的空间和时间信息,从而更准确地理解对话中的情感表达。

总之,关系时态图神经网络(correct)通过整合全局和局部上下文信息、有效捕捉跨模态交互和时间依赖以及利用模态特定的表示方式,为多模态情感识别任务提供了一种高效而准确的解决方案。

模型整体架构

image-20240522172621980.png

特征提取

文本采用transformerde方式进行编码

image-20240522172838388.png

音频,视频都采用全连接的方式进行编码

image-20240522172852182.png

通过添加相应的讲话者嵌入来增强技术增强

image-20240522172908865.png

关系时序图卷积网络(RT-GCN)

解读:RT-GCN旨在通过利用话语之间以及话语与其模态之间的多模态图来捕获对话中每个话语的局部上下文信息,关系时序图在一个模块中同时实现了上下文信息,与模态之间的信息的传递。对话中情感识别需要跨模态学习到信息,同时也需要学习上下文的信息,整合成一个模块的作用将两部分并行处理,降低模型的复杂程度,降低训练成本,降低训练难度。

建图方式,模态与模态之间有边相连,对话之间有边相连:
image-20240522172954538.png

建图之后,用图transformer融合不同模态,以及不同语句的信息,得到处理之后特征向量:

image-20240522173018680.png

核心逻辑

# start

#模型核心部分

import torch
import torch.nn as nn
import torch.nn.functional as F

from .Classifier import Classifier
from .UnimodalEncoder import UnimodalEncoder
from .CrossmodalNet import CrossmodalNet
from .GraphModel import GraphModel
from .functions import multi_concat, feature_packing
import corect

log = corect.utils.get_logger()

class CORECT(nn.Module):
    def __init__(self, args):
        super(CORECT, self).__init__()

        self.args = args
        self.wp = args.wp
        self.wf = args.wf
        self.modalities = args.modalities
        self.n_modals = len(self.modalities)
        self.use_speaker = args.use_speaker
        g_dim = args.hidden_size
        h_dim = args.hidden_size

        ic_dim = 0
        if not args.no_gnn:
            ic_dim = h_dim * self.n_modals

            if not args.use_graph_transformer and (args.gcn_conv == "gat_gcn" or args.gcn_conv == "gcn_gat"):
                ic_dim = ic_dim * 2

            if args.use_graph_transformer:
                ic_dim *= args.graph_transformer_nheads

        if args.use_crossmodal and self.n_modals > 1:
            ic_dim += h_dim * self.n_modals * (self.n_modals - 1)

        if self.args.no_gnn and (not self.args.use_crossmodal or self.n_modals == 1):
            ic_dim = h_dim * self.n_modals


        a_dim = args.dataset_embedding_dims[args.dataset]['a']
        t_dim = args.dataset_embedding_dims[args.dataset]['t']
        v_dim = args.dataset_embedding_dims[args.dataset]['v']

        dataset_label_dict = {
   
            "iemocap": {
   "hap": 0, "sad": 1, "neu": 2, "ang": 3, "exc": 4, "fru": 5},
            "iemocap_4": {
   "hap": 0, "sad": 1, "neu": 2, "ang": 3},
            "mosei": {
   "Negative": 0, "Positive": 1},
        }

        dataset_speaker_dict = {
   
            "iemocap": 2,
            "iemocap_4": 2,
            "mosei":1,
        }


        tag_size = len(dataset_label_dict[args.dataset])
        self.n_speakers = dataset_speaker_dict[args.dataset]

        self.wp = args.wp
        self.wf = args.wf
        self.device = args.device


        self.encoder = UnimodalEncoder(a_dim, t_dim, v_dim, g_dim, args)
        self.speaker_embedding = nn.Embedding(self.n_speakers, g_dim)

        print(f"{args.dataset} speakers: {self.n_speakers}")
        if not args.no_gnn:
            self.graph_model = GraphModel(g_dim, h_dim, h_dim, self.device, args)
            print('CORECT --> Use GNN')

        if args.use_crossmodal and self.n_modals > 1:
            self.crossmodal = CrossmodalNet(g_dim, args)
            print('CORECT --> Use Crossmodal')
        elif self.n_modals == 1:
            print('CORECT --> Crossmodal not available when number of modalitiy is 1')

        self.clf = Classifier(ic_dim, h_dim, tag_size, args)

        self.rlog = {
   }


    def represent(self, data):

        # Encoding multimodal feature
        a = data['audio_tensor'] if 'a' in self.modalities else None
        t = data['text_tensor'] if 't' in self.modalities else None
        v = data['visual_tensor'] if 'v' in self.modalities else None

        a, t, v = self.encoder(a, t, v, data['text_len_tensor'])


        # Speaker embedding
        if self.use_speaker:
            emb = self.speaker_embedding(data['speaker_tensor'])
            a = a + emb if a != None else None
            t = t + emb if t != None else None
            v = v + emb if v != None else None

        # Graph construct
        multimodal_features = []

        if a != None:
            multimodal_features.append(a)
        if t != None:
            multimodal_features.append(t)
        if v != None:
            multimodal_features.append(v)

        out_encode = feature_packing(multimodal_features, data['text_len_tensor'])
        out_encode = multi_concat(out_encode, data['text_len_tensor'], self.n_modals)

        out = []

        if not self.args.no_gnn:
            out_graph = self.graph_model(multimodal_features, data['text_len_tensor'])
            out.append(out_graph)


        if self.args.use_crossmodal and self.n_modals > 1:
            out_cr = self.crossmodal(multimodal_features)

            out_cr = out_cr.permute(1, 0, 2)
            lengths = data['text_len_tensor']
            batch_size = lengths.size(0)
            cr_feat = []
            for j in range(batch_size):
                cur_len = lengths[j].item()
                cr_feat.append(out_cr[j,:cur_len])

            cr_feat = torch.cat(cr_feat, dim=0).to(self.device)
            out.append(cr_feat)

        if self.args.no_gnn and (not self.args.use_crossmodal or self.n_modals == 1):
            out = out_encode
        else:
            out = torch.cat(out, dim=-1)

        return out

    def forward(self, data):
        graph_out = self.represent(data)
        out = self.clf(graph_out, data["text_len_tensor"])

        return out

    def get_loss(self, data):
        graph_out = self.represent(data)
        loss = self.clf.get_loss(
                graph_out, data["label_tensor"], data["text_len_tensor"])

        return loss

    def get_log(self):
        return self.rlog




#图神经网络
import torch
import torch.nn as nn
from torch_geometric.nn import RGCNConv, TransformerConv

import corect

class GNN(nn.Module):
    def __init__(self, g_dim, h1_dim, h2_dim, num_relations, num_modals, args):
        super(GNN, self).__init__()
        self.args = args

        self.num_modals = num_modals

        if args.gcn_conv == "rgcn":
            print("GNN --> Use RGCN")
            self.conv1 = RGCNConv(g_dim, h1_dim, num_relations)

        if args.use_graph_transformer:
            print("GNN --> Use Graph Transformer")

            in_dim = h1_dim

            self.conv2 = TransformerConv(in_dim, h2_dim, heads=args.graph_transformer_nheads, concat=True)
            self.bn = nn.BatchNorm1d(h2_dim * args.graph_transformer_nheads)


    def forward(self, node_features, node_type, edge_index, edge_type):

        if self.args.gcn_conv == "rgcn":
            x = self.conv1(node_features, edge_index, edge_type)

        if self.args.use_graph_transformer:
            x = nn.functional.leaky_relu(self.bn(self.conv2(x, edge_index)))

        return x

环境配置/部署方式

安装pytorch:
请到pytorch官网找安装命令,尽量不要直接pip install
https://pytorch.org/get-started/previous-versions/

图神经网络的包版本要求很苛刻,版本对应不上很容易报错

image-20240522173252009.png

只要环境配置好了,找到这个文件,里面的代码粘贴到终端运行即可

image-20240522173328673.png

小结

图神经网络(GNN)在长对话中的应用,对当今社会的作用和意义主要体现在以下几个方面:

  1. 提升智能对话系统的性能:图神经网络可以学习并理解对话中的上下文关系,使得对话系统能够更准确地理解用户的意图,并给出更恰当的回应。在智能客服、在线教育、智能助手等领域,图神经网络的应用可以提升用户体验,减少误解和沟通障碍。
  2. 优化推荐系统:图神经网络通过分析用户-物品关系图(如用户-电影、用户-商品),可以学习用户和物品的嵌入,从而更好地捕捉用户的兴趣和物品的特征,用于个性化推荐。这种能力在电商、视频、音乐等平台上尤为重要,可以帮助用户快速找到他们感兴趣的内容,提高用户满意度和平台活跃度。
  3. 助力社交网络分析:在社交网络中,图神经网络可以用于节点分类、链接预测和社群检测等任务。通过识别社交网络中的用户类别、预测未来可能的连接以及发现社群或群体,图神经网络可以帮助我们更好地理解用户群体的行为和互动模式,为社交网络平台的运营和决策提供支持。
  4. 推动生物信息学和生物医疗领域的发展:图神经网络在生物信息学和生物医疗领域的应用广泛,包括蛋白质相互作用预测、药物发现、基因表达分析等。这些应用有助于揭示生物学过程中的关键信息,加速药物发现和疾病治疗的过程,对人类健康和医学发展具有重要意义。
  5. 优化交通网络管理:图神经网络可以应用于交通流量预测、路线规划和交通信号优化等任务。通过分析道路网络中的交通流量数据,图神经网络可以帮助预测交通拥堵和优化交通管理,提高交通流畅度和减少交通拥堵,对城市交通规划和管理具有重要意义。

总的来说,图神经网络在长对话中的应用对当今社会的作用和意义在于提升智能对话系统的性能、优化推荐系统、助力社交网络分析、推动生物信息学和生物医疗领域的发展以及优化交通网络管理等方面。这些应用不仅提高了人们的生活质量和工作效率,还推动了科技进步和社会发展。

相关文章
|
10天前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
24 3
用MASM32按Time Protocol(RFC868)协议编写网络对时程序中的一些有用的函数代码
用MASM32按Time Protocol(RFC868)协议编写网络对时程序中的一些有用的函数代码
|
21天前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
28 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
21天前
|
机器学习/深度学习 编解码 算法
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
47 1
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
|
21天前
|
机器学习/深度学习 网络架构 计算机视觉
目标检测笔记(一):不同模型的网络架构介绍和代码
这篇文章介绍了ShuffleNetV2网络架构及其代码实现,包括模型结构、代码细节和不同版本的模型。ShuffleNetV2是一个高效的卷积神经网络,适用于深度学习中的目标检测任务。
61 1
目标检测笔记(一):不同模型的网络架构介绍和代码
|
21天前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
39 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
29天前
|
运维 网络安全 数据安全/隐私保护
2024高校网络安全管理运维赛题目--复现+题目+wp
2024高校网络安全管理运维赛题目--复现+题目+wp
42 2
|
2月前
|
安全 C#
某网络硬盘网站被植入传播Trojan.DL.Inject.xz等的代码
某网络硬盘网站被植入传播Trojan.DL.Inject.xz等的代码
完成切换网络+修改网络连接图标提示的代码框架
完成切换网络+修改网络连接图标提示的代码框架
|
3月前
|
安全 网络安全 开发者
探索Python中的装饰器:简化代码,增强功能网络安全与信息安全:从漏洞到防护
【8月更文挑战第30天】本文通过深入浅出的方式介绍了Python中装饰器的概念、用法和高级应用。我们将从基础的装饰器定义开始,逐步深入到如何利用装饰器来改进代码结构,最后探讨其在Web框架中的应用。适合有一定Python基础的开发者阅读,旨在帮助读者更好地理解并运用装饰器来优化他们的代码。

热门文章

最新文章