GCAN:可解释的社交媒体假新闻检测方法

简介: GCAN:可解释的社交媒体假新闻检测方法

论文标题:GCAN: Graph-aware Co-Attention Networks for Explainable Fake News Detection on Social Media


论文链接:https://arxiv.org/abs/2004.11648


论文来源:ACL 2020


一、概述


目前假新闻检测问题仍然存在一些重要的挑战。比如:


①目前的一些方法要求文档为长文本,以便于能够更好地学习词和句子的表示。然而社交媒体上的一些推文大多是短文本,这就导致了一些数据稀疏性问题。


②一些SOTA的方法要求收集大量的用户评论,然而大多数用户仅仅是简单地转发推文而并不留下任何评论。


③一些研究认为社交网络中的信息扩散(即retweet)路径有助于错误信息的分类,从而学习基于树的传播结构的表示。然而,由于隐私问题,获取转发的扩散结构往往代价高昂,许多用户选择隐藏或删除社交记录。


④目前的一些方法缺乏可解释性,不能为支持谣言的可疑用户以及他们在制造谣言时关心的话题提供证据。


本文提出的方法利用源推文的短文本内容、转发用户序列以及用户资料来进行假新闻检测。也就是说本文的方法满足以下设置:


①短文本源推文;


②没有使用用户评论文本;


③没有使用社交网络和扩散网络的网络结构。


此外,我们要求假新闻检测模型具有可解释性,即在判断新闻是否虚假时突出证据。该模型将指出支持传播假新闻的可疑转发者,并突出他们特别关注的源推文中的词。


本文提出一个新的模型,即Graph-aware Co-Attention Network(GCAN)。首先从用户资料和社交互动中提取用户特征,然后使用CNN和RNN来学习基于用户特征的转发传播表示。另外使用图来建模用户之间的潜在交互,并且采用GCN来学习graph-aware的用户交互的表示。同时提出了dual co-attention机制来学习源推文和转发传播之间的相关性,以及源推文和用户交互之间的相互影响。最终利用学习到的embedding来进行假新闻的二分类预测。


二、方法


1. 问题陈述


UNV@VYQ1[(V8E`TT]EO~UMP.png


2. GCAN框架


GCAN主要包括5个部分:


①user characteristics extraction,创建特征来量化用户如何参与在线社交网络;


②new story encoding,生成源推文中单词的表示;


③user propagation representation,使用提取的用户特征建模和表示源推文如何由用户传播;


④dual co-attention mechanisms,捕获源推文和用户交互/传播之间的相关性;


⑤making prediction,通过连接所有学习的表示生成检测结果。


GCAN的架构图如下:


VEM}$810{DO`UKF)WYESX41.png

                                                 GCAN


3. 模型


  • User Characteristics Extraction


%HN[0N]NT]~D5$`(@ZTAQV0.png

  • Source Tweet Encoding


YNOMSNSFJDB}W}KGSSK}K}7.png

  • User Propagation Representation

QX1EA7Q1R6%(I~MUB$2(N79.png

  • GRU-based Representation


3_MR1BB@VW}1T%N`29N`)95.png

  • CNN-based Representation


H@4B_O5N(`)$[[9FLD6W$2A.png


  • Graph-aware Interaction Representation


%15}81{2YZFEP17F)Y7{KED.png


  • Dual Co-attention Mechanism


我们认为假新闻的证据可以通过调查源推文的哪些部分是由哪些类型的转发用户关注的来揭开,并且线索可以由转发用户之间如何互动来反映。因此,本文提出了dual co-attention机制,来建模:


NS3CCIFKY_8FZ6MA]@I9MBQ.png


  • Source-Interaction Co-attention


L@]I@C[JP9DV4)A_KQR~NQL.png


  • Source-Propagation Co-attention


)[P90BF[[AMVH{DRKA$CGPW.png


  • Make Prediction


T8KEJHW$E)67OBAZ4@DU}2W.png


损失函数采用交叉熵损失。


三、实验


  1. 对比baseline


对比了多项baseline的结果,效果有明显的提升:


YT{H8XR2TVKW()_[1ZZ]W~I.png

                                                实验


  1. 假新闻早期检测


GCAN也可以用于假新闻早期的检测,也就是在转发用户不多的时候进行检测,实验改动了使用的转发用户数量来进行验证:


25L}Z(C%C%$(VX4%U(@O6Z1.png

                                早期检测g


  1. 消融实验


另外移除了一部分组件进行了消融实验,图中-A,-R,-G,-C分别代表移除dual co-attention,基于GRU的表示,graph-aware的表示和基于CNN的表示:


8BF{UCP9SY[)K9NBN41$OMS.png

                                           消融实验


-S-A代表既没有源推文embedding也没有dual co-attention,由于源推文提供了基本线索,因此-S-A有一个明显的性能下降。


  1. 可解释性


source-propagation co-attention学习到的attention权重可以用来为预测假新闻提供证据,采用的方式就是标识出源推文中的重要的词和可疑的用户。注意,我们不考虑source-interaction Co-attention的可解释性,因为从构造的图中学到的用户交互特征不能直观地解释。


下图是根据对源推文中的attention权重绘制的两个例子的词云(权重越大,词云中的词就越大):


RQRC$}1@N[D{@AJ`S6J{$AB.png

                                            例子


图中结果满足常识,也就是假新闻倾向于使用戏剧性和模糊的词汇,而真实新闻则是被证实和核实事实的相关词汇。


另外我们希望利用传播中的转发顺序来揭示假新闻与真新闻的行为差异。下图采集并展示了三个假新闻和三个真新闻的传播序列attention的权重:


MKM3KK8@_9Q]63{SAK3)@YH.png

                                       例子


结果表明,要确定一个新闻是否虚假,首先应该检查早期转发源推文的用户的特征。假新闻的用户attention权重可能在传播过程中均匀分布。


source-propagation co-attention可以进一步解释可疑用户的特征及其关注的词语,举例如下图:


[GE`C{}N@SP2%}7{~Q6F43Y.png

                                            例子


可以发现,可疑用户在转发传播中的特征有:


①账号未被验证;


②账号创建时间较短;


③用户描述长度较短;


④距发布源推文用户的图路径长度较短。


他们高度关注的词是“breaking”和“pipeline”这样的词。我们认为这样的解释有助于解读假新闻的检测,从而了解他们潜在的立场。

相关文章
|
11天前
|
机器学习/深度学习 计算机视觉
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
29 0
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
|
11天前
|
自然语言处理 安全 数据挖掘
大语言模型在假新闻的检测
大语言模型在假新闻检测应用中发挥重要作用。通过学习大量语言数据和模式,模型可以理解文本的语义和上下文信息,判断其真实性。模型通过监督学习训练,提取特征并预测新闻真实性。结合其他技术手段和人工审核,可以提高准确性和可信度。假新闻检测的过程包括数据准备、特征提取、模型训练和实际应用。模型在谣言检测中也有类似应用。
146 0
|
10月前
|
机器学习/深度学习 人工智能 文字识别
告别被坑!掌握合合信息AI图像篡改检测工具,轻松识别图片造假
告别被坑!掌握合合信息AI图像篡改检测工具,轻松识别图片造假
517 0
告别被坑!掌握合合信息AI图像篡改检测工具,轻松识别图片造假
|
10月前
|
数据采集 存储 搜索推荐
分析新闻评论数据并进行情绪识别
爬取新闻评论数据并进行情绪识别的目的是为了从网页中抓取用户对新闻事件或话题的评价内容,并从中识别和提取用户的情绪或态度,如积极、消极、中立等。爬取新闻评论数据并进行情绪识别有以下几个优势: 1)可以了解用户对新闻事件或话题的看法和感受,以及影响他们情绪的因素; 2)可以分析用户的情绪变化和趋势,以及与新闻事件或话题的相关性和影响力; 3)可以根据用户的情绪进行个性化的推荐或服务,如提供正能量的内容、提供帮助或建议等;
177 1
|
人工智能 安全 算法
让对方把头侧扭90°,这一动作可辨别Deepfake伪造人脸
让对方把头侧扭90°,这一动作可辨别Deepfake伪造人脸
122 0
|
机器学习/深度学习 人工智能 计算机视觉
1分钟就能查出整篇论文的图片误用:这个AI是有些火眼金睛在身上的
1分钟就能查出整篇论文的图片误用:这个AI是有些火眼金睛在身上的
204 0
|
机器学习/深度学习 传感器 数据采集
多模态生理信号情感识别 附代码+报告
多模态生理信号情感识别 附代码+报告
572 0
多模态生理信号情感识别 附代码+报告
|
机器学习/深度学习 人工智能 自然语言处理
PLAN:关注用户交互的可解释微博谣言检测
PLAN:关注用户交互的可解释微博谣言检测
221 0
PLAN:关注用户交互的可解释微博谣言检测
|
机器学习/深度学习 人工智能 计算机视觉
1分钟就能查出整篇论文的图片误用:这个AI是有些火眼金睛在身上的
1分钟就能查出整篇论文的图片误用:这个AI是有些火眼金睛在身上的
296 0
1分钟就能查出整篇论文的图片误用:这个AI是有些火眼金睛在身上的