GCAN:可解释的社交媒体假新闻检测方法

简介: GCAN:可解释的社交媒体假新闻检测方法

论文标题:GCAN: Graph-aware Co-Attention Networks for Explainable Fake News Detection on Social Media


论文链接:https://arxiv.org/abs/2004.11648


论文来源:ACL 2020


一、概述


目前假新闻检测问题仍然存在一些重要的挑战。比如:


①目前的一些方法要求文档为长文本,以便于能够更好地学习词和句子的表示。然而社交媒体上的一些推文大多是短文本,这就导致了一些数据稀疏性问题。


②一些SOTA的方法要求收集大量的用户评论,然而大多数用户仅仅是简单地转发推文而并不留下任何评论。


③一些研究认为社交网络中的信息扩散(即retweet)路径有助于错误信息的分类,从而学习基于树的传播结构的表示。然而,由于隐私问题,获取转发的扩散结构往往代价高昂,许多用户选择隐藏或删除社交记录。


④目前的一些方法缺乏可解释性,不能为支持谣言的可疑用户以及他们在制造谣言时关心的话题提供证据。


本文提出的方法利用源推文的短文本内容、转发用户序列以及用户资料来进行假新闻检测。也就是说本文的方法满足以下设置:


①短文本源推文;


②没有使用用户评论文本;


③没有使用社交网络和扩散网络的网络结构。


此外,我们要求假新闻检测模型具有可解释性,即在判断新闻是否虚假时突出证据。该模型将指出支持传播假新闻的可疑转发者,并突出他们特别关注的源推文中的词。


本文提出一个新的模型,即Graph-aware Co-Attention Network(GCAN)。首先从用户资料和社交互动中提取用户特征,然后使用CNN和RNN来学习基于用户特征的转发传播表示。另外使用图来建模用户之间的潜在交互,并且采用GCN来学习graph-aware的用户交互的表示。同时提出了dual co-attention机制来学习源推文和转发传播之间的相关性,以及源推文和用户交互之间的相互影响。最终利用学习到的embedding来进行假新闻的二分类预测。


二、方法


1. 问题陈述


UNV@VYQ1[(V8E`TT]EO~UMP.png


2. GCAN框架


GCAN主要包括5个部分:


①user characteristics extraction,创建特征来量化用户如何参与在线社交网络;


②new story encoding,生成源推文中单词的表示;


③user propagation representation,使用提取的用户特征建模和表示源推文如何由用户传播;


④dual co-attention mechanisms,捕获源推文和用户交互/传播之间的相关性;


⑤making prediction,通过连接所有学习的表示生成检测结果。


GCAN的架构图如下:


VEM}$810{DO`UKF)WYESX41.png

                                                 GCAN


3. 模型


  • User Characteristics Extraction


%HN[0N]NT]~D5$`(@ZTAQV0.png

  • Source Tweet Encoding


YNOMSNSFJDB}W}KGSSK}K}7.png

  • User Propagation Representation

QX1EA7Q1R6%(I~MUB$2(N79.png

  • GRU-based Representation


3_MR1BB@VW}1T%N`29N`)95.png

  • CNN-based Representation


H@4B_O5N(`)$[[9FLD6W$2A.png


  • Graph-aware Interaction Representation


%15}81{2YZFEP17F)Y7{KED.png


  • Dual Co-attention Mechanism


我们认为假新闻的证据可以通过调查源推文的哪些部分是由哪些类型的转发用户关注的来揭开,并且线索可以由转发用户之间如何互动来反映。因此,本文提出了dual co-attention机制,来建模:


NS3CCIFKY_8FZ6MA]@I9MBQ.png


  • Source-Interaction Co-attention


L@]I@C[JP9DV4)A_KQR~NQL.png


  • Source-Propagation Co-attention


)[P90BF[[AMVH{DRKA$CGPW.png


  • Make Prediction


T8KEJHW$E)67OBAZ4@DU}2W.png


损失函数采用交叉熵损失。


三、实验


  1. 对比baseline


对比了多项baseline的结果,效果有明显的提升:


YT{H8XR2TVKW()_[1ZZ]W~I.png

                                                实验


  1. 假新闻早期检测


GCAN也可以用于假新闻早期的检测,也就是在转发用户不多的时候进行检测,实验改动了使用的转发用户数量来进行验证:


25L}Z(C%C%$(VX4%U(@O6Z1.png

                                早期检测g


  1. 消融实验


另外移除了一部分组件进行了消融实验,图中-A,-R,-G,-C分别代表移除dual co-attention,基于GRU的表示,graph-aware的表示和基于CNN的表示:


8BF{UCP9SY[)K9NBN41$OMS.png

                                           消融实验


-S-A代表既没有源推文embedding也没有dual co-attention,由于源推文提供了基本线索,因此-S-A有一个明显的性能下降。


  1. 可解释性


source-propagation co-attention学习到的attention权重可以用来为预测假新闻提供证据,采用的方式就是标识出源推文中的重要的词和可疑的用户。注意,我们不考虑source-interaction Co-attention的可解释性,因为从构造的图中学到的用户交互特征不能直观地解释。


下图是根据对源推文中的attention权重绘制的两个例子的词云(权重越大,词云中的词就越大):


RQRC$}1@N[D{@AJ`S6J{$AB.png

                                            例子


图中结果满足常识,也就是假新闻倾向于使用戏剧性和模糊的词汇,而真实新闻则是被证实和核实事实的相关词汇。


另外我们希望利用传播中的转发顺序来揭示假新闻与真新闻的行为差异。下图采集并展示了三个假新闻和三个真新闻的传播序列attention的权重:


MKM3KK8@_9Q]63{SAK3)@YH.png

                                       例子


结果表明,要确定一个新闻是否虚假,首先应该检查早期转发源推文的用户的特征。假新闻的用户attention权重可能在传播过程中均匀分布。


source-propagation co-attention可以进一步解释可疑用户的特征及其关注的词语,举例如下图:


[GE`C{}N@SP2%}7{~Q6F43Y.png

                                            例子


可以发现,可疑用户在转发传播中的特征有:


①账号未被验证;


②账号创建时间较短;


③用户描述长度较短;


④距发布源推文用户的图路径长度较短。


他们高度关注的词是“breaking”和“pipeline”这样的词。我们认为这样的解释有助于解读假新闻的检测,从而了解他们潜在的立场。

相关文章
|
7月前
|
机器学习/深度学习 人工智能 安全
论文介绍:从黑盒生产语言模型中提取信息的模型窃取攻击
【2月更文挑战第22天】论文介绍:从黑盒生产语言模型中提取信息的模型窃取攻击
135 6
论文介绍:从黑盒生产语言模型中提取信息的模型窃取攻击
|
7月前
|
机器学习/深度学习 计算机视觉
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
104 0
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
|
7月前
|
运维 安全 数据挖掘
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
551 0
|
24天前
|
人工智能 算法
图像伪造照妖镜!北大发布多模态LLM图像篡改检测定位框架FakeShield
北京大学研究团队提出了一种名为FakeShield的多模态框架,旨在解决图像伪造检测与定位(IFDL)中的黑箱问题及泛化能力不足。FakeShield不仅能评估图像真实性,生成篡改区域的掩码,还能提供像素级和图像级的篡改线索及详细文本描述,增强检测的可解释性。通过使用GPT-4o增强现有数据集,创建多模态篡改描述数据集(MMTD-Set),并引入领域标签引导的可解释伪造检测模块(DTE-FDM)和多模态伪造定位模块(MFLM),FakeShield在多种篡改技术的检测与定位上表现优异,为图像真实性维护提供了有力工具。
54 14
|
2月前
|
机器学习/深度学习 存储 算法
《基于区块链技术的虚假新闻检测方法》文献阅读笔记+总结
《基于区块链技术的虚假新闻检测方法》文献阅读笔记+总结
61 0
|
7月前
|
人工智能 数据可视化
【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化
【数据分享】维基百科Wiki负面有害评论(网络暴力)文本数据多标签分类挖掘可视化
|
7月前
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-2
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享
|
7月前
|
数据可视化
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享(下)
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享
|
存储 监控 计算机视觉
【检测+检索】一个模型让你不仅看得见也可以找得到,集检测与检索与一身的作品
【检测+检索】一个模型让你不仅看得见也可以找得到,集检测与检索与一身的作品
136 0
|
机器学习/深度学习 传感器 数据采集
多模态生理信号情感识别 附代码+报告
多模态生理信号情感识别 附代码+报告
733 0
多模态生理信号情感识别 附代码+报告