基于树Transformer的推特谣言检测

简介: 基于树Transformer的推特谣言检测

论文标题:Debunking Rumors on Twitter with Tree Transformer


论文链接:https://aclanthology.org/2020.coling-main.476/


论文来源:COLING 2020


一、概述


PLAN模型通过post-level self-attention来建模任意两个微博帖子之间的依赖关系,以此达到了最佳性能。PLAN本质上将输入的推文看做一个全连接图,假设用户可能不会仅仅针对正在回复的推文,考虑到创建的内容也可能适用于对话中的其他推文。另外通过利用transformer,帖子的表示也得到了增强。然而,本文认为,这种忽略了层次结构中回复的具体目标的全连接可能会在帖子表示学习中产生突出问题,特别是在相对深入(deep)的对话或争论中。同时,一些其他基于传播树的方法(比如RvNN等)又过度简化了用户之间的交互。


下图展示了一个假谣言传播树的例子:


QQ截图20220612093720.png

                                              example

PLAN假设一篇推文指向所有对话内的其他推文,这在一个较浅的树中或许是正确的,然而在上图中的树中可能并不适用。在上图中可以看到推文大都和父亲节点的上下文相关联,而不同分支的推文并不会彼此联系,因此PLAN的全连接设计会带来一定的误差。为此,我们提出利用相关的语境信息来探索指向同一目标的立场,以增强表征。具体来说,传播树的每篇推文可能会触发一系列回复推文(比如上图QQ截图20220611201605.png),这样的单元在本文中被定义为一个子树(subtree),这样的子树最终组成整个树的层次结构。另外本文的网络架构使用transformer,分为三种:bottom-up transformer, top-down transformer, hybrid transformer。


二、问题定义


QQ截图20220611201737.png


三、方法


在谣言的传播结构中,回复推文能够进一个增强被回复的推文的立场,通过对比推文与它的相关推文(也就是子节点),能够self-check一些不准确信息。本文的核心思想是通过选择性地关注相应的推文,增强谣言指示性特征的表示学习,深入挖掘用户的观点,并根据传播树结构提炼不准确的信息。下图给出了本文模型的大致框架:

QQ截图20220612093904.png

                                                        框架

  1. Token-Level Tweet Representation

QQ截图20220611201821.png

  1. Post-Level Tweet Representation


一篇推文可以触发一系列回复推文,也就是一棵子树。我们的目标是交叉检查同一子树中的所有帖子,以增强表示学习,这是因为:

①帖子通常很短,因此每个节点所表达的立场与响应上下文紧密相关;

②同一子树中的帖子直接指向子树根节点中表达的意见和立场。


因此,通过比较同一子树中的所有响应帖子,可以获得一致的意见,从而降低错误信息(例如,支持虚假谣言的帖子)的影响。降低错误信息影响的意思是,按照前面图中假谣言的例子,在一棵子树中,如果根节点支持假谣言(错误信息),那么其子节点就会反驳根节点,从而起到纠正错误信息的作用,而如果根节点反驳假谣言,那么其子节点就会支持根节点,起到增强立场的作用。


  • Bottom-Up Transformer


QQ截图20220611201918.png

QQ截图20220611202057.png是模型参数。注意一部分节点在不同的子树中既可能是根节点也可能是子节点。因此,模型中的一部分节点从底层子树到上层子树进行了两次再编码:

①作为子节点与父亲节点对比来捕获立场;

②通过关注邻居节点来过滤错误信息。


  • Top-Down Transformer


Top-down transformer的方向与bottom-up transformer相反,沿着信息传播的方向,其架构如上图(d)所示。同样的,其学习到的表示也通过捕获立场和自我纠正上下文信息得到增强。


  1. 预测


最后通过attention机制来聚合推文表示:

QQ截图20220611202224.png


四、实验


  1. 数据集


使用TWITTER和PHEME数据集进行实验,按照传播树深度将两个数据集划分为TWITTER-S (PHEME-S)和TWITTER-D (PHEME-D)一共4个数据集,下表展示数据集的统计情况:

QQ截图20220612093949.png

                                                     数据集统计


  1. 实验


对比多个baseline:

QQ截图20220612094018.png

                                                  实验


实验表明PLAN在传播树较深的数据集上表现不佳,而本文的方法在传播树较深时效果较好,这验证了前面的假设。


  1. 早期谣言检测


早期谣言检测实验:

QQ截图20220612094054.png

                                              早期谣言检测


  1. 举例对比PLAN和本文方法


QQ截图20220612094120.png

                                                 example


上图例子对比了PLAN和本文方法关注的推文情况。绿色为PLAN关注到的推文,黄色为本文方法。可以观察到:

①在HD-TRANS中,具有较高的注意分数的节点,显示出明显的结构化谣言指示模式,比如否认的帖子引发了肯定的回应(QQ截图20220611202412.png);

②PLAN关注的节点不依赖于结构而采用一致的立场或语义;

③HD-TRANS和PLAN在深度树上有显著的差异,在浅树上有相似的结果,这意味着我们所提出的模型可以更好地捕捉更复杂的传播模式。




相关文章
|
机器学习/深度学习 运维 自然语言处理
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023(1)
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
755 1
|
机器学习/深度学习 运维 算法
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023(2)
时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
1626 0
|
机器学习/深度学习 传感器 编解码
CenterFormer | CenterNet思想究竟有多少花样?看CenterFormer在3D检测全新SOTA
CenterFormer | CenterNet思想究竟有多少花样?看CenterFormer在3D检测全新SOTA
168 0
|
机器学习/深度学习 算法 数据挖掘
图神经网络发Nature子刊,却被爆比普通算法慢104倍,质疑者:灌水新高度?
图神经网络发Nature子刊,却被爆比普通算法慢104倍,质疑者:灌水新高度?
104 0
|
人工智能 数据可视化 数据挖掘
IJCAI 2023 | 腾讯优图新作 CECNet: 提升小样本学习在分类、检测和分割任务上的性能
IJCAI 2023 | 腾讯优图新作 CECNet: 提升小样本学习在分类、检测和分割任务上的性能
295 0
|
机器学习/深度学习 关系型数据库 MySQL
2023港科大新作 | 新颖注意力机制有效提升医学图像小样本语义分割精度!
2023港科大新作 | 新颖注意力机制有效提升医学图像小样本语义分割精度!
700 0
|
机器学习/深度学习 人工智能 算法
如何用Transformer分清12位女排运动员?这个「时空双路」框架刷群体行为识别SOTA
如何用Transformer分清12位女排运动员?这个「时空双路」框架刷群体行为识别SOTA
119 0
|
Oracle 关系型数据库
论文赏析[AI18]更快的基于非二叉化自底向上策略的转移系统成分句法分析(二)
这篇论文提出了一种非二叉化、自底向上的转移系统,并且针对它提出了一种Dynamic Oracle,用损失函数的形式来实现它。
129 0
论文赏析[AI18]更快的基于非二叉化自底向上策略的转移系统成分句法分析(二)
|
Oracle 关系型数据库
论文赏析[AI18]更快的基于非二叉化自底向上策略的转移系统成分句法分析(一)
这篇论文提出了一种非二叉化、自底向上的转移系统,并且针对它提出了一种Dynamic Oracle,用损失函数的形式来实现它。
197 0
论文赏析[AI18]更快的基于非二叉化自底向上策略的转移系统成分句法分析(一)