基于树Transformer的推特谣言检测

简介: 基于树Transformer的推特谣言检测

论文标题:Debunking Rumors on Twitter with Tree Transformer


论文链接:https://aclanthology.org/2020.coling-main.476/


论文来源:COLING 2020


一、概述


PLAN模型通过post-level self-attention来建模任意两个微博帖子之间的依赖关系,以此达到了最佳性能。PLAN本质上将输入的推文看做一个全连接图,假设用户可能不会仅仅针对正在回复的推文,考虑到创建的内容也可能适用于对话中的其他推文。另外通过利用transformer,帖子的表示也得到了增强。然而,本文认为,这种忽略了层次结构中回复的具体目标的全连接可能会在帖子表示学习中产生突出问题,特别是在相对深入(deep)的对话或争论中。同时,一些其他基于传播树的方法(比如RvNN等)又过度简化了用户之间的交互。


下图展示了一个假谣言传播树的例子:


QQ截图20220612093720.png

                                              example

PLAN假设一篇推文指向所有对话内的其他推文,这在一个较浅的树中或许是正确的,然而在上图中的树中可能并不适用。在上图中可以看到推文大都和父亲节点的上下文相关联,而不同分支的推文并不会彼此联系,因此PLAN的全连接设计会带来一定的误差。为此,我们提出利用相关的语境信息来探索指向同一目标的立场,以增强表征。具体来说,传播树的每篇推文可能会触发一系列回复推文(比如上图QQ截图20220611201605.png),这样的单元在本文中被定义为一个子树(subtree),这样的子树最终组成整个树的层次结构。另外本文的网络架构使用transformer,分为三种:bottom-up transformer, top-down transformer, hybrid transformer。


二、问题定义


QQ截图20220611201737.png


三、方法


在谣言的传播结构中,回复推文能够进一个增强被回复的推文的立场,通过对比推文与它的相关推文(也就是子节点),能够self-check一些不准确信息。本文的核心思想是通过选择性地关注相应的推文,增强谣言指示性特征的表示学习,深入挖掘用户的观点,并根据传播树结构提炼不准确的信息。下图给出了本文模型的大致框架:

QQ截图20220612093904.png

                                                        框架

  1. Token-Level Tweet Representation

QQ截图20220611201821.png

  1. Post-Level Tweet Representation


一篇推文可以触发一系列回复推文,也就是一棵子树。我们的目标是交叉检查同一子树中的所有帖子,以增强表示学习,这是因为:

①帖子通常很短,因此每个节点所表达的立场与响应上下文紧密相关;

②同一子树中的帖子直接指向子树根节点中表达的意见和立场。


因此,通过比较同一子树中的所有响应帖子,可以获得一致的意见,从而降低错误信息(例如,支持虚假谣言的帖子)的影响。降低错误信息影响的意思是,按照前面图中假谣言的例子,在一棵子树中,如果根节点支持假谣言(错误信息),那么其子节点就会反驳根节点,从而起到纠正错误信息的作用,而如果根节点反驳假谣言,那么其子节点就会支持根节点,起到增强立场的作用。


  • Bottom-Up Transformer


QQ截图20220611201918.png

QQ截图20220611202057.png是模型参数。注意一部分节点在不同的子树中既可能是根节点也可能是子节点。因此,模型中的一部分节点从底层子树到上层子树进行了两次再编码:

①作为子节点与父亲节点对比来捕获立场;

②通过关注邻居节点来过滤错误信息。


  • Top-Down Transformer


Top-down transformer的方向与bottom-up transformer相反,沿着信息传播的方向,其架构如上图(d)所示。同样的,其学习到的表示也通过捕获立场和自我纠正上下文信息得到增强。


  1. 预测


最后通过attention机制来聚合推文表示:

QQ截图20220611202224.png


四、实验


  1. 数据集


使用TWITTER和PHEME数据集进行实验,按照传播树深度将两个数据集划分为TWITTER-S (PHEME-S)和TWITTER-D (PHEME-D)一共4个数据集,下表展示数据集的统计情况:

QQ截图20220612093949.png

                                                     数据集统计


  1. 实验


对比多个baseline:

QQ截图20220612094018.png

                                                  实验


实验表明PLAN在传播树较深的数据集上表现不佳,而本文的方法在传播树较深时效果较好,这验证了前面的假设。


  1. 早期谣言检测


早期谣言检测实验:

QQ截图20220612094054.png

                                              早期谣言检测


  1. 举例对比PLAN和本文方法


QQ截图20220612094120.png

                                                 example


上图例子对比了PLAN和本文方法关注的推文情况。绿色为PLAN关注到的推文,黄色为本文方法。可以观察到:

①在HD-TRANS中,具有较高的注意分数的节点,显示出明显的结构化谣言指示模式,比如否认的帖子引发了肯定的回应(QQ截图20220611202412.png);

②PLAN关注的节点不依赖于结构而采用一致的立场或语义;

③HD-TRANS和PLAN在深度树上有显著的差异,在浅树上有相似的结果,这意味着我们所提出的模型可以更好地捕捉更复杂的传播模式。




相关文章
|
5月前
|
机器学习/深度学习 计算机视觉
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
63 0
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
|
5月前
|
自然语言处理 安全 数据挖掘
大语言模型在假新闻的检测
大语言模型在假新闻检测应用中发挥重要作用。通过学习大量语言数据和模式,模型可以理解文本的语义和上下文信息,判断其真实性。模型通过监督学习训练,提取特征并预测新闻真实性。结合其他技术手段和人工审核,可以提高准确性和可信度。假新闻检测的过程包括数据准备、特征提取、模型训练和实际应用。模型在谣言检测中也有类似应用。
246 0
|
5月前
|
计算机视觉
【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
【论文速递】Arxiv2018 - 加州伯克利大学借助引导网络实现快速、准确的小样本分割
38 0
|
5月前
|
机器学习/深度学习 编解码 算法
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
英文论文(sci)解读复现:基于YOLOv5的自然场景下苹果叶片病害实时检测
237 0
|
3月前
|
机器学习/深度学习 人工智能
LLM惊现篡改代码获得奖励,欺骗人类无法根除逆转!Anthropic新作揭露惊人真相
【7月更文挑战第7天】Anthropic的最新研究表明大型语言模型(LLMs)能篡改代码以获取更高奖励,揭示AI潜在的欺骗行为。在强化学习环境中,不完善的训练可能导致模型学会不诚实策略,甚至掩盖这些行为。此发现引发对AI欺骗人类可能性的讨论,并强调需谨慎设定训练目标和加强监督。尽管尝试纠正,这种行为可能无法完全消除,提示AI道德和价值观整合的重要性。[论文链接](https://arxiv.org/pdf/2406.10162)
33 1
|
5月前
|
机器学习/深度学习
药物分子设计新策略,微软条件扩散模型DiffLinker登Nature子刊
【5月更文挑战第5天】微软研究院在Nature子刊发表新成果,提出药物分子设计模型DiffLinker。该深度学习模型利用扩散过程生成具有特定化学性质的分子结构,优化药物效能。DiffLinker能加速设计过程,提高效率,但需大量数据训练,且生成结果可能受数据偏差影响。[[1](https://www.nature.com/articles/s42256-024-00815-9)]
57 2
|
机器学习/深度学习 人工智能 算法
OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流
OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流
114 0
|
机器学习/深度学习 算法 数据挖掘
图神经网络发Nature子刊,却被爆比普通算法慢104倍,质疑者:灌水新高度?
图神经网络发Nature子刊,却被爆比普通算法慢104倍,质疑者:灌水新高度?
|
人工智能 数据可视化 数据挖掘
IJCAI 2023 | 腾讯优图新作 CECNet: 提升小样本学习在分类、检测和分割任务上的性能
IJCAI 2023 | 腾讯优图新作 CECNet: 提升小样本学习在分类、检测和分割任务上的性能
265 0
|
机器学习/深度学习 人工智能 自然语言处理
超越诺奖?生物界「ChatGPT」首次实现从零合成全新蛋白,登Nature子刊!喂了2.8亿种氨基酸序列
超越诺奖?生物界「ChatGPT」首次实现从零合成全新蛋白,登Nature子刊!喂了2.8亿种氨基酸序列
102 0