基于树结构递归神经网络的推特谣言检测

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 在谣言检测研究方面,目前很少有基于谣言传播结构的方法。一些基于核的方法用来建模传播树的结构,通过对比树的相似性可以区分谣言和非谣言,但是不能直接分类一棵树,而是需要与其他树两两对比。

论文标题:Rumor Detection on Twitter with Tree-structured Recursive Neural Networks


论文链接:https://aclanthology.org/P18-1184/


论文来源:ACL 2018


一、概述


在谣言检测研究方面,目前很少有基于谣言传播结构的方法。一些基于核的方法用来建模传播树的结构,通过对比树的相似性可以区分谣言和非谣言,但是不能直接分类一棵树,而是需要与其他树两两对比。


在本文中提出使用递归神经网络(Recursive Neural networks,RvNN)来建模和学习谣言的传播结构。RvNN本身用来学习段落或句子的语法和语义表示,与文本解析不同的是,我们模型的输入是一棵源自源推文的传播树,而不是单个句子的解析树,树的节点是一个响应的帖子而非单个词。通过沿着树形结构的递归特征学习过程,可以共同捕获帖子的内容语义及其之间的响应关系。

那么,为什么这种神经模型能更好地完成谣言检测任务呢?分析发现,推特可以通过用户分享观点、猜测和证据来“自我纠正”一些不准确的信息。举例来说,下图展示了一个假谣言和真谣言的传播树:


QQ截图20220612091813.png

                                                    example

结构不敏感的方法基本上依赖于文本中不同立场的相对比例,在这样的线索不清晰的情况下,就不能很好地发挥作用。然而,可以看到,当一个帖子否认了虚假谣言时,往往会得到支持或肯定的回复,证实了谣言的否认;相反,对真实谣言的否认往往会引发质疑或否认。这一观察结果可能暗示了一个更普遍的假设,即回复者倾向于不同意(或质疑)那些支持虚假谣言或否认真实谣言的人,同时也倾向于同意那些否认虚假谣言或支持真实谣言的人。同时,一个回复,通常是响应其直接祖先(也就是所回复的帖子)而不是直接响应源推文(即传播树的根节点)。递归网络自然地对这些结构进行建模,以学习捕获谣言指示信号,并通过递归聚合来自不同分支的信号来增强其表示。

本文采用的RvNN模型分为两种,bottom-up(BN)模型和top-down(TD)模型,通过不同方式来表示传播树结构。这种架构的重要优点是,在给定传播树的所有路径的连接和方向的情况下,可以通过递归有选择地优化节点特征。


二、方法


  1. 问题陈述

QQ图片20220611175842.png


根据方向考虑的树结构分为两种:


QQ图片20220611180107.png


  1. 标准递归神经网络

RvNN的原始版本针对句子解析二叉树,每个节点表示的计算与其直接子节点关联在一起。举例来说,下图展示了RvNN的结构,对应图左边的解析树:


QQ截图20220612091854.png

                                                RvNN


QQ截图20220611180318.png


  1. Bottom-up RvNN


自下而上模型的核心思想是通过递归访问每个节点,从底部的叶子到顶部的根,为每个子树生成特征向量,最终聚合得到顶部根节点的表示作为树的全局表示。一棵传播树及其对应的RvNN计算过程如下图(a),(b)所示:


QQ截图20220612091927.png

                                                      example


每个节点的表示是对应回复的tf-idf向量。在这里每个节点都有一个输入向量,并且节点的子节点数量不一定是相同的。在本文中选用拓展GRU作为隐层单元。使用QQ截图20220611180452.png表示节点QQ截图20220611180555.png的直接子节点集合,节点QQ截图20220611180555.png的隐状态计算过程为

QQ截图20220611180757.png


QQ截图20220611180843.png

最终使用根节点隐状态进行分类:

QQ截图20220611180927.png

  1. Top-down RvNN

Top-down RvNN旨在利用自顶向下树的结构来捕获用于对谣言进行分类的复杂传播模式,其计算过程如上图(c)所示。每个节点的表示是通过组合它自己的输入和它的父节点而不是子节点来计算的,这与Bottom-up模型不同。

QQ截图20220611180958.png

QQ截图20220611181034.png


然后对叶子节点的表示进行max-pooling得到QQ截图20220611181105.png进行分类,这可以帮助从所有传播路径中捕获最有效的指示性特性:

QQ截图20220611181135.png


我们可以推测,Top-down模型会更好。在Bottom-up的情况下最终的输出依赖于根节点的表示,并且它的信息损失比Top-down模型要大。因为在Top-down的情况下,通过不同传播路径嵌入到叶子节点的表示可以通过pooling进行整体地合并。

  1. 模型训练

采用平方损失来训练并进行L2正则化:


QQ截图20220611181339.png


QQ截图20220611181358.png是类别的数目。使用Adagrad进行训练,使用均匀分布初始化模型参数,词典大小为5000,隐层状态与embedding大小为100。


三、实验


对比了多个baseline的效果:


QQ截图20220612092002.png

                                              对比baseline


谣言的早期检测测试:


QQ截图20220612092042.png

                                                  早期检测


下面是一个被Bottom-up和Top-down模型都检测到的一个假谣言的例子:


QQ截图20220612092113.png

                                                 example



相关文章
|
8天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目DWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取分为区域残差化和语义残差化两步,提高了特征提取效率。它引入了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,优化了不同网络阶段的感受野。在Cityscapes和CamVid数据集上的实验表明,DWRSeg在准确性和推理速度之间取得了最佳平衡,达到了72.7%的mIoU,每秒319.5帧。代码和模型已公开。
【YOLO11改进 - C3k2融合】C3k2DWRSeg二次创新C3k2_DWR:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
|
12天前
|
机器学习/深度学习 搜索推荐 安全
深度学习之社交网络中的社区检测
在社交网络分析中,社区检测是一项核心任务,旨在将网络中的节点(用户)划分为具有高内部连接密度且相对独立的子群。基于深度学习的社区检测方法,通过捕获复杂的网络结构信息和节点特征,在传统方法基础上实现了更准确、更具鲁棒性的社区划分。
27 7
|
9天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合DWRSeg二次创新C3k2_DWRSeg:扩张式残差分割网络,提高特征提取效率和多尺度信息获取能力,助力小目标检测
【YOLO11改进 - C3k2融合】C3k2融合DWRSDWRSeg是一种高效的实时语义分割网络,通过将多尺度特征提取方法分解为区域残差化和语义残差化两步,提高了多尺度信息获取的效率。网络设计了Dilation-wise Residual (DWR) 和 Simple Inverted Residual (SIR) 模块,分别用于高阶段和低阶段,以充分利用不同感受野的特征图。实验结果表明,DWRSeg在Cityscapes和CamVid数据集上表现出色,以每秒319.5帧的速度在NVIDIA GeForce GTX 1080 Ti上达到72.7%的mIoU,超越了现有方法。代码和模型已公开。
|
2月前
|
机器学习/深度学习 安全 网络安全
利用机器学习优化网络安全威胁检测
【9月更文挑战第20天】在数字时代,网络安全成为企业和个人面临的重大挑战。传统的安全措施往往无法有效应对日益复杂的网络攻击手段。本文将探讨如何通过机器学习技术来提升威胁检测的效率和准确性,旨在为读者提供一种创新的视角,以理解和实施机器学习在网络安全中的应用,从而更好地保护数据和系统免受侵害。
|
2月前
|
机器学习/深度学习 数据采集 网络安全
使用Python实现深度学习模型:智能网络安全威胁检测
使用Python实现深度学习模型:智能网络安全威胁检测
180 5
|
26天前
|
运维 安全 网络协议
Python 网络编程:端口检测与IP解析
本文介绍了使用Python进行网络编程的两个重要技能:检查端口状态和根据IP地址解析主机名。通过`socket`库实现端口扫描和主机名解析的功能,并提供了详细的示例代码。文章最后还展示了如何整合这两部分代码,实现一个简单的命令行端口扫描器,适用于网络故障排查和安全审计。
|
3月前
|
计算机视觉
在yolov5项目中如何使用自带摄像机不用网络摄像机进行实时检测?
这篇文章讨论了在yolov5项目中,如何避免使用网络摄像机而改用自带的本地摄像机进行实时目标检测,并提供了解决摄像头打开错误的具体步骤和代码示例。
在yolov5项目中如何使用自带摄像机不用网络摄像机进行实时检测?
|
3月前
|
机器学习/深度学习 监控 算法
基于深度学习网络的人员行为视频检测系统matlab仿真,带GUI界面
本仿真展示了基于GoogLeNet的人员行为检测系统在Matlab 2022a上的实现效果,无水印。GoogLeNet采用创新的Inception模块,高效地提取视频中人员行为特征并进行分类。核心程序循环读取视频帧,每十帧执行一次分类,最终输出最频繁的行为类别如“乐队”、“乒乓球”等。此技术适用于智能监控等多个领域。
68 4
|
3月前
|
机器学习/深度学习 数据采集 算法
基于深度学习网络的USB摄像头实时视频采集与火焰检测matlab仿真
本项目使用MATLAB2022a实现基于YOLOv2的火焰检测系统。通过USB摄像头捕捉火焰视频,系统实时识别并标出火焰位置。核心流程包括:视频采集、火焰检测及数据预处理(图像标准化与增强)。YOLOv2模型经特定火焰数据集训练,能快速准确地识别火焰。系统含详细中文注释与操作指南,助力快速上手。
|
3月前
|
机器学习/深度学习 运维 监控

热门文章

最新文章