CIKM 18 | 蚂蚁金服论文:基于异构图神经网络的恶意账户识别方法

简介: 世界上已知的第一个面向恶意账户检测的图神经网络方法GEM。

小蚂蚁说:

ACM CIKM 2018 全称是 The 27th ACM International Conference on Information and Knowledge Management,会议于2018年10月22日-26日在意大利都灵省举行。

CIMK 是国际计算机学会(ACM)举办的信息检索、知识管理和数据库领域的重要学术会议。本次大会目的在于明确未来知识与信息系统发展将面临的挑战和问题,并通过征集和评估应用性和理论性强的高质量研究成果以确定未来的研究方向。

本篇文章分享了蚂蚁金服在CIKM 2018上的一篇论文《Heterogeneous Graph Neural Networks for Malicious Account Detection》,作者包括刘子奇、陈超超、杨新星、周俊、李小龙、宋乐。

在线账户伴随着(移动)互联网的诞生而产生,在金融服务领域,这种通过批量、低成本注册的恶意账户的存在是十分危险的。本文介绍了一种新的基于异构图的、面向恶意账户识别的图神经网络方法GEM ,这也是这也是世界上已知的第一个面向恶意账户检测的图神经网络方法。

1.概述

本文的主要目的是介绍一种新的基于异构图的、面向恶意账户识别的图神经网络方法(GEM, Graph Embeddings for Malicious accounts)[1]。该方法是支付宝为保障体系内账户安全,降低恶意账户带来的资损,保障支付体系健康,在人工智能领域所做的努力和尝试。这也是世界上已知的第一个面向恶意账户检测的图神经网络方法

下面,我们将为大家讲解如下内容:

1.  恶意账户是什么?具有什么特点?

2.  为什么图神经网络方法能够高效识别恶意账户?

3.  我们的 GEM 方法如何工作?

感兴趣的朋友请直接戳论文查看细节:https://dl.acm.org/citation.cfm?id=3272010

2.恶意账户是什么?具有怎样的特点? 

2.1什么是恶意账户

随着(移动)互联网诞生,催生了多种形式的在线服务,在线账户随之产生。比如:Gmail 提供的邮件服务,微博/Twitter 提供的短消息分享服务,支付宝提供的支付服务等。通过注册大量 Gmail 邮箱账户,恶意用户就可能迅速、大量地扩散垃圾广告等信息。微博账户等也可能催生僵尸账户达到某种非法营销、传播目的。在金融服务领域,这种恶意账户的存在就更加危险,比如注册大量新账户达到薅羊毛、洗钱、欺诈等目的。

用一句话总结:恶意账户具有强烈获取利益倾向和团伙性质,往往是通过批量、低成本注册的账户。

2.2恶意账户的特点

本文我们对黑产账户数据进行分析,并总结如下特点:

1.设备聚集性:见下图所示。两张图分别展示了用户(纵轴)过去是否在设备(横轴)有过登录行为。蓝色点代表该用户过去有在某设备上登录过。其中,左图显示的是正常账户特征,右图显示的是恶意账户特征。从图中可以看出,左图  pattern 较为均匀(regular),即便不同类型的设备(媒介)上,其和账户连接的 pattern 可能密度不太一样。右图则完全不同,我们可以在黑产账户上看到极为有规律和稠密的 pattern。这说明,黑产账户更倾向于在设备(媒介)的联通上有着高聚集性。

9962a7294e322c9c236c8ae2c5c0d0bd966d63cc

2.时间聚集性:见下图所示。两张图分别展示了账户(纵轴)在时间(横轴)上的行为序列。其中一个蓝点代表该用户在某时间点上有登录行为。左图仍然为正常账户,而右图则是黑产账户。因为我们取的都是新注册账户,所以在注册时间点前无行为。从左图可以看出,正常账户在注册之后,每天会有均匀的登录 pattern,右图中的黑产账户则只在某个时间段内集中达成某种行为,这种 pattern 我们称之为时间聚集性。

0078a640d8387507f07fb6829a8072f14ce63530

小结:这两种特征是黑产账户所固有形成的。即,这些黑产受利益所驱动而无法绕开这些模式(只要能准确捕获黑产账户之间共享的设备信息,这里的设备不限于某一个手机、某一个IP地址,可以认为是一种媒介)。我们针对这些数据特点设计了基于图的神经网络算法识别黑产账户。

3.为什么图神经网络算法能识别黑产

一个直观的方法是联通子图方法。我们先构建账户-设备二部图,由于设备聚集性,我们可以计算每个联通子图的节点数目,每个账户的危害程度取决于该节点所在联通子图的节点数目。该函数本质上可以用图神经网络抽象。有兴趣的读者请见我们公众号另一篇文章:《论文 | 蚂蚁金服亮相数据挖掘顶会KDD 2018,这些你不可错过!》。

该方法可以准确识别那些设备聚集度特别高的黑产账户。但是对于设备聚集程度一般或较低的账户,很难做出准确区分。

4.GEM 方法如何工作

基于我们前面对设备聚集性和时间聚集性的分析,我们将上面的用于刻画联通子图的图神经网络方法进行扩展:

第一、我们构建异构图,包括账户类节点,以及多种类型的设备信息,如:电话、MAC、IMSI 以及其他 ID。

第二、我们为每个账户加入时间上的行为特征 X ∈ RN,P。其中每行 Xi 表示节点(账户或设备)在时间上的行为特征。我们希望构建的神经网络模型可以学习到通过设备聚集在一起的账户在行为特征上的模式,从而更准确的做出判别。

2657c76a0f8c8c89f8a0cc1287232786fe9f5fde

我们的算法如下:

52956868b5efe528dcbdbb4a1799c1d462bb3fa0

5.结果

我们使用了连续 4 周的数据,比较了 GEM 和其他有竞争力的方法在这些数据上的 AUC 和 F1-score 上的表现。

3592302741be91b8e98a5baaf3880663fecb1f5f

210540cbfce8c6c8a3fc62aedd4d60bceea5a700

下面,我们比较了这些方法在 Precision-Recall 曲线上的表现。从图中可以看出,GEM 可以在召回的头部到尾部,都保持相对一致的高准确度。这使得我们的方法可以在避免打扰正常账户的同时,有效打击黑产账户。

4072430c343854ad37848306c4fa8f60bc4bdf75

最后,我们分析了我们的算法自动识别的异构图中不同类型账户的有效性。这些分析可以帮助我们更加有效理解哪类设备在当前有高概率会被利用,以及随时间变化,黑产策略的调整等。

dafdee84c9d1f887ea8dc54e6d5faea16038b227

参考文献

[1] Ziqi Liu, Chaochao Chen, Xinxing Yang, Jun Zhou, Xiaolong Li, Le Song. Heterogeneous Graph Neural Networks for Malicious Account Detection. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management, Turin 2108.

— END —

相关文章
|
2月前
|
机器学习/深度学习 人工智能
类人神经网络再进一步!DeepMind最新50页论文提出AligNet框架:用层次化视觉概念对齐人类
【10月更文挑战第18天】这篇论文提出了一种名为AligNet的框架,旨在通过将人类知识注入神经网络来解决其与人类认知的不匹配问题。AligNet通过训练教师模型模仿人类判断,并将人类化的结构和知识转移至预训练的视觉模型中,从而提高模型在多种任务上的泛化能力和稳健性。实验结果表明,人类对齐的模型在相似性任务和出分布情况下表现更佳。
65 3
|
2月前
|
机器学习/深度学习 Web App开发 人工智能
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》这篇论文提出了一种基于YOLOv3-Tiny的轻量级目标检测模型Micro-YOLO,通过渐进式通道剪枝和轻量级卷积层,显著减少了参数数量和计算成本,同时保持了较高的检测性能。
38 2
轻量级网络论文精度笔(一):《Micro-YOLO: Exploring Efficient Methods to Compress CNN based Object Detection Model》
|
2月前
|
机器学习/深度学习 编解码 算法
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
67 1
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
|
2月前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
52 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
|
2月前
|
机器学习/深度学习 计算机视觉
TPAMI 2024:计算机视觉中基于图神经网络和图Transformers的方法和最新进展
【10月更文挑战第3天】近年来,图神经网络(GNNs)和图Transformers在计算机视觉领域取得显著进展,广泛应用于图像识别、目标检测和场景理解等任务。TPAMI 2024上的一篇综述文章全面回顾了它们在2D自然图像、视频、3D数据、视觉与语言结合及医学图像中的应用,并深入分析了其基本原理、优势与挑战。GNNs通过消息传递捕捉非欧式结构,图Transformers则结合Transformer模型提升表达能力。尽管存在图结构构建复杂和计算成本高等挑战,但这些技术仍展现出巨大潜力。论文详细内容见:https://arxiv.org/abs/2209.13232。
110 3
|
4月前
|
存储 缓存 网络协议
网络丢包排查方法
网络丢包排查方法
|
4月前
|
监控 安全 iOS开发
|
4月前
|
域名解析 运维 监控
网络故障排查的常用工具与方法:技术深度解析
【8月更文挑战第20天】网络故障排查是一项复杂而重要的工作,需要网络管理员具备扎实的网络知识、丰富的实践经验和灵活的问题解决能力。通过掌握常用工具和方法,遵循科学的排查流程,可以显著提高故障排查的效率和准确性。希望本文能为读者在网络故障排查方面提供有益的参考和启示。
|
3月前
|
机器学习/深度学习 数据采集 算法
图像处理神经网络数据预处理方法
图像预处理步骤对于图像处理神经网络至关重要。这些步骤不仅保证了数据的一致性和质量,还可以通过数据增强等技术提高模型的泛化能力,从而提升模型的整体性能。每一步骤的选择和应用都基于具体任务和数据集的特性,并在模型训练和测试过程中起到关键作用。
67 0
|
4月前
|
存储 监控 安全
确保大型组织网络安全的策略与方法
【8月更文挑战第24天】
98 0