CIKM 18 | 蚂蚁金服论文:基于异构图神经网络的恶意账户识别方法

简介: 世界上已知的第一个面向恶意账户检测的图神经网络方法GEM。

小蚂蚁说:

ACM CIKM 2018 全称是 The 27th ACM International Conference on Information and Knowledge Management,会议于2018年10月22日-26日在意大利都灵省举行。

CIMK 是国际计算机学会(ACM)举办的信息检索、知识管理和数据库领域的重要学术会议。本次大会目的在于明确未来知识与信息系统发展将面临的挑战和问题,并通过征集和评估应用性和理论性强的高质量研究成果以确定未来的研究方向。

本篇文章分享了蚂蚁金服在CIKM 2018上的一篇论文《Heterogeneous Graph Neural Networks for Malicious Account Detection》,作者包括刘子奇、陈超超、杨新星、周俊、李小龙、宋乐。

在线账户伴随着(移动)互联网的诞生而产生,在金融服务领域,这种通过批量、低成本注册的恶意账户的存在是十分危险的。本文介绍了一种新的基于异构图的、面向恶意账户识别的图神经网络方法GEM ,这也是这也是世界上已知的第一个面向恶意账户检测的图神经网络方法。

1.概述

本文的主要目的是介绍一种新的基于异构图的、面向恶意账户识别的图神经网络方法(GEM, Graph Embeddings for Malicious accounts)[1]。该方法是支付宝为保障体系内账户安全,降低恶意账户带来的资损,保障支付体系健康,在人工智能领域所做的努力和尝试。这也是世界上已知的第一个面向恶意账户检测的图神经网络方法

下面,我们将为大家讲解如下内容:

1.  恶意账户是什么?具有什么特点?

2.  为什么图神经网络方法能够高效识别恶意账户?

3.  我们的 GEM 方法如何工作?

感兴趣的朋友请直接戳论文查看细节:https://dl.acm.org/citation.cfm?id=3272010

2.恶意账户是什么?具有怎样的特点? 

2.1什么是恶意账户

随着(移动)互联网诞生,催生了多种形式的在线服务,在线账户随之产生。比如:Gmail 提供的邮件服务,微博/Twitter 提供的短消息分享服务,支付宝提供的支付服务等。通过注册大量 Gmail 邮箱账户,恶意用户就可能迅速、大量地扩散垃圾广告等信息。微博账户等也可能催生僵尸账户达到某种非法营销、传播目的。在金融服务领域,这种恶意账户的存在就更加危险,比如注册大量新账户达到薅羊毛、洗钱、欺诈等目的。

用一句话总结:恶意账户具有强烈获取利益倾向和团伙性质,往往是通过批量、低成本注册的账户。

2.2恶意账户的特点

本文我们对黑产账户数据进行分析,并总结如下特点:

1.设备聚集性:见下图所示。两张图分别展示了用户(纵轴)过去是否在设备(横轴)有过登录行为。蓝色点代表该用户过去有在某设备上登录过。其中,左图显示的是正常账户特征,右图显示的是恶意账户特征。从图中可以看出,左图  pattern 较为均匀(regular),即便不同类型的设备(媒介)上,其和账户连接的 pattern 可能密度不太一样。右图则完全不同,我们可以在黑产账户上看到极为有规律和稠密的 pattern。这说明,黑产账户更倾向于在设备(媒介)的联通上有着高聚集性。

9962a7294e322c9c236c8ae2c5c0d0bd966d63cc

2.时间聚集性:见下图所示。两张图分别展示了账户(纵轴)在时间(横轴)上的行为序列。其中一个蓝点代表该用户在某时间点上有登录行为。左图仍然为正常账户,而右图则是黑产账户。因为我们取的都是新注册账户,所以在注册时间点前无行为。从左图可以看出,正常账户在注册之后,每天会有均匀的登录 pattern,右图中的黑产账户则只在某个时间段内集中达成某种行为,这种 pattern 我们称之为时间聚集性。

0078a640d8387507f07fb6829a8072f14ce63530

小结:这两种特征是黑产账户所固有形成的。即,这些黑产受利益所驱动而无法绕开这些模式(只要能准确捕获黑产账户之间共享的设备信息,这里的设备不限于某一个手机、某一个IP地址,可以认为是一种媒介)。我们针对这些数据特点设计了基于图的神经网络算法识别黑产账户。

3.为什么图神经网络算法能识别黑产

一个直观的方法是联通子图方法。我们先构建账户-设备二部图,由于设备聚集性,我们可以计算每个联通子图的节点数目,每个账户的危害程度取决于该节点所在联通子图的节点数目。该函数本质上可以用图神经网络抽象。有兴趣的读者请见我们公众号另一篇文章:《论文 | 蚂蚁金服亮相数据挖掘顶会KDD 2018,这些你不可错过!》。

该方法可以准确识别那些设备聚集度特别高的黑产账户。但是对于设备聚集程度一般或较低的账户,很难做出准确区分。

4.GEM 方法如何工作

基于我们前面对设备聚集性和时间聚集性的分析,我们将上面的用于刻画联通子图的图神经网络方法进行扩展:

第一、我们构建异构图,包括账户类节点,以及多种类型的设备信息,如:电话、MAC、IMSI 以及其他 ID。

第二、我们为每个账户加入时间上的行为特征 X ∈ RN,P。其中每行 Xi 表示节点(账户或设备)在时间上的行为特征。我们希望构建的神经网络模型可以学习到通过设备聚集在一起的账户在行为特征上的模式,从而更准确的做出判别。

2657c76a0f8c8c89f8a0cc1287232786fe9f5fde

我们的算法如下:

52956868b5efe528dcbdbb4a1799c1d462bb3fa0

5.结果

我们使用了连续 4 周的数据,比较了 GEM 和其他有竞争力的方法在这些数据上的 AUC 和 F1-score 上的表现。

3592302741be91b8e98a5baaf3880663fecb1f5f

210540cbfce8c6c8a3fc62aedd4d60bceea5a700

下面,我们比较了这些方法在 Precision-Recall 曲线上的表现。从图中可以看出,GEM 可以在召回的头部到尾部,都保持相对一致的高准确度。这使得我们的方法可以在避免打扰正常账户的同时,有效打击黑产账户。

4072430c343854ad37848306c4fa8f60bc4bdf75

最后,我们分析了我们的算法自动识别的异构图中不同类型账户的有效性。这些分析可以帮助我们更加有效理解哪类设备在当前有高概率会被利用,以及随时间变化,黑产策略的调整等。

dafdee84c9d1f887ea8dc54e6d5faea16038b227

参考文献

[1] Ziqi Liu, Chaochao Chen, Xinxing Yang, Jun Zhou, Xiaolong Li, Le Song. Heterogeneous Graph Neural Networks for Malicious Account Detection. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management, Turin 2108.

— END —

相关文章
|
1月前
|
SQL 缓存 Cloud Native
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
132 63
|
3月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
669 146
|
3月前
|
监控 安全 网络安全
深入解析PDCERF:网络安全应急响应的六阶段方法
PDCERF是网络安全应急响应的六阶段方法,涵盖准备、检测、抑制、根除、恢复和跟进。本文详细解析各阶段目标与操作步骤,并附图例,助读者理解与应用,提升组织应对安全事件的能力。
541 89
|
25天前
|
缓存 数据中心 网络架构
5个减少网络延迟的简单方法
高速互联网对工作与娱乐至关重要,延迟和断线会严重影响效率和体验。本文探讨了导致连接缓慢的三个关键因素:吞吐量、带宽和延迟,并提供了减少延迟的实用方法。包括重启设备、关闭占用带宽的程序、使用有线连接、优化数据中心位置以及添加内容分发网络 (CDN) 等策略。虽然完全消除延迟不可能,但通过这些方法可显著改善网络性能。
218 7
|
1月前
|
机器学习/深度学习 数据安全/隐私保护
基于神经网络逆同步控制方法的两变频调速电机控制系统matlab仿真
本课题针对两电机变频调速系统,提出基于神经网络a阶逆系统的控制方法。通过构造原系统的逆模型,结合线性闭环调节器实现张力与速度的精确解耦控制,并在MATLAB2022a中完成仿真。该方法利用神经网络克服非线性系统的不确定性,适用于参数变化和负载扰动场景,提升同步控制精度与系统稳定性。核心内容涵盖系统原理、数学建模及神经网络逆同步控制策略,为工业自动化提供了一种高效解决方案。
|
1月前
|
Kubernetes Shell Windows
【Azure K8S | AKS】在AKS的节点中抓取目标POD的网络包方法分享
在AKS中遇到复杂网络问题时,可通过以下步骤进入特定POD抓取网络包进行分析:1. 使用`kubectl get pods`确认Pod所在Node;2. 通过`kubectl node-shell`登录Node;3. 使用`crictl ps`找到Pod的Container ID;4. 获取PID并使用`nsenter`进入Pod的网络空间;5. 在`/var/tmp`目录下使用`tcpdump`抓包。完成后按Ctrl+C停止抓包。
69 12
|
1月前
|
前端开发 Java 关系型数据库
基于ssm的网络直播带货管理系统,附源码+数据库+论文
该项目为网络直播带货网站,包含管理员和用户两个角色。管理员可进行主页、个人中心、用户管理、商品分类与信息管理、系统及订单管理;用户可浏览主页、管理个人中心、收藏和订单。系统基于Java开发,采用B/S架构,前端使用Vue、JSP等技术,后端为SSM框架,数据库为MySQL。项目运行环境为Windows,支持JDK8、Tomcat8.5。提供演示视频和详细文档截图。
60 10
|
1月前
|
canal 编解码 运维
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
SIGCOMM 2024 | 洛神云网络学术活动与论文分享
|
2月前
|
SQL 缓存 Cloud Native
NSDI'24 | 云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI'24 | 云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
|
1月前
|
负载均衡 数据中心 芯片
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关

热门文章

最新文章