CIKM 18 | 蚂蚁金服论文:基于异构图神经网络的恶意账户识别方法-阿里云开发者社区

开发者社区> 平生栗子> 正文

CIKM 18 | 蚂蚁金服论文:基于异构图神经网络的恶意账户识别方法

简介: 世界上已知的第一个面向恶意账户检测的图神经网络方法GEM。
+关注继续查看

小蚂蚁说:

ACM CIKM 2018 全称是 The 27th ACM International Conference on Information and Knowledge Management,会议于2018年10月22日-26日在意大利都灵省举行。

CIMK 是国际计算机学会(ACM)举办的信息检索、知识管理和数据库领域的重要学术会议。本次大会目的在于明确未来知识与信息系统发展将面临的挑战和问题,并通过征集和评估应用性和理论性强的高质量研究成果以确定未来的研究方向。

本篇文章分享了蚂蚁金服在CIKM 2018上的一篇论文《Heterogeneous Graph Neural Networks for Malicious Account Detection》,作者包括刘子奇、陈超超、杨新星、周俊、李小龙、宋乐。

在线账户伴随着(移动)互联网的诞生而产生,在金融服务领域,这种通过批量、低成本注册的恶意账户的存在是十分危险的。本文介绍了一种新的基于异构图的、面向恶意账户识别的图神经网络方法GEM ,这也是这也是世界上已知的第一个面向恶意账户检测的图神经网络方法。

1.概述

本文的主要目的是介绍一种新的基于异构图的、面向恶意账户识别的图神经网络方法(GEM, Graph Embeddings for Malicious accounts)[1]。该方法是支付宝为保障体系内账户安全,降低恶意账户带来的资损,保障支付体系健康,在人工智能领域所做的努力和尝试。这也是世界上已知的第一个面向恶意账户检测的图神经网络方法

下面,我们将为大家讲解如下内容:

1.  恶意账户是什么?具有什么特点?

2.  为什么图神经网络方法能够高效识别恶意账户?

3.  我们的 GEM 方法如何工作?

感兴趣的朋友请直接戳论文查看细节:https://dl.acm.org/citation.cfm?id=3272010

2.恶意账户是什么?具有怎样的特点? 

2.1什么是恶意账户

随着(移动)互联网诞生,催生了多种形式的在线服务,在线账户随之产生。比如:Gmail 提供的邮件服务,微博/Twitter 提供的短消息分享服务,支付宝提供的支付服务等。通过注册大量 Gmail 邮箱账户,恶意用户就可能迅速、大量地扩散垃圾广告等信息。微博账户等也可能催生僵尸账户达到某种非法营销、传播目的。在金融服务领域,这种恶意账户的存在就更加危险,比如注册大量新账户达到薅羊毛、洗钱、欺诈等目的。

用一句话总结:恶意账户具有强烈获取利益倾向和团伙性质,往往是通过批量、低成本注册的账户。

2.2恶意账户的特点

本文我们对黑产账户数据进行分析,并总结如下特点:

1.设备聚集性:见下图所示。两张图分别展示了用户(纵轴)过去是否在设备(横轴)有过登录行为。蓝色点代表该用户过去有在某设备上登录过。其中,左图显示的是正常账户特征,右图显示的是恶意账户特征。从图中可以看出,左图  pattern 较为均匀(regular),即便不同类型的设备(媒介)上,其和账户连接的 pattern 可能密度不太一样。右图则完全不同,我们可以在黑产账户上看到极为有规律和稠密的 pattern。这说明,黑产账户更倾向于在设备(媒介)的联通上有着高聚集性。

9962a7294e322c9c236c8ae2c5c0d0bd966d63cc

2.时间聚集性:见下图所示。两张图分别展示了账户(纵轴)在时间(横轴)上的行为序列。其中一个蓝点代表该用户在某时间点上有登录行为。左图仍然为正常账户,而右图则是黑产账户。因为我们取的都是新注册账户,所以在注册时间点前无行为。从左图可以看出,正常账户在注册之后,每天会有均匀的登录 pattern,右图中的黑产账户则只在某个时间段内集中达成某种行为,这种 pattern 我们称之为时间聚集性。

0078a640d8387507f07fb6829a8072f14ce63530

小结:这两种特征是黑产账户所固有形成的。即,这些黑产受利益所驱动而无法绕开这些模式(只要能准确捕获黑产账户之间共享的设备信息,这里的设备不限于某一个手机、某一个IP地址,可以认为是一种媒介)。我们针对这些数据特点设计了基于图的神经网络算法识别黑产账户。

3.为什么图神经网络算法能识别黑产

一个直观的方法是联通子图方法。我们先构建账户-设备二部图,由于设备聚集性,我们可以计算每个联通子图的节点数目,每个账户的危害程度取决于该节点所在联通子图的节点数目。该函数本质上可以用图神经网络抽象。有兴趣的读者请见我们公众号另一篇文章:《论文 | 蚂蚁金服亮相数据挖掘顶会KDD 2018,这些你不可错过!》。

该方法可以准确识别那些设备聚集度特别高的黑产账户。但是对于设备聚集程度一般或较低的账户,很难做出准确区分。

4.GEM 方法如何工作

基于我们前面对设备聚集性和时间聚集性的分析,我们将上面的用于刻画联通子图的图神经网络方法进行扩展:

第一、我们构建异构图,包括账户类节点,以及多种类型的设备信息,如:电话、MAC、IMSI 以及其他 ID。

第二、我们为每个账户加入时间上的行为特征 X ∈ RN,P。其中每行 Xi 表示节点(账户或设备)在时间上的行为特征。我们希望构建的神经网络模型可以学习到通过设备聚集在一起的账户在行为特征上的模式,从而更准确的做出判别。

2657c76a0f8c8c89f8a0cc1287232786fe9f5fde

我们的算法如下:

52956868b5efe528dcbdbb4a1799c1d462bb3fa0

5.结果

我们使用了连续 4 周的数据,比较了 GEM 和其他有竞争力的方法在这些数据上的 AUC 和 F1-score 上的表现。

3592302741be91b8e98a5baaf3880663fecb1f5f

210540cbfce8c6c8a3fc62aedd4d60bceea5a700

下面,我们比较了这些方法在 Precision-Recall 曲线上的表现。从图中可以看出,GEM 可以在召回的头部到尾部,都保持相对一致的高准确度。这使得我们的方法可以在避免打扰正常账户的同时,有效打击黑产账户。

4072430c343854ad37848306c4fa8f60bc4bdf75

最后,我们分析了我们的算法自动识别的异构图中不同类型账户的有效性。这些分析可以帮助我们更加有效理解哪类设备在当前有高概率会被利用,以及随时间变化,黑产策略的调整等。

dafdee84c9d1f887ea8dc54e6d5faea16038b227

参考文献

[1] Ziqi Liu, Chaochao Chen, Xinxing Yang, Jun Zhou, Xiaolong Li, Le Song. Heterogeneous Graph Neural Networks for Malicious Account Detection. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management, Turin 2108.

— END —

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
McAfee和Brocade将联合开发网络安全解决方案
Brocade和McAfee宣布建立战略合作伙伴关系以提供一套广泛的完全相互兼容的端对端的网络安全解决方案。 作为这个合作的一部分,Brocade将与McAfee合作把重要的安全功能集成到Brocade的网络产品家族中。
543 0
强强联合!蚂蚁金服与新炬网络战略合作,共同致力于国产数据库的技术推广和生态建设
蚂蚁金服和新炬网络合作,用创新技术与开放思维,推动基础技术自主研发,共同开拓新的市场。
1273 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4519 0
IEEE为计算、存储、控制和网络技术制定了雾计算标准
为了扩大雾计算的使用,IEEE制定了一个新的标准,该标准将奠定官方基础以确保设备、传感器、监视器和服务是可互操作的,并将共同处理来自物联网、5G和人工智能(AI)系统大量的数据流。 该标准被称为IEEE 1934,由OpenFog Consortium开发,其中包括ARM、思科、戴尔、英特尔、微软和普林斯顿大学。
1670 0
神经网络图的简介(基本概念,DeepWalk以及GraphSage算法)
本文旨在介绍图形神经网络的基础知识两种较高级的算法,DeepWalk和GraphSage。
456 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
3278 0
+关注
139
文章
0
问答
来源圈子
更多
蚂蚁以“为世界带来更多平等的机会”为使命,致力于通过科技创新能力,搭建一个开放、共享的信用体系和金融服务平台,为全球消费者和小微企业提供安全、便捷的普惠金融服务。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载