阿里的攻城狮和程序媛用算法给骗子“画个像”

简介: 最近,阿里巴巴安全部算法团队裕宏与钱盾团队梅黛共同产出的恶意电话识别论文“DeMalC: A Feature-rich Machine Learning Framework for Malicious Call Detection” 被信息检索、知识管理和数据库领域中的顶级ACM会议CIKM 2017收录。

开学季,也是电信网络诈骗的高发季。去年,山东徐玉玉案令人扼腕,尽管不久前,犯罪分子得到了应有的惩罚,但这种悲剧始终是不应该发生。因此,去年10月24日,国务院联席办和阿里巴巴联合推出了“钱盾反诈平台”,就是为了有效治理猖獗的电信网络诈骗。

最近,阿里巴巴安全部算法团队裕宏与钱盾团队梅黛共同产出的恶意电话识别论文“DeMalC: A Feature-rich Machine Learning Framework for Malicious Call Detection” 被信息检索、知识管理和数据库领域中的顶级ACM会议CIKM 2017收录。(注:CIKM全称是The ACM Conference on Information and Knowledge Management,是信息检索和数据挖掘领域的全球顶级学术会议,由美国计算机协会(ACM)主办。2017年工业界能够收录的论文在全球范围内仅有24篇。)
1

得知这一消息,我们第一时间找到了这两位同学。

裕宏是以“阿里星”的身份进入阿里巴巴的(“阿里星”就是每年最厉害的校招生咯),他擅长进行时间序列的数据挖掘,比如股票、心电图以及走路的轨迹等。当年,他曾开创一个算法模式比国外的大拿教授的模式提速了10-1000倍。毕业前,他在微软研究院实习时,又进行过位置和轨迹的相关研究。

梅黛则对数据应用、大数据及机器学习感兴趣,目前在钱盾团队负责欺诈电话的相关数据及算法研究。

实际上,裕宏和梅黛提出了11个能够辨别一个陌生来电是否为恶意电话的维度,但出于保密及降低对抗几率的缘故,裕宏和梅黛只对其中的7个维度进行了介绍。

1、号码本身的属性。

例如号码类型(固话还是移动电话)、运营商(三大运营商+一众虚拟运营商)、归属地等。从事诈骗的团队往往来自某些固定的区域,这并不是地域歧视,而是真实的现状。

2、呼入、呼出的频次和比例。

很简单,骗子呼出电话的频次和比例会远大于呼入电话,这个指标很异常,也非常容易理解。

3、呼入、呼出的时长。

一般人接到骗子电话,会马上挂断或者骂一句再挂断。总之,接到正常电话我们一般不会这么快就挂。所以,骗子的电话绝大多数具有接通时间极短就结束的特征。

4、号码本身的活跃度。
2

显然,诈骗号码,每天都在不停地一个接一个地打电话。然鹅,正常号码是不会这样的。裕宏和梅黛告诉我们,诈骗电话来电时间在每天和每周的分布其实都是有规律的。

5、呼出电话的城市位置信息。

刚才说过,一般的私人电话可能只会和一两个城市的人通话,而骗子显然不会。当然有些公司的电话也有这样的属性,这个话题后面再说。

6、呼出电话对方的设备信息。

每部电话都会对应一个独特的识别码,这个是可以获得的。如果一个电话每次呼叫的设备都不同,那么显然是不正常的。(这个和刚才的呼出电话城市位置信息有异曲同工的地方)

7、拨打的对象之间的联系。
3

事实上,拨打的电话之间一般也是有联系的。比如你的前女友的现男友可能是你的好基友。如果一个电话拨出去的对象,完全没有任何联系,也是十分可疑的。

上面这七个维度,我们从感性的角度给老铁们做了一下解释,而具体的算法需要结合七个维度的十亿条数据,通过天书一样的算法,最终给一个电话号码的“诈骗度”打分。

如果一个电话号码最后分数很高,比如说90分,这就很可能意味着七个维度中它中枪了六个半,很可能是每天不接电话,反倒给不同城市的不同电话打了1000个,并且这1000个电话机主还互相不认识。这基本就是诈骗无疑了。

总而言之。

正常的电话,大多数呼叫会拨打给固定的几个人,而诈骗电话呢?

正常的电话,大多会打给固定几个城市,而诈骗电话呢?

正常的电话,打出去和接进来电话的数量大概相同,而诈骗电话呢?

怎么样,是不是有点感觉了?

拨打、接到电话的数量、目标城市、时长、频率,这些都是不同维度的数据。而这些数据里面,隐藏着每一个电话身份的“惊天秘密”。

然而,这里还只是讲到了7个维度,如果综合论文里面的11个维度来进行判定,那么就可以更为精准地为骗子“画个像”。

据悉,这项技术正在部署钱盾当中……

注:钱盾反诈平台是国务院打击治理电信网络新型违法犯罪部际联席会议办公室与阿里巴巴集团联合开发的“反诈神器”,是覆盖手机端、PC端、Pad端,专业解决用户资金安全、防信息泄露的技术平台。

本文部分引用微信公众号“浅黑科技”,原文作者:史中

目录
相关文章
|
缓存 算法 架构师
阿里P9架构师终于把毕生心血而成的分布式高可用算法笔记开源了
说在前面的话 分布式系统无处不在。 一台计算机内部多个互联的处理器组成了一个分布式系统,它们通过“一致性缓存”算法使每个处理器核心看到相同的数据。近三十年来,随着互联网的发展,越来越多的互联网后台系统采用计算机集群的方式来应对海量请求和数据的需求,这个计算机集群也是分布式系统。 为了简化分布式系统的开发,出现了很多为开发者提供分布式框架的开源项目,例如Apache基金会旗下的ZooKeeper项目就是一个应用广泛的分布式框架。 同时,国内也有很多关于如何使用这些分布式框架来搭建应用的书籍,它们极大地推动了分布式系统在国内的应用。我们不仅要知道如何使用这些现成的分布式框架来搭建应用,而且应
|
6月前
|
存储 算法
【数据结构与算法】【腾讯阿里链表面试题】算法题--链表易懂版讲解
【数据结构与算法】【腾讯阿里链表面试题】算法题--链表易懂版讲解
|
6月前
|
算法 搜索推荐 Java
太实用了!阿里内部强推的超全Java算法学习指南,已被彻底征服
算法和数据结构一直以来都是程序员的基本内功。 数据结构可以看作是算法实现的容器,通过一系列特殊结构的数据集合,能够将算法更为高效而可靠地执行起来。
|
6月前
|
算法 NoSQL Java
2023年阿里高频Java面试题:分布式+中间件+高并发+算法+数据库
又到了一年一度的金九银十,互联网行业竞争是一年比一年严峻,作为工程师的我们唯有不停地学习,不断的提升自己才能保证自己的核心竞争力从而拿到更好的薪水,进入心仪的企业(阿里、字节、美团、腾讯.....)
|
11月前
|
存储 人工智能 算法
|
算法 网络协议 Java
48W字?GitHub上下载量破百万的阿里:图解Java、网络、算法笔记
Java基础这个东西,无论在哪个公司都被看得尤为重要,而面试中关于基础的问题也是层出不穷。所以基础可以说是重中之重,当你的基础打牢了,其他的也就没有那么重要了。
|
Kubernetes 算法 关系型数据库
No.3 腾讯,阿里,字节,优科面经(上-算法篇)
No.3 腾讯,阿里,字节,优科面经(上-算法篇)
|
算法 安全 Java
阿里二面:JVM 的三色标记算法你了解吗?
阿里二面:JVM 的三色标记算法你了解吗?
113 0
2023年阿里高频Java面试题:分布式+中间件+高并发+算法+数据库
又到了一年一度的金九银十,互联网行业竞争是一年比一年严峻,作为工程师的我们唯有不停地学习,不断的提升自己才能保证自己的核心竞争力从而拿到更好的薪水,进入心仪的企业(阿里、字节、美团、腾讯.....)
|
算法 NoSQL Java
2021年阿里高频Java面试题:分布式+中间件+高并发+算法+数据库
又到了一年一度的金九银十,互联网行业竞争是一年比一年严峻,作为工程师的我们唯有不停地学习,不断的提升自己才能保证自己的核心竞争力从而拿到更好的薪水,进入心仪的企业(阿里、字节、美团、腾讯.....)