开学季,也是电信网络诈骗的高发季。去年,山东徐玉玉案令人扼腕,尽管不久前,犯罪分子得到了应有的惩罚,但这种悲剧始终是不应该发生。因此,去年10月24日,国务院联席办和阿里巴巴联合推出了“钱盾反诈平台”,就是为了有效治理猖獗的电信网络诈骗。
最近,阿里巴巴安全部算法团队裕宏与钱盾团队梅黛共同产出的恶意电话识别论文“DeMalC: A Feature-rich Machine Learning Framework for Malicious Call Detection” 被信息检索、知识管理和数据库领域中的顶级ACM会议CIKM 2017收录。(注:CIKM全称是The ACM Conference on Information and Knowledge Management,是信息检索和数据挖掘领域的全球顶级学术会议,由美国计算机协会(ACM)主办。2017年工业界能够收录的论文在全球范围内仅有24篇。)
得知这一消息,我们第一时间找到了这两位同学。
裕宏是以“阿里星”的身份进入阿里巴巴的(“阿里星”就是每年最厉害的校招生咯),他擅长进行时间序列的数据挖掘,比如股票、心电图以及走路的轨迹等。当年,他曾开创一个算法模式比国外的大拿教授的模式提速了10-1000倍。毕业前,他在微软研究院实习时,又进行过位置和轨迹的相关研究。
梅黛则对数据应用、大数据及机器学习感兴趣,目前在钱盾团队负责欺诈电话的相关数据及算法研究。
实际上,裕宏和梅黛提出了11个能够辨别一个陌生来电是否为恶意电话的维度,但出于保密及降低对抗几率的缘故,裕宏和梅黛只对其中的7个维度进行了介绍。
1、号码本身的属性。
例如号码类型(固话还是移动电话)、运营商(三大运营商+一众虚拟运营商)、归属地等。从事诈骗的团队往往来自某些固定的区域,这并不是地域歧视,而是真实的现状。
2、呼入、呼出的频次和比例。
很简单,骗子呼出电话的频次和比例会远大于呼入电话,这个指标很异常,也非常容易理解。
3、呼入、呼出的时长。
一般人接到骗子电话,会马上挂断或者骂一句再挂断。总之,接到正常电话我们一般不会这么快就挂。所以,骗子的电话绝大多数具有接通时间极短就结束的特征。
4、号码本身的活跃度。
显然,诈骗号码,每天都在不停地一个接一个地打电话。然鹅,正常号码是不会这样的。裕宏和梅黛告诉我们,诈骗电话来电时间在每天和每周的分布其实都是有规律的。
5、呼出电话的城市位置信息。
刚才说过,一般的私人电话可能只会和一两个城市的人通话,而骗子显然不会。当然有些公司的电话也有这样的属性,这个话题后面再说。
6、呼出电话对方的设备信息。
每部电话都会对应一个独特的识别码,这个是可以获得的。如果一个电话每次呼叫的设备都不同,那么显然是不正常的。(这个和刚才的呼出电话城市位置信息有异曲同工的地方)
7、拨打的对象之间的联系。
事实上,拨打的电话之间一般也是有联系的。比如你的前女友的现男友可能是你的好基友。如果一个电话拨出去的对象,完全没有任何联系,也是十分可疑的。
上面这七个维度,我们从感性的角度给老铁们做了一下解释,而具体的算法需要结合七个维度的十亿条数据,通过天书一样的算法,最终给一个电话号码的“诈骗度”打分。
如果一个电话号码最后分数很高,比如说90分,这就很可能意味着七个维度中它中枪了六个半,很可能是每天不接电话,反倒给不同城市的不同电话打了1000个,并且这1000个电话机主还互相不认识。这基本就是诈骗无疑了。
总而言之。
正常的电话,大多数呼叫会拨打给固定的几个人,而诈骗电话呢?
正常的电话,大多会打给固定几个城市,而诈骗电话呢?
正常的电话,打出去和接进来电话的数量大概相同,而诈骗电话呢?
怎么样,是不是有点感觉了?
拨打、接到电话的数量、目标城市、时长、频率,这些都是不同维度的数据。而这些数据里面,隐藏着每一个电话身份的“惊天秘密”。
然而,这里还只是讲到了7个维度,如果综合论文里面的11个维度来进行判定,那么就可以更为精准地为骗子“画个像”。
据悉,这项技术正在部署钱盾当中……
注:钱盾反诈平台是国务院打击治理电信网络新型违法犯罪部际联席会议办公室与阿里巴巴集团联合开发的“反诈神器”,是覆盖手机端、PC端、Pad端,专业解决用户资金安全、防信息泄露的技术平台。
本文部分引用微信公众号“浅黑科技”,原文作者:史中