如何用大数据揪出一个骗子? | 深度

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:
     有人从偏远的山村低价购买身份证,以每个身份证几百元的价格卖给下家;


黑客开发出自动化的程序和脚本,寻找、开发最先进的移动端模拟器;


在无数的打码平台上,想要赚外快的人们正在以每个一分钱的酬劳手动输入他们看到的图形验证码;


所有的“分工”都指向一个明确的目的:把某 O2O 或金融理财类 App 用来招揽新户的高额补贴瞬间“薅”光。

对于很多创业团队来说,新业务往往会在“薅羊毛”团伙的狂轰滥炸由于补贴支出过于庞大而被迫下线。然而这还远远不是全部。在赛博世界里,针对各种业务的“灰产团伙”已经集结成军。

如何用大数据揪出一个骗子? | 深度

【在QQ群里刷屏的“羊毛信息”】

大数据会出卖骗子吗?

对于O2O行业,薅羊毛、刷单和垃圾注册可能瞬间拉倒一个平台,对于互联网金融来说,恶意借款、信用欺诈同样让公司蒙受巨额损失。最可怕的问题是,这些遭受损失的公司可能根本无法定位到对手在哪。

哪里有压迫哪里就有反抗。在这个“盗匪猖獗”的凶险环境里,出现了专门使用顶尖技术实现反欺诈的“民兵”。对于同盾科技的反欺诈及基础产品总监祝伟来说,他相信大数据和相关技术就是一盏火把,可以驱除眼前的蒙昧无知,看清敌人的一举一动。

通过对正常用户的分析,可以得出一个行为模型。而一个潜在的威胁者,出于恶意目的,他的行为一定和正常的用户有所不同。

祝伟告诉雷锋网,找出“骗子”的行为特征在各个数据维度上的特点,并且判断出潜在的风险,就是同盾科技的核心技术。如此看来,足够大的数据量就像一瓶显影液,在浩如烟海的人群里让骗子现形。但是,究竟哪些行为会出卖骗子呢?

坏人的蛛丝马迹

代理 IP

坏人永远不希望受害者带着警察找上门。所以,在干坏事的时候,他需要一个代理IP。

任何一个互联网用户访问某网站的时候,都会被分配一个IP地址,和网站通信的过程就相相当于邮寄一封封信。因为需要回信,所以所有访问者必须填写自己的地址。而“他们”显然不希望自己的真实IP被知道。所以他们会通过代理软件,通过一个跳板访问网站,这样就可以隐匿真实的 IP 地址。

而我们要做的,就是用模拟IP代理协议来探测一个 IP 究竟有没有对外提供代理功能。通过扫描的方式,可以识别绝大多数的代理 IP。但由于 IP 的时效性比较差,有可能前一天这个 IP 是代理 IP,而第二天就变成了正常的 IP,所以我们的检测基本上是准实时的。

但是,代理 IP 只是评价一个访问者是否具有风险的千万条规则中的一个,想要定位到具体的人,还需要其他的判定条件,例如:精准地定位到这个人手中所使用的设备。

如何用大数据揪出一个骗子? | 深度

【某 IP 代理软件】

设备指纹

如果面对面,我很容易识别出你用的是什么手机什么电脑,你的设备会在我心中留下一个对应的形象;但是下次见到你,我都很难判断你手上的手机究竟是不是和上次一模一样的那个。而如何能在千里之外,只通过数字和代码就为设备打上独一无二的“指纹”,则更加艰难。

“每当一个设备连接到网站,系统就会在权限内探测尽可能多的设备信息,例如终端的环境、MAC地址等硬件参数。通过诸多数据为每个设备分配一个ID。”

祝伟告诉雷锋网,设备指纹可以应用在很多场景中:

很多账户通过同一个 IP 地址登录网站,这件事情有可能发生。例如一家公司的 Wi-Fi 可能连接了100名同事,此时他们共用一个 IP。但是这100名同事中有10名登录淘宝的可能性很大,这并不是异常。所以在这个情况下,IP 并不能作为判定条件,而是要采用更精细的设备指纹。一个特定的设备上,如果有10个账户登录淘宝,这样的行为本身就是一种异常,表明注册刷单的可能性很大。

不仅如此,通过设备指纹还可以轻松定位出刷单团伙。

几个账户同时在一个设备上登录,而这几个账户又曾经在其他设备上登录过。根据这样的“交叉登录”行为,可以勾勒出一个团伙使用的的所有设备。当然,设备指纹作为一个重要的维度,还要结合 IP、用户提交的身份证信息、用户其他行为等等,就可以很精准地描绘出团伙的行为和规模。

模拟器

灰产已经集结成军。而既然是军队,就会采用大规模杀伤性武器——自动化工具。

这些自动化工具一般会在 PC 上使用模拟机模拟手机的运行环境,然后按照脚本批量进行特定操作。探测到某个用户正在使用虚拟机进行登录,那么这个用户就是很可疑的,因为正常的用户几乎不可能用虚拟机来登录这些服务。

祝伟告诉雷锋网(公众号:雷锋网),他曾经注意到同盾科技的检测系统报告过某平台的一次异常登录。

一天早上,有一个用户试图登录多个账号,但是被平台拦截了;


接下来他试着更换了不同的 IP 地址登录,还是被识别出来;


接下来他又使用了模拟器登录,仍然被拒绝。


这是一个典型的异常行为。后来我们对这个用户进行追踪,发现 Ta 不久前在一个著名的“羊毛论坛”发表过针对这个平台的“薅羊毛”技术贴。根据这些数据进行全局关联,我们还原了 Ta 尝试“薅羊毛”的路径,认为这就是一个典型的羊毛党。

如何用大数据揪出一个骗子? | 深度

【某安卓手机模拟器】

彪悍的大数据

通过技术手段的判定和用户的反馈,风控云背后积累了众多的正常用户和风险用户数据。对于某些数据而言,分散在各行业各平台之中,并没有明显的价值,而一旦被汇总到统一的系统中,价值就会呈几何数级增长。

祝伟把这种彪悍的数据应用称为“联防联控”。他举了一个信贷行业的例子:

各大借款平台的借款人是有可能重合的。


如果一个人在A平台上提出了借款申请,而大数据显示他在B平台因为拖欠贷款已经被追债玩失联。这个时候系统就会提示A平台这个用户存在巨大风险。


如果一个人在A平台上提出了借款申请,而大数据显示他同时在BCDEF平台都提出了借款申请,说明这个人对钱的渴望程度非常高,这可能表明这个人的经济状况不佳,存在一定风险。


如果一个人在A平台上提出了借款申请,而大数据显示他已经在BCD平台成功借款,这说明他的负债金额很大。


当然数据的维度不止于此,例如我们也可以通过高院的接口来调查这个人是否有过法院纠纷。对于A平台来说,这些数据使得这个人的背景并不是一片漆黑,他们可以根据自己的风险承受能力选择是否批准。

当然,所有技术手段,例如判断账号的交叉登录、同一设备多账号登录、某一类特定归属地的电话号码用户登录,其实都采用了多组数据组成多个规则的方法,对潜在的风险进行筛查。而为了精准地揪出“坏人”,还需要高质量的情报,所以各大羊毛党论坛、qq群成为了非常重要的情报来源。

祝伟说,当羊毛党在论坛或群里发帖招揽“同伙”的时候,系统会根据某些关键词自动抓取这类“羊毛信息”,再把信息通知到相应的平台。当然最重要的一步是:检验自己究竟有没有防护接下来可能到来的潮水般的攻击。

曾经有一个客户平台,他们的新产品刚刚上线,我们的系统监控到某专门的论坛里有羊毛党盯上了这个产品。让人惊讶的是,很短的时间内,他们就把刷产品的方法、教程、软件工具全部准备好并且放到网络上了。羊毛党的攻击虽然千奇百怪,但是基础原理大同小异,例如用不同的方法实现代理 IP,或者采用最新的模拟器来逃过模拟器检测。在这种不断对抗的攻防中,我们要做的就是不断升级自己的规则,保证识别效果。

当然,为了保证风控效果,很多更为精尖的识别规则无法对外透露。但言而总之,为了揪出一个骗子,无数顶尖专家耗用了诸多最先进的科技。同盾科技CEO蒋韬早些时候曾经对雷锋网表示:“攻防是一个相互对抗的过程。在中国的实际情况下,黑产的力量非常强大,所以客观上风控的技术也变得国际领先。”

面对大数据组成的“照妖镜”,铤而走险的骗子们可以尝试一下最后一招——金盆洗手。

如何用大数据揪出一个骗子? | 深度

  
 
  本文作者: 史中

本文转自雷锋网禁止二次转载, 原文链接
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
5月前
|
存储 分布式计算 大数据
大数据处理竟然这么简单?学会这几招,你也能在数据洪流中游刃有余,秒变数据大师!
【8月更文挑战第6天】面对海量数据,有效处理成为关键。本文介绍大规模数据处理的核心挑战及解决方案,涵盖分布式存储(如HDFS)和计算(如Spark)。通过示例代码展示HDFS文件读写及Spark数据处理流程。此外,还强调了数据质量、安全及合理资源配置的重要性,助您在数据海洋中洞察先机。
89 1
|
5月前
|
存储 分布式计算 大数据
惊了!大数据时代来袭,传统数据处理OUT了?创新应用让你眼界大开,看完这篇秒变专家!
【8月更文挑战第6天】在数据爆炸的时代,高效利用大数据成为关键挑战与机遇。传统数据处理手段难以胜任现今海量数据的需求。新兴的大数据技术,如HDFS、NoSQL及MapReduce、Spark等框架,为大规模数据存储与处理提供了高效解决方案。例如,Spark能通过分布式计算极大提升处理速度。这些技术不仅革新了数据处理方式,还在金融、电商等领域催生了风险识别、市场预测及个性化推荐等创新应用。
113 1
|
存储 数据可视化 大数据
大数据:挖掘无尽的信息金矿
大数据已经成为数字时代的重要驱动力,它不仅改变了我们的商业模式、科学研究和社会运作方式,还为创新和发展带来了无限的机遇。通过分析和利用大数据,我们能够更好地了解世界的运行规律,做出更明智的决策,推动社会的进步。
132 2
|
安全 5G SDN
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍(一)
《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍(一)
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍(一)
|
边缘计算 安全 物联网
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍(三)
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍(三)
|
人工智能 编解码 运维
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍(二)
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍(二)
|
数据采集 机器学习/深度学习 存储
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍(六)
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍
|
数据采集 存储 运维
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍(四)
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍
|
边缘计算 运维 安全
带你读《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍(五)
《扬帆远航 5G 融合应用实践精编》第三章钢铁行业3.2案例介绍(五)