DataVisor大数据独创算法,实现真正智能的反欺诈预警-阿里云开发者社区

开发者社区> 行者武松> 正文

DataVisor大数据独创算法,实现真正智能的反欺诈预警

简介:
+关注继续查看

互联网的发展,让在线服务呈现爆炸式增长,从而产生的亿万互联网用户的身份标签。社交网站、电商、互联网金融等越来越活跃的今天,互联网带来便捷的同时也带来风险。各种欺诈活动,层出不穷,社交网上假屏,刷帖电商上有的是薅羊毛,刷单,金融领域它有身份盗取,开假帐号,信用卡交易欺诈,银行转账欺诈,洗钱等等。归根到底都是属于那种恶意的帐号的活动。

今天基于大数据分析的欺诈预警和检测,成为互联网的必备手段,但是传统的数据分析都是利用建模、数据画像、监督等安全监测手段,都需要提供已有的监测算法、人工标签或者训练数据,来建立监测发现已知的恶意活动。但是欺诈行业有它的特殊性,特殊性就在于它所面对的是不断变换的欺诈者,不断变化的欺诈方式。同时知道你的防线、你的防御,能够绕过这些平台上已经采取的一些检测手段,所以它一直是有一些敌我之间这种相互的博弈状况。包括早期的规则系统,包括下一代有监督的机器学习,但是这些手段又具有局限性。

但是我们知道各种欺诈的源头就是在代表亿万互联网用户的身份的数字账号。如果能在账号建立之初就能做出预警和检测,那么用户的损失就能减少最低。近日DataVisor CEO兼联合创始人Yinglian Xie(谢映莲)接受包括至顶网在内的媒体采访。详细介绍了DataVisor利用当前先进的人工智能技术研发的基于Spark大数据平台独创的无监督欺诈检测服务算法平台,为面向用户的网站提供包括个体欺诈和分布式群体欺诈的先进的反欺诈检测服务。

DataVisor大数据独创算法,实现真正智能的反欺诈预警

 

DataVisor CEO兼联合创始人Yinglian Xie

DataVisor 是2013年成立的一家硅谷初创技术创新企业,谢映莲表示公司的愿景是希望利用最先进的人工智能技术,结合大数据应用,最大程度保护用户的数字资产。

数字用户与现实用户的防范在本质上相同。就像你要了解一个人,不仅要通过这个人本身,还要通过他的周边的联系,才能全面系统的做个了解。数字用户同样如此,数字用户主要基于数据的判断,数据有两个不同的维度,一个维度是每个用户可以有很详细的画像,这是一个维度,目前大数据分析公司很多都是走的这个维度,让这个用户的行为越详细,越充分,你就越容易判断。DataVisor在这个维度之外,有提出另外一种维度,就是挖掘纵向的用户之间的关系。当成千上万的用注册一起看的时候,通过对数据不同方式的挖掘,提供不同层次的对于恶意活动和欺诈的预判。这就需要更高挑战、更复杂的算法。

DataVisor基于Spark大数据平台独创的无监督欺诈算法,是DataVisor独创的高效欺诈检测算法。它与传统的基于既定规则或基于监督学习模型的算法不同。此算法无需客户提供标注数据,每小时可分析数十亿新发生的事件,对新型的、变化多端的欺诈行为进行提前预警,并提早自动发现未知的恶意欺诈行为,为网络欺诈和金融犯罪提供检测服务。

基于对海量用户账户的行为、设备、IP地址等进行高纬度用户画像及全方位的关联和相似性分析。DataVisor大数据系统会自动挖掘出潜在的各种群体性(手动操作或基于自动作弊脚本的)隐蔽欺诈行为。谢映莲谈到这项算法技术无需训练数据或标签。比如发现一个新型的欺诈用户群组,虽然该欺诈用户群组在实施欺诈和恶意攻击前会潜伏一段时间,传统检测手段不容易发现,但DataVisor的无监督用户分析服务能够自动发现用户间的相似性和整个组织的异常行为,比如在发动攻击前会做少量但极相似的交易测试。DataVisor能够做出判断,大大提升自动封禁或者人工审核的效率。

具体来讲,DataVisor无监督用户分析服务有几个特点: 第一是实现早期预警,DataVisor能够在欺诈性用户发动攻击之前进行预警。90%的欺诈性交易或者恶意用户能够被提前或者实时检测。在保证用户实际损失之前就检测到恶意用户或者欺诈账号。

第二个就是超高的覆盖率和准确率。DataVisor能够检测整条攻击产业链。比如发现一个新型的欺诈用户群组,虽然该欺诈用户群组在实施欺诈和恶意攻击前会潜伏一段时间,传统检测手段不容易发现,但DataVisor的无监督用户分析服务能够自动发现用户间的相似性和整个组织的异常行为,比如在发动攻击前会做少量但极相似的交易测试。DataVisor能够做出判断,大大提升自动封禁或者人工审核的效率。

第三,无监督检测,无需人工标记和训练数据,自动发现未知攻击。每天检测50万以上的恶意账号。第四海量的可扩展性,每小时分析数十亿的事件日志。每天为四亿多用户保驾护航。

DataVisor无监督用户分析服务,区别于传统的事件级别检测或用户级别检测,以无监督反欺诈检测算法(目前正在申请专利)为核心技术,结合其它检测分析技术,如有监督机器学习、自动规则引擎和全球智能信誉库。同时DataVisor支持Spark、Hadoop、HBase、ES等多种大数据处理框架,拥有超高的计算效率,可同时处理数十亿事件数据分析工作,对所有用户进行全局分析,识别用户之间隐藏的关联,并对异常用户账号进行早期预警。

目前,DataVisor全球累计处理超过6千亿的用户事件,检测超过1亿3千万的坏用户,保护超过20亿来自全球大型互联网公司的用户,客户包括阿里巴巴、猎豹移动、陌陌、Yelp、Pinterest等。比如陌陌采用DataVisor所提供的解决方案后,陌陌平台上的垃圾信息、网络钓鱼、非法广告和盗号行为均有了大幅度的减少。对于陌陌来讲免受各种欺诈,spam的干扰,能够更专注与业务发展,保证用户群的增长和服务。


原文发布时间为: 2017年7月25日

本文作者:任新勃

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
带你入坑大数据(二) --- HDFS的读写流程和一些重要策略
HDFS的读写流程分析,高可用和联邦的一些简短说明
256 0
阿里大数据产品Dataphin上线公共云,将助力更多企业构建数据中台
日前,由阿里数据打造的智能数据构建与管理Dataphin,重磅上线阿里云-公共云,开启智能研发版本的公共云公测!在此之前,Dataphin以独立部署方式输出并服务线下客户,已助力多家大型客户高效自动化构建企业数据中台,不仅大幅度提升大数据研发效率,实现数据资产的标准化管理,更通过数据服务体系让数据智能驱动业务。
2462 0
大数据分布式架构单点故障详解(Hdfs+Yarn+HBase+Spark+Storm)构建HA高可用架构
本文梳理了常见的hadoop生态圈中的组件:Hdfs+Yarn+HBase+Spark+Storm的单点故障问题,出现原因以及单点故障的原理和解决方案(构建HA(High Available)高可用架构)。阅读本文之前,最好了解清楚各组件的架构原理。
19649 0
粒子群优化算法(PSO)之基于离散化的特征选择(FS)(一)
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识! 作者:Geppetto 在机器学习中,离散化(Discretization)和特征选择(Feature Selection,FS)是预处理数据的重要技术,提高了算法在高维数据上的性能。
1195 0
HDFS 是如何实现大数据高容量、可靠的存储和访问的。
大数据数据量大、类型多种多样、快速的增长等特性,那么HDFS是如何去解决大数据存储、高可用访问的了?
126 0
谷歌百度以图搜图 "感知哈希算法" C#简单实现
/// /// 感知哈希算法 /// public class ImageComparer { /// /// 获取图片的Hashcode /// /// /// public static string GetImageHashCode(string imageName) { int width = 8; int height = 8; // 第一步 // 将图片缩小到8x8的尺寸,总共64个像素。
1624 0
【大数据新手上路】“零基础”系列课程--如何通过大数据开发套件Data IDE玩转大数据
老板每天都要出这些业务数据(销售总额、总交易量、总点击次数、总加入购物车次数、总加入收藏夹次数...),我得想个一劳永逸的方法了…
7748 0
查找类算法之二分搜索树 | 算法必看系列十
二分搜索树是为了实现快速查找而生的,也支持快速添加和删除一个数据。如何查找某个元素首先跟根节点去做比较,如果相等的话就返回;如果待查元素要比根节点小,就进行左子树递归查找;如果待查元素要比根节点大,就进行右子树的递归查找;如果查找到最后还没有一个符合的元素,就返回null。
559 0
+关注
行者武松
杀人者,打虎武松也。
17142
文章
2569
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载