DataVisor大数据独创算法,实现真正智能的反欺诈预警

本文涉及的产品
可视分析地图(DataV-Atlas),3 个项目,100M 存储空间
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

互联网的发展,让在线服务呈现爆炸式增长,从而产生的亿万互联网用户的身份标签。社交网站、电商、互联网金融等越来越活跃的今天,互联网带来便捷的同时也带来风险。各种欺诈活动,层出不穷,社交网上假屏,刷帖电商上有的是薅羊毛,刷单,金融领域它有身份盗取,开假帐号,信用卡交易欺诈,银行转账欺诈,洗钱等等。归根到底都是属于那种恶意的帐号的活动。

今天基于大数据分析的欺诈预警和检测,成为互联网的必备手段,但是传统的数据分析都是利用建模、数据画像、监督等安全监测手段,都需要提供已有的监测算法、人工标签或者训练数据,来建立监测发现已知的恶意活动。但是欺诈行业有它的特殊性,特殊性就在于它所面对的是不断变换的欺诈者,不断变化的欺诈方式。同时知道你的防线、你的防御,能够绕过这些平台上已经采取的一些检测手段,所以它一直是有一些敌我之间这种相互的博弈状况。包括早期的规则系统,包括下一代有监督的机器学习,但是这些手段又具有局限性。

但是我们知道各种欺诈的源头就是在代表亿万互联网用户的身份的数字账号。如果能在账号建立之初就能做出预警和检测,那么用户的损失就能减少最低。近日DataVisor CEO兼联合创始人Yinglian Xie(谢映莲)接受包括至顶网在内的媒体采访。详细介绍了DataVisor利用当前先进的人工智能技术研发的基于Spark大数据平台独创的无监督欺诈检测服务算法平台,为面向用户的网站提供包括个体欺诈和分布式群体欺诈的先进的反欺诈检测服务。

DataVisor大数据独创算法,实现真正智能的反欺诈预警

 

DataVisor CEO兼联合创始人Yinglian Xie

DataVisor 是2013年成立的一家硅谷初创技术创新企业,谢映莲表示公司的愿景是希望利用最先进的人工智能技术,结合大数据应用,最大程度保护用户的数字资产。

数字用户与现实用户的防范在本质上相同。就像你要了解一个人,不仅要通过这个人本身,还要通过他的周边的联系,才能全面系统的做个了解。数字用户同样如此,数字用户主要基于数据的判断,数据有两个不同的维度,一个维度是每个用户可以有很详细的画像,这是一个维度,目前大数据分析公司很多都是走的这个维度,让这个用户的行为越详细,越充分,你就越容易判断。DataVisor在这个维度之外,有提出另外一种维度,就是挖掘纵向的用户之间的关系。当成千上万的用注册一起看的时候,通过对数据不同方式的挖掘,提供不同层次的对于恶意活动和欺诈的预判。这就需要更高挑战、更复杂的算法。

DataVisor基于Spark大数据平台独创的无监督欺诈算法,是DataVisor独创的高效欺诈检测算法。它与传统的基于既定规则或基于监督学习模型的算法不同。此算法无需客户提供标注数据,每小时可分析数十亿新发生的事件,对新型的、变化多端的欺诈行为进行提前预警,并提早自动发现未知的恶意欺诈行为,为网络欺诈和金融犯罪提供检测服务。

基于对海量用户账户的行为、设备、IP地址等进行高纬度用户画像及全方位的关联和相似性分析。DataVisor大数据系统会自动挖掘出潜在的各种群体性(手动操作或基于自动作弊脚本的)隐蔽欺诈行为。谢映莲谈到这项算法技术无需训练数据或标签。比如发现一个新型的欺诈用户群组,虽然该欺诈用户群组在实施欺诈和恶意攻击前会潜伏一段时间,传统检测手段不容易发现,但DataVisor的无监督用户分析服务能够自动发现用户间的相似性和整个组织的异常行为,比如在发动攻击前会做少量但极相似的交易测试。DataVisor能够做出判断,大大提升自动封禁或者人工审核的效率。

具体来讲,DataVisor无监督用户分析服务有几个特点: 第一是实现早期预警,DataVisor能够在欺诈性用户发动攻击之前进行预警。90%的欺诈性交易或者恶意用户能够被提前或者实时检测。在保证用户实际损失之前就检测到恶意用户或者欺诈账号。

第二个就是超高的覆盖率和准确率。DataVisor能够检测整条攻击产业链。比如发现一个新型的欺诈用户群组,虽然该欺诈用户群组在实施欺诈和恶意攻击前会潜伏一段时间,传统检测手段不容易发现,但DataVisor的无监督用户分析服务能够自动发现用户间的相似性和整个组织的异常行为,比如在发动攻击前会做少量但极相似的交易测试。DataVisor能够做出判断,大大提升自动封禁或者人工审核的效率。

第三,无监督检测,无需人工标记和训练数据,自动发现未知攻击。每天检测50万以上的恶意账号。第四海量的可扩展性,每小时分析数十亿的事件日志。每天为四亿多用户保驾护航。

DataVisor无监督用户分析服务,区别于传统的事件级别检测或用户级别检测,以无监督反欺诈检测算法(目前正在申请专利)为核心技术,结合其它检测分析技术,如有监督机器学习、自动规则引擎和全球智能信誉库。同时DataVisor支持Spark、Hadoop、HBase、ES等多种大数据处理框架,拥有超高的计算效率,可同时处理数十亿事件数据分析工作,对所有用户进行全局分析,识别用户之间隐藏的关联,并对异常用户账号进行早期预警。

目前,DataVisor全球累计处理超过6千亿的用户事件,检测超过1亿3千万的坏用户,保护超过20亿来自全球大型互联网公司的用户,客户包括阿里巴巴、猎豹移动、陌陌、Yelp、Pinterest等。比如陌陌采用DataVisor所提供的解决方案后,陌陌平台上的垃圾信息、网络钓鱼、非法广告和盗号行为均有了大幅度的减少。对于陌陌来讲免受各种欺诈,spam的干扰,能够更专注与业务发展,保证用户群的增长和服务。


原文发布时间为: 2017年7月25日

本文作者:任新勃

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

相关实践学习
DataV Board用户界面概览
本实验带领用户熟悉DataV Board这款可视化产品的用户界面
阿里云实时数仓实战 - 项目介绍及架构设计
课程简介 1)学习搭建一个数据仓库的过程,理解数据在整个数仓架构的从采集、存储、计算、输出、展示的整个业务流程。 2)整个数仓体系完全搭建在阿里云架构上,理解并学会运用各个服务组件,了解各个组件之间如何配合联动。 3 )前置知识要求   课程大纲 第一章 了解数据仓库概念 初步了解数据仓库是干什么的 第二章 按照企业开发的标准去搭建一个数据仓库 数据仓库的需求是什么 架构 怎么选型怎么购买服务器 第三章 数据生成模块 用户形成数据的一个准备 按照企业的标准,准备了十一张用户行为表 方便使用 第四章 采集模块的搭建 购买阿里云服务器 安装 JDK 安装 Flume 第五章 用户行为数据仓库 严格按照企业的标准开发 第六章 搭建业务数仓理论基础和对表的分类同步 第七章 业务数仓的搭建  业务行为数仓效果图  
相关文章
|
2月前
|
机器学习/深度学习 算法 搜索推荐
从理论到实践,Python算法复杂度分析一站式教程,助你轻松驾驭大数据挑战!
【10月更文挑战第4天】在大数据时代,算法效率至关重要。本文从理论入手,介绍时间复杂度和空间复杂度两个核心概念,并通过冒泡排序和快速排序的Python实现详细分析其复杂度。冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1);快速排序平均时间复杂度为O(n log n),空间复杂度为O(log n)。文章还介绍了算法选择、分而治之及空间换时间等优化策略,帮助你在大数据挑战中游刃有余。
78 4
|
2月前
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
2月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
72 0
|
14天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
16天前
|
DataWorks 搜索推荐 大数据
聊聊DataWorks——这个一站式智能大数据开发治理平台
聊聊DataWorks——这个一站式智能大数据开发治理平台
47 2
|
1月前
|
缓存 算法 大数据
大数据查询优化算法
【10月更文挑战第26天】
65 1
|
2月前
|
机器学习/深度学习 人工智能 运维
智能运维:大数据与AI的融合之道###
【10月更文挑战第20天】 运维领域正经历一场静悄悄的变革,大数据与人工智能的深度融合正重塑着传统的运维模式。本文探讨了智能运维如何借助大数据分析和机器学习算法,实现从被动响应到主动预防的转变,提升系统稳定性和效率的同时,降低了运维成本。通过实例解析,揭示智能运维在现代IT架构中的核心价值,为读者提供一份关于未来运维趋势的深刻洞察。 ###
109 10
|
1月前
|
机器学习/深度学习 数据采集 算法
大数据中缺失值处理使用算法处理
【10月更文挑战第21天】
50 3
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
2月前
|
存储
基于遗传算法的智能天线最佳阵列因子计算matlab仿真
本课题探讨基于遗传算法优化智能天线阵列因子,以提升无线通信系统性能,包括信号质量、干扰抑制及定位精度。通过MATLAB2022a实现的核心程序,展示了遗传算法在寻找最优阵列因子上的应用,显著改善了天线接收功率。