欺诈检测--大数据的安全管理

简介:

现在越来越多的银行业务依赖大数据和物联网基础设施,比如,移动支付、网上银行和智能售货机。但在这些交易过程中存在大量的个人敏感的身份信息需要保护。大数据安全是一个极大挑战的问题,因为作弊者在不断的寻求新方法来获取到有价值的数据。为了防止这些坏家伙,人们需要不断的去设计和发布新的大规模预测模型来预测作弊者的行为。不光银行需要大数据安全保护,任何含有对个人用户信息personally identifiable information (PII)处理的商业交易都要做好保护,比如,医疗机构和保险业。

最近有好消息称,有越来越多的机器学习的专家、新的技术和工具来提供有效的分析模型,能够鉴别潜在的 欺诈交易和钓鱼式攻击 。但不是所有公司都拥有机器学习专家来做这方面的工作,因此这些公司就需要从外面请一些专家来建立有效的模型来抵制作弊者。与此同时,他们又不想自己用户的信息让其他公司知道。通过匿名用户个人信息PII还保证不了这一点。那有没有一种较好的方法能够既利用外部力量而又不暴露本公司的敏感的数据呢?

大数据

图一在纽约最近的一次大数据会议上,大数据公司MapR的首席架构师Ted Dunning发表了一种新方法来解决上述问题。

找出被盗商家

现在一个新的趋势是:作弊者通过成千上万的用户盗取个人信息来进行许多小批量的欺诈交易。这样他们可以在很短的时间里盗取百万美元/英镑/欧元,通过被盗的商家或者网站来获取大量的顾客的金融信息。作弊者不是偷一张信用卡然后去购买大宗商品,因为这种行为容易被现在的安全软件探测到,而是通过欺骗交易来进行大批量的信用卡交易。这些小额购买常常被用户忽略,但是恰恰会被不良作弊者利用。为了应对这种潜在的通过被盗商家来进行盗窃的行为,一家大型金融机构采用大数据公司MapR的技术来构建新的模型来检测这种分布式攻击。他们的目标是改善自己的欺诈检测的能力:a)探测出更多的可疑事件,b)更及时的检测,在出现严重的影响之前尽可能的快的去关闭受影响的账户。

银行有海量的个人交易行为数据,Ted的方法是把银行的每个顾客的交易数据按时间序列转换,在商家出现被盗之前找出来。他采用的相似估计的方法把每个被盗商家的特征点提取出来,然后进行打分。但问题在于即使是出于打击盗取者,银行也不太愿意把敏感的数据分享出来。

为了克服这个问题,Ted写了一个可根据个人需求定制的样本数据生成的代码 log-synth ,并开源在Github上。通过log-synth生成被盗过的用户历史数据模拟来找出被盗的特征。在模拟数据实验中,被盗商家有较高的打分。

构建好探测模型,并进行参数调优,然后将这个模型应用到真实的交易数据。真实的数据分析更令人振奋,一个商家打分超过80分的(见图2),经银行核实发现这个商家的确存在大量的数据泄露。

20160114020523180.png

  图2 通过模拟数据构建的模型运用到真实数据中的情况

更好的数据模拟的方法

使用人为生成的数据来进行构建模型并不新鲜,但是这种方法却经常被人忽视。Ted发现,想精确模拟真实世界的行为特征是非常难的一件事,而通过人为生成的数据就可以很好的构建好的模型,这样更快更容易。

这种方法不仅仅用于欺诈检测,也可以用于其它真实的情况。具体怎样使用开源log-synth,在这里由于篇幅限制就不再细激昂,感兴趣的可以去看Ted Dunning和Ellen Friedman写的书 《Sharing Big Data Safely: Managing Data Security》 ,可免费下载。


本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
监控 安全 大数据
猎人和猎物:使用大数据来检测欺诈和洗钱模式
“银行到处都是大量的数据,如果这些数据落入不正当的人手中,会被他们用来操纵市场。我们尽量做到最好,但是到目前为止,在世界各地的每一个区域我们所拥有的技术和方法都是参差不齐的。”这就是一个风险经理在一家大规模银行所描述的环境。
1350 0
|
安全 大数据 测试技术
可靠、安全、易用,阿里云数加大数据平台首批通过国家大数据标准检测
随着信息化的推进,大数据已成为社会生活和工业生产不可或缺的基础资源。有效管理和利用大数据,提升大数据应用效率迫在眉睫。加强大数据标准化顶层设计,逐步完善标准体系,把数据“管好”“用好”。 2017年3月18日, 2017大数据标准化论坛在北京成功召开。
4476 0
|
12天前
|
分布式计算 大数据 BI
MaxCompute产品使用合集之MaxCompute项目的数据是否可以被接入到阿里云的Quick BI中
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
12天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之怎样可以将大数据计算MaxCompute表的数据可以导出为本地文件
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
12天前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之可以使用什么方法将MySQL的数据实时同步到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
11天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
24 0
|
11天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
26 1

热门文章

最新文章