机器学习和大数据——提高信用卡安全性

简介:

Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。

当你在家却接到信用卡检测中心的电话询问你刚刚是否在某个商场完成支付,而事实上这个时间段你根本没有出门,更别说买什么昂贵的电器,那么银行是怎么知道这可能是笔欺诈性交易呢?

正确分辨每笔商业交易的合法性对信用卡公司的利益影响巨大。美联储支付研究数据表明,2012年美国公民信用卡交易额达到262亿美元。而同年由于未予授权的交易所产生的损失大约为61亿美元。联邦公平信用结账法将持卡人的未授权交易责任限制在50美元,剩余损失由信用卡公司负责。由此可见,欺诈性支付对信用卡公司盈亏的巨大影响。然而,尽管每年信用卡使用点都会接受严格的安全审查,仍无法真正杜绝信用卡欺诈。

对银行业来说,风险评估起着至关重要的作用。其总目标是在造成巨大损失前,快速地判断其是否为欺诈性质。但如何做到这一点?银行又如何辨别信用卡盗刷呢?
提高检测能力

因欺诈性支付过程的瞬间性,有效的反欺诈从客户视角看来非常神奇的。这看似简单且快速的检测其实暗含了一系列复杂的技术,涉及财经,法律及信息科学。

当然,也有一些相对简单的检测机制,无需太过先进的技术。例如,当信用卡在非常用地区使用时,无法提供其正确的邮政编码将被视为欺诈的指示之一。但得知受害人的邮编十分容易,通常诈骗犯都能够轻易躲过这一常规检查。

在过去,反欺诈支付所需的数据分析技术要求大量的人力投入。通过电脑算法发现的可疑案例,最终都需经过人工确认。现如今,过于庞大的交易数量使得信用卡公司更需依赖于大数据分析。机器学习和云计算等先进技术将提高检测欺诈支付的准确性。
通过机器学习判断是否为欺诈

简单来说,机器学习由计算机操控,通过符合特殊规则的预设过程且能自我完善的算法。计算机会先从一个模型开始,然后通过实验和犯错来训练它。之后它就可以做出风险预测,例如预测金融交易相关的风险。

检测欺诈的机器学习算法首先需用大量持卡人的正常交易数据来训练。交易序列就是这种训练数据的一个例子,如一个人通常每周加一次油,每两周去一次超市购物等等。该算法学习到这是一个正常的交易序列。

这种微调过程后,我们就可以通过运行算法检测信用卡交易,理想情况下能达到实时状态。然后算出一个概率指示交易被欺诈的可能性(例如,97%)。如果将欺诈检测系统设定为阻止任何欺诈概率高于95%的交易,这个评估可以在交易发生时立即引发信用卡冻结。

算法考虑了许多因素来限定欺诈交易:商家的诚信值,持卡人的购买行为(包括时间和地点),IP地址,等。数据点越多,结果越精确。

没有人可以在分析成千上万的数据的同时做出判断,但机器学习可以,它使实时检测欺诈行为成为可能。

举一个典型的例子,当你在超市结账刷卡时,信用卡公司将会得到具体交易细节,如时间、数额、商店名与信用卡的年限。这些数据会被提供给已学习你的采购模式的算法,通过与许多过去的采购数据点比对来分析此项交易是否符合你的行为习惯。

在你的信用卡被使用时,无论你是身处每周六早晨都会去的餐厅,还是凌晨3点在两个时区外的加油站,算法都会立即知道你在交易,并检查你的交易行为是否正常。如果信用卡突然在同一天超额预付两次,而在历史数据中没有这样使用过的数据,这种行为将提高欺诈概率的评分。如果交易欺诈分值高于某个阈值,通常快速人工审核后,算法将与销售点系统联系让它拒绝交易。网上购物也会经过相同的流程。

在这种类型的系统中,大量人工干预成为过去的事。事实上,如果一个人过于参与欺诈监测周期,那么反应时间会变得更长。然而,人工仍然可以发挥作用——验证欺诈或跟踪被拒绝的交易。当一张卡被多次拒绝交易时,工作人员可以致电持卡人,以决定是否永久取消该卡。
在云端的电脑侦探

大量需处理的金融交易是一个很重的负担,特别是在大数据领域。但机器学习就是建立在堆积如山的数据上的,更多的信息会增加算法的准确性,帮助消除误报。合法的交易也会引发的可疑交易的误报,(例如,一个卡在一个不常使用的位置)。太多的警报和没有警报一样糟糕。

这样庞大的数据需要大量的计算能力。例如,贝宝(Paypal)无时无刻都在为其1.69亿的客户处理超过1.1 pb的数据。这些大量的数据——1 pb相当于超过20万张dvd的内存——这对算法的机器学习有积极影响,但也会对一个组织的计算基础设施产生很大负担。

这时就需要云计算了。远程计算资源可以在这里发挥着重要的作用。云计算是可伸缩的,而不会受限于公司自己的计算能力。

欺诈检测是“正义”与“邪恶”之间的军备竞赛。目前,“正义”一方似乎取得很大进展,在技术芯片等方面取得创新,同时还结合加密功能,机器学习,大数据。当然,还有云计算。

而骗子肯定会继续试图取胜和挑战欺诈检测系统的极限。剧烈变化的支付模式本身是另一个障碍。你的手机现在能够存储信用卡信息,可以用来无线支付,而这将会引入新的漏洞。幸运的是,目前的欺诈检测技术并不受制于支付系统技术。

本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。
|
10月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据机器学习模型在生物信息学基因功能预测中的优化与应用(223)
本文探讨了Java大数据与机器学习模型在生物信息学中基因功能预测的优化与应用。通过高效的数据处理能力和智能算法,提升基因功能预测的准确性与效率,助力医学与农业发展。
|
10月前
|
机器学习/深度学习 搜索推荐 数据可视化
Java 大视界 -- Java 大数据机器学习模型在电商用户流失预测与留存策略制定中的应用(217)
本文探讨 Java 大数据与机器学习在电商用户流失预测与留存策略中的应用。通过构建高精度预测模型与动态分层策略,助力企业提前识别流失用户、精准触达,实现用户留存率与商业价值双提升,为电商应对用户流失提供技术新思路。
|
10月前
|
机器学习/深度学习 存储 分布式计算
Java 大视界 --Java 大数据机器学习模型在金融风险压力测试中的应用与验证(211)
本文探讨了Java大数据与机器学习模型在金融风险压力测试中的创新应用。通过多源数据采集、模型构建与优化,结合随机森林、LSTM等算法,实现信用风险动态评估、市场极端场景模拟与操作风险预警。案例分析展示了花旗银行与蚂蚁集团的智能风控实践,验证了技术在提升风险识别效率与降低金融风险损失方面的显著成效。
|
10月前
|
机器学习/深度学习 自然语言处理 算法
Java 大视界 -- Java 大数据机器学习模型在自然语言处理中的对抗训练与鲁棒性提升(205)
本文探讨Java大数据与机器学习在自然语言处理中的对抗训练与鲁棒性提升,分析对抗攻击原理,结合Java技术构建对抗样本、优化训练策略,并通过智能客服等案例展示实际应用效果。
|
11月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。
|
11月前
|
机器学习/深度学习 存储 Java
Java 大视界 -- Java 大数据机器学习模型在游戏用户行为分析与游戏平衡优化中的应用(190)
本文探讨了Java大数据与机器学习模型在游戏用户行为分析及游戏平衡优化中的应用。通过数据采集、预处理与聚类分析,开发者可深入洞察玩家行为特征,构建个性化运营策略。同时,利用回归模型优化游戏数值与付费机制,提升游戏公平性与用户体验。
|
8月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1828 6
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
941 8

热门文章

最新文章