如何用无监督模型,防范信用卡欺诈?

简介: 小叽导读:国际支付是指在国际经济活动中的当事人以一定的支付工具和方式,清偿因各种经济活动而产生的国际债权债务的行为。在支付中,如果伪造、冒用他人的卡进行支付或者用自己的信用卡进行恶意透支,就构成了欺诈。

小叽导读:国际支付是指在国际经济活动中的当事人以一定的支付工具和方式,清偿因各种经济活动而产生的国际债权债务的行为。在支付中,如果伪造、冒用他人的卡进行支付或者用自己的信用卡进行恶意透支,就构成了欺诈。本文将无监督模型应用在信用卡欺诈检测中,在国际信用卡欺诈检测场景下,autoencoder模型对比规则,召回率提升约3倍,准确率提升约40%,模型效果优于规则,且维护成本比规则低。

国际支付中的信用卡欺诈

问题严峻性

从大的环境来说,信用卡欺诈已经形成了完整的偷盗、伪造、倒卖卡的产业链,给银行和用户造成很大的损失。国际站平台上发起信用卡支付时,如果发生盗卡,通常只要在一个月内报知银行,用户就只损失很低的金额,其他的部分由银行协调平台赔付,当平台短时间内发生大量盗卡事件时,平台不仅要赔付用户盗卡损失,还会被结算机构根据既定的协议处罚甚至终止合作。因此及时有效地识别平台上的欺诈案例并进行拦截,是风控系统需要解决的问题。

已解决和待解决的问题

在国际站购买商品采用信用卡支付时,需要在平台上发起支付,经过支付网关路由到各个收单行,由收单行进行授权,授权成功后再进行请款,才能完成一笔支付。目前风控系统在支付发起、银行授权和请款各个阶段都有相应的风控策略进行欺诈预警和拦截,能够解决一部分欺诈问题,特别是与历史发生类似的欺诈案例。

当前的风控策略主要是基于业务经验和对历史欺诈案例进行分析生成的经验规则,而欺诈团伙为了绕开风控系统,会不断地改变自己的欺诈手段,当前的这种风控策略对于新出现的欺诈方式难以及时有效地识别和预警。

平台的数据优势

与银行及其他外部信用卡风控机构相比,国际站支付除了可以拿到支付发起人、设备和卡等与当前支付密切相关的信息外,平台上还沉淀了丰富的交易数据,与外部风控机构相比,可以获取更全面的数据,如何利用这部分数据,及时有效地识别欺诈案例,既要能识别历史出现的类似欺诈case,又要能识别新的欺诈手段造成的欺诈case,还要不伤害平台的用户体验,对非欺诈case能快速通过,尽可能低的减少误拦截,是接下来我们要解决的问题。

无监督信用卡欺诈检测方案

无监督VS有监督

在信用卡异常检测场景下,理想的情况是输入一条信用卡支付的相关特征数据后,检测模型能够判定出该支付是否异常(或者给出异常值),直观上可以转换为分类或回归问题,沿着这个思路,我们只要从历史数据中获取标记的欺诈和非欺诈支付样本,即可通过有监督的方式训练得到分类模型,用于判定是否欺诈,并且我们也确实尝试过这样的方案。

上面的有监督模型看起来一切都顺理成章,十分完美,但是在实际应用的效果却差强人意。在信用卡支付中,欺诈尽管危害很大,但平台大部分的用户都是正常交易支付,短时间内难以获取大量的异常样本,需要一定时间的积累,才能获取到一定量的异常样本支持模型训练,得到的模型在训练集上进行预测,通常会有较好的表现。但是,当上线用于未来的支付欺诈检测时,效果会大打折扣,这是因为欺诈者往往会升级自己的作案手段以规避风控系统,从数据上来说,新的欺诈样本与训练集中的欺诈数据分布差异较大,训练集样本不能够很好的代表测试集,从而导致模型过拟合,在测试集上效果较差。

有监督模型存在异常样本过少以及数据分布引起的过拟合现象,无监督模型不需要标记正负样本,模型训练的数据集规模较大,采用实时训练,还可以及时得将新出现的case添加到训练样本中更新模型,有效的避免因为数据分布引起的过拟合问题,本文主要介绍用autoencoder算法进行信用卡欺诈检测。

无监督的解决方案

欺诈感知

信用卡欺诈发生在交易支付的流程中,理解这个流程,是我们感知识别欺诈的前提,简单概括如下:

_
欺诈行为虽然仅在支付流程中发生,但平台的支付源于交易,因此整个流程中涉及的主体包括买家、卖家、商品、卡和关系信息(支付关系,交易关系)都可以用于欺诈感知。因此欺诈感知的数据维度主要包括:
_
基于原始的业务数据和经验,通过简单的统计方法或者规则,及时发现可能的欺诈异常,同时快速放过正常的支付,提升正常支付的通过率和流畅度,初步的感知策略既可以在监控系统中发挥直接的作用,也可以作为特征作用于自动化模型,逐步迭代升级风控系统。

无监督模型——autoencoder

autoencoder是一种人工神经网络,用无监督的方式训练模型用于数据编码,从而压缩得到有效的数据信息。网络中包括一个编码器和一个解码器,结构对称,编码器用于将原始数据(输入)编码,解码器用于将编码后的数据解码得到原始输入数据(输出),损失函数是原始数据与解码得到的数据之间的误差,模型训练的目标是最小化损失函数。autoencoder的网络结构如下:
_
autoeocder用于信用卡异常检测

信用卡异常检测场景下,训练样本中大部分是正常支付,只有少量是异常支付,用未标记的样本训练autoencoder模型,为了使最终样本整体平均的恢复误差最小化,在训练时,网络结构中编码器和解码器会更倾向于适配正常支付样本的特征模式,因此,当用测试数据作用于模型时,可以通过恢复误差的大小来判定是否异常。具体算法如下[1]:

_
线上规则轻量化

由于历史原因,风控系统中积累了大量基于业务经验的规则,用于线上进行异常预警和拦截,随着规则积累的越来越多以及人员的变动,维护变得越来越困难甚至难以操作,因此规则的轻量化也是该场景下面临的重要问题之一。

借助于autoencoder模型的自动化编码能力,我们可以将规则抽取出来,进行编码,作为模型的输入特征进行使用,评测结果显示,模型可以达到优于线上规则的效果,因此可以逐步测试,用模型替换线上人工规则,降低维护成本。
_
取得的效果

经过多次的实验和调优,在国际信用卡欺诈检测场景下,autoencoder模型对比规则,召回率提升约3倍,准确率提升约40%,模型效果优于规则,且维护成本比规则低。此外,模型相比线上规则,能够更及时的检测发现新的欺诈类型,从而降低平台损失。

未来和后续

autoencoder模型在支付场景下的应用,是无监督模型在异常检测中的初步实践和应用,打通了相关流程,取得了一定的业务效果,证明无监督方法在这一场景下实践中的有效性。后续会在异常特征感知、特征去干扰、模型泛化能力以及异常判定方法等方面进行深入的优化的改进,并应用到领域其他业务场景上。

原文发布时间为:2019-02-18
本文作者:新起点
本文来自云栖社区合作伙伴“ 阿里技术”,了解相关信息可以关注“ 阿里技术”。

相关文章
|
机器学习/深度学习 数据采集 算法
探索LightGBM:类别特征与数据处理
探索LightGBM:类别特征与数据处理
1040 5
|
SQL 数据挖掘 数据库
HiveSQL分位数函数percentile()使用详解+实例代码
HiveSQL分位数函数percentile()使用详解+实例代码
6259 0
HiveSQL分位数函数percentile()使用详解+实例代码
|
7月前
|
数据可视化 流计算 Python
Python创意爱心代码大全:从入门到高级的7种实现方式
本文分享了7种用Python实现爱心效果的方法,从简单的字符画到复杂的3D动画,涵盖多种技术和库。内容包括:基础字符爱心(一行代码实现)、Turtle动态绘图、Matplotlib数学函数绘图、3D旋转爱心、Pygame跳动动画、ASCII艺术终端显示以及Tkinter交互式GUI应用。每种方法各具特色,适合不同技术水平的读者学习和实践,是表达创意与心意的绝佳工具。
6807 0
|
9月前
|
机器学习/深度学习 计算机视觉 网络架构
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
YOLOv11改进策略【模型轻量化】| 替换骨干网络 CVPR-2024 StarNet,超级精简高效的轻量化模块
823 19
|
机器学习/深度学习 算法
【机器学习】不同决策树的节点分裂准则(属性划分标准)
决策树的不同节点分裂准则,包括原始决策树的节点分裂准则、ID3算法的信息增益、C4.5算法的信息增益比以及CART算法的平方根误差最小化和基尼指数。
486 1
|
机器学习/深度学习 存储 算法
数据结构与算法——BFS(广度优先搜索)
数据结构与算法——BFS(广度优先搜索)
|
Shell
wandb.errors.UsageError: api_key not configured (no-tty). call wandb.login(key=[your_api_key])
wandb.errors.UsageError: api_key not configured (no-tty). call wandb.login(key=[your_api_key])
4403 0
wandb.errors.UsageError: api_key not configured (no-tty). call wandb.login(key=[your_api_key])
|
机器学习/深度学习 供应链 监控
深度学习之实时库存管理
基于深度学习的实时库存管理在电商、零售、制造业和物流等多个行业中具有极高的应用价值。深度学习模型可以帮助企业实时监测库存动态、优化库存补充决策、预测需求波动,确保库存水平稳定且适合实际需求,从而降低成本、提高客户满意度。以下从核心技术、常见应用场景、技术挑战及未来发展方向进行详细说明。
815 3
|
存储 运维 安全
2.17 新手必看的Linux服务器管理和维护注意事项
本节介绍有关服务器管理和维护过程中的一些注意事项,都是笔者的经验之谈,相信对新手会有一定的启发和帮助。 很多初学者接触Linux 时间不长,还未完整地学习一遍 Linux,理解本节内容可能有些困难,可以先跳过本节,阅读完整套教程后再回过头来阅读。
1442 0
2.17 新手必看的Linux服务器管理和维护注意事项
|
算法 计算机视觉
图像处理之角点检测算法(Harris Corner Detection)
图像处理之角点检测算法(Harris Corner Detection)
501 3