机器学习技术如何打击网络零售欺诈行为

简介:

Amazon Prime会员日取得了巨大的成功。据称今年的销售总额较2016年提升了60%,总收入达到近20亿美元,称其为成功确实并不为过。

机器学习技术如何打击网络零售欺诈行为

但同样着眼于数字,很多朋友可能并不清楚,Amazon公司有近5%的收入因欺诈行为而损失,总额达1亿美元。对于企业来说,这绝不是笔小钱。而且不仅仅是Amazon Prime会员日,事实上每一家网络零售商在每一天的运营当中都面临着网络欺诈的威胁。

而圣诞节等标志性零售高潮期的到来则会令事情变得更糟。有鉴于此,我们该如何阻止此类状况?至顶网与Fraugster与Riskified两家欺诈预防初创企业就机器学习技术在这一领域中的作用展开了交流。

欺诈行为解析

根据零售行业博客平台Retail Minded发布的文章,目前主要存在两种欺诈类型,即退款欺诈与信用卡欺诈。退款欺诈主要体现为以未发货为理由进行退款申请,而信用卡欺诈则是买家违约而导致发卡方向商家收回货款。

信用卡欺诈在本质上由恶意人士利用被盗卡号在各电商网站当中尝试购买商品,直到找出能够顺利使用的卡号为止。在此之后,他们会利用同一卡号在其它商店进行欺诈性采购。

此类欺诈行为能够依靠专业知识与资源被及时发现。像Amazon这样的电商巨头可能会选择内部处理,但大多数零售商并不具备这样的能力。总而言之,任何零售商都不希望把资源浪费在这样的工作身上。

根据2016年发布的一份报告,零售商因欺诈承受的损失约占其年度全渠道营收总额的7.6%,包括线上与线下销售。其中7%来自退款欺诈; 74%用于欺诈管理软件、硬件及员工的相关支出; 19%则来自误报问题--即正常交易被错误地识别为欺诈行为。

而这一切都在我们身边持续发生。单以AMD产品为例,相关商品在Amazon之上的欺诈尝试活动出现150%的快速增长。而将退款欺诈与误报问题另以结合,我们可以计算出这部分损失将占整体营收的5%,即前文提到的Amazon Prime会员日1亿美元损失这项结论。

当然,零售商在欺诈管理软件、硬件以及员工方面的支出早已有之。对其而言,这部分开销已经被视为尽可能降低欺诈损失所带来的必要成本。

很明显,这一行业需要耗费相当规模的资源、时间与精力,且以大量数据作为判断指导。而与任何其它拥有类似情况的行业一样,机器学习技术似乎为其指明了新的解决思路。而这也正是Fraugster与Riskified得出的结论。

不再误报,我们主动出击

Riskified公司专门为企业级网络零售商提供欺诈管理解决方案,且由Eido Gal与Assaf Feldman创立于2012年。Assaf为麻省理工学院毕业生,拥有长达15年的机器学习算法开发经验; 而Gal则一直效力于各类风险与身份解决方案初创企业,包括已经被PayPal收购的Fraud Sciences公司。

Gal解释称,他们意识到电子商务行业在风险管理方面存在短板。"虽然大多数零售商都依赖于第三方解决方案部署在线业务,例如付款处理与网站创建,但每位商家却都希望能够内部搞定欺诈问题。当时市场上提供的欺诈预防工具主要负责为零售商提供每笔交易的风险评分,而零售商的内部团队则借此决定是否接受该笔订单。"

Gal指出,这类评分工具能够标出一切在统计学意义上存在风险的交易,而欺诈团队则专注于防止相关损失。

这样的结合意味着零售商有可能因涉嫌欺诈而最终流失大量合法客户,进而引发营收降低。面对这一挑战,Riskified公司的思路在于将欺诈检测工作外包给专家处理,而零售商则可继续专注于能够切实提升营收并改进客户服务的事务。

该公司构建起一套基于机器学习技术的欺诈检测系统,同时尽可能确保其商业模式与零售商的目标保持一致,即为客户提供更好的销售体验,同时避免欺诈问题。Riskified公司并非为每笔交易提供风险评分并收取固定费用,而是直接向零售商提交交易的批准或者拒绝结论。

Riskified公司最初专注于发现误报问题,但随后亦逐步将业务扩大到其它欺诈方向。公司仅向实际涉及退款欺诈的相关批准订单收取费用。Gal指出,这能够激励Riskified方面尽可能多地批准正常交易,而其恳求承诺则意味着其需要为批准的每项交易承担责任--这意味着其必须尽可能准确地发现各类欺诈行为。

为了实现这项目标,Riskified公司的算法必须既不太过挑剔、又不过于宽松。Gal解释称,在原有系统当中,每个数据元素都会带来一项分数,而最终交易风险正是以这样的积累分数所表现。

举例来说,任何涉及中间转发人或者通过代理服务器下达的订单都会受到评分"惩罚"--因为这些正是欺诈活动中的常见指标。

"Riskified公司的机器学习模型则要复杂得多,其会考虑引入更多能够提供订单上下文信息的数据点。在本示例当中,归功于丰富的自动数据体系,我们的系统能够利用种种迹象证明商品的最终交付地为中国。"

"我们都知道,从统计学角度来看,中国的消费者能够会使用代理服务器进行在线购物; 另外为了避免高昂的运输成本,很多中国消费者亦会使用中间人转寄服务。这些结论都会作为特征被纳入到我们的算法当中。"

"不过我们的机器学习模型还需要纳入更多其它数据点,例如购物者的在线行为、访问足迹以及以往与其它商家之间的交易等等。只有在对这些相关数据进行评估之后,模型才能够做出最终的交易批准或者拒绝决定。"

"在我们刚刚建立Riskified公司时,我们的整体服务在于帮助各零售商判断正常的交易订单。但在此之后,我们不断扩大业务范畴,如今大多数零售商如今都开始利用Riskified方案处理其整体在线业务。"

无为而治

在应对欺诈活动方面,Fraugster这家建立于2014年的德国-以色列支付安全厂商则有着自己的办法。Fraugster公司由Max Laemmle与Chen Zamir建立。Laemmle曾强调称,在经过多年的支付行业工作之后,他们切实体会到电子商务欺诈行为所带来的严峻挑战。

他将自己的愿景描述为"设计并构建一套有助于建立无欺诈世界的反欺诈技术方案"。Laemmle指出,他们发现全部现有反欺诈解决方案都是利用过时技术构建而成,且无法应对水平高超的网络犯罪分子。

"现有基于规则的系统以及经典的机器学习解决方案存在昂贵与速度缓慢两大弊端,其无法实时适应新的欺诈模式,因此不能提供准确的结果。我们的情报与支付专家团队近年来一直在努力设计专有技术,而最终打造出的先进人工智能(简称AI)技术不仅能够消除支付欺诈问题,还能够降低误报数量以最大限度提高企业收益。"

Laemmle针对其解决思路作出了以下解析:

"将源自人类自规则或流程总结出的直觉转化为机器推理能力。如此一来,原本需要大量人力工作的任务即可由机器学习技术所取代--其并非取代原有规则或流程,而是直接充当人类的直觉判断。最终的结果是,机器经过训练后能够提供一套具备良好确定性的精准判断系统。我们的引擎需要丰富的词汇作为基础,且能够将这些独立词汇与描述性语句乃至段落正确结合。我们需要扩充词汇量、持续训练引擎并选择正确的词汇以描述正确的情景。"

Laemmle指出,其立足Amazon进行电商销售的客户将AMD相关产品的欺诈行为发现率提升了150%。

"由于交易数量增长以及相关资源分配量的降低,如今欺诈活动往往能够轻易逃脱人力审查系统或者经典机器学习系统的检测。"

"这并不是由于准确性不足,而是因为这些系统往往缺乏可扩展性与必要的速度以适应新的欺诈模式。网络犯罪分子通常并不关注销售本身(因为其根本不打算实际支付款项),而只是考虑在销售期间如何逃过安全系统的法眼。"

"其一,由于交易数量更大,因此人工审查往往难以与之匹配,因此在售商品可能会交由另一套专门负责查询低价商品并遵循审查规则的系统处理。我们的技术方案拥有极强的可扩展性与自我学习能力,因此其能够实时发现各类前所未有的欺诈模式。"

"一切机器学习厂商都需要考虑数据无法实时处理的情况,这意境丰其必须对数据进行预先分段。其解决方案不具备充分的自动化/无摩擦特性。相比之下,Fraugster公司没有使用任何人类分析师、规则或者模型。我们的引擎完全自主运行,且不会在退款流程当中出现任何冲突。"

黑匣子中的判断流程

每家企业都拥有自己的实践思路与业务优势,这一点不在本文的讨论范围之内。关键在于,对于大数据创新成果在现实生活当中最具影响力的应用方向,即使我们大多数人都并不关注甚至无法理解其运作原理,但其确实会在多种层面上带来深远影响。

同样重要的是,技术解决方案的透明度与合规性同样需要得到严格保障。就这一话题,Assaf解释称:

"尽管最近欧盟法律要求各依赖于机器学习技术以制定用户相关决策的组织机构充分解释这类决策当中涉及的具体数据,但从另一个角度来讲,机器学习决策流程当中的透明度本身就是一种商业需求。在我们这个行业当中,零售商需要明确了解特定买家的采购订单为何被视为欺诈活动并遭到拒绝。"

"如果发生了导致极高退款额度的连环性欺诈攻击,那么在线商家必须要接受支付网关/处理人员的问责,同时需要解释这些欺诈性采购活动为何会被算法认定为合法,以及其曾经采取哪些举措以确保案例的正确识别。"

"这长久以来一直是科技领域的一大盲点,也正是众多企业不愿使用基于机器学习技术相关工具的一大关键性原因。他们认为这些工具属于'黑匣子'类解决方案。面对这样的困扰,Riskified公司投入了大量资源,希望帮助零售商以透明化方式了解我们的机器学习决策过程及其合理性。"

"这一切皆已经由Riskified公司的数据科学家们经过努力而实现。在利用机器学习决策方案进行判断时,数据科学家们会将这一流程进行可视化处理,从而连贯地传达决策模型背后所遵循的判断逻辑。"

正如我们在前文中所提到,目前市场产品中的透明度与机器学习表现存在巨大差异。这种对透明度的要求不仅源自监管框架,同时亦来自大多数商业用户。而正如众多从业者所强调的,尽管目前各方已经提出多种方法以解决此类问题,但真正完美的解决办法尚未真正出现。






原文发布时间为:2017年7月17日 
本文作者:刘新萍
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
目录
相关文章
|
28天前
|
数据采集 人工智能 API
生物医药蛋白分子数据采集:支撑大模型训练的技术实践分享
作为生物信息学领域的数据工程师,近期在为蛋白质相互作用预测AI大模型构建训练集时,我面临着从PDB、UniProt等学术数据库获取高质量三维结构、序列及功能注释数据的核心挑战。通过综合运用反爬对抗技术,成功突破了数据库的速率限制、验证码验证等反爬机制,将数据采集效率提升4倍,为蛋白质-配体结合预测模型训练提供了包含10万+条有效数据的基础数据集,提高了该模型预测的准确性。
69 1
|
2月前
|
机器学习/深度学习 数据采集 运维
机器学习在网络流量预测中的应用:运维人员的智慧水晶球?
机器学习在网络流量预测中的应用:运维人员的智慧水晶球?
136 19
|
2月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。
|
4月前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
239 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
3月前
|
机器学习/深度学习 边缘计算 运维
机器学习在网络安全中的防护:智能化的安全屏障
机器学习在网络安全中的防护:智能化的安全屏障
292 15
|
4月前
|
编解码 机器人 测试技术
技术实践 | 使用 PAI+LLaMA Factory 微调 Qwen2-VL 模型快速搭建专业领域知识问答机器人
Qwen2-VL是一款具备高级图像和视频理解能力的多模态模型,支持多种语言,适用于多模态应用开发。通过PAI和LLaMA Factory框架,用户可以轻松微调Qwen2-VL模型,快速构建文旅领域的知识问答机器人。本教程详细介绍了从模型部署、微调到对话测试的全过程,帮助开发者高效实现定制化多模态应用。
|
5月前
|
机器学习/深度学习 Python
机器学习中模型选择和优化的关键技术——交叉验证与网格搜索
本文深入探讨了机器学习中模型选择和优化的关键技术——交叉验证与网格搜索。介绍了K折交叉验证、留一交叉验证等方法,以及网格搜索的原理和步骤,展示了如何结合两者在Python中实现模型参数的优化,并强调了使用时需注意的计算成本、过拟合风险等问题。
197 6
|
5月前
|
机器学习/深度学习 人工智能 数据挖掘
打破传统:机器学习与神经网络获2024年诺贝尔物理学奖引发的思考
诺贝尔物理学奖首次授予机器学习与神经网络领域,标志该技术在物理学研究中的重要地位。本文探讨了这一决定对物理学研究的深远影响,包括数据分析、理论物理突破及未来科研方向的启示,同时分析了其对学术跨界合作与全球科研产业的影响。
92 4
|
5月前
|
机器学习/深度学习 搜索推荐 算法
在数字化时代,推荐系统成为互联网应用的重要组成部分,通过机器学习技术根据用户兴趣和行为提供个性化推荐,提升用户体验
在数字化时代,推荐系统成为互联网应用的重要组成部分,通过机器学习技术根据用户兴趣和行为提供个性化推荐,提升用户体验。本文探讨了推荐系统的基本原理、常用算法、实现步骤及Python应用,介绍了如何克服数据稀疏性、冷启动等问题,强调了合理选择算法和持续优化的重要性。
184 4
|
5月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的特征选择与降维技术
机器学习中的特征选择与降维技术
198 0

热门文章

最新文章