猎人和猎物:使用大数据来检测欺诈和洗钱模式

简介: “银行到处都是大量的数据,如果这些数据落入不正当的人手中,会被他们用来操纵市场。我们尽量做到最好,但是到目前为止,在世界各地的每一个区域我们所拥有的技术和方法都是参差不齐的。”这就是一个风险经理在一家大规模银行所描述的环境。
0.jpg

“银行到处都是大量的数据,如果这些数据落入不正当的人手中,会被他们用来操纵市场。我们尽量做到最好,但是到目前为止,在世界各地的每一个区域我们所拥有的技术和方法都是参差不齐的。”这就是一个风险经理在一家大规模银行所描述的环境。他和他全世界的银行同事一样,都在不断的抨击银行合规文化,与此同时在不断的与新产生的违法行为相抗争。

自1970年银行保密法案颁布以来,银行都要向美国财政部报告所有的可疑商业活动。克林顿执政期的恐怖袭击,强化了政府对恐怖组织的财政渠道的兴趣,特别关注结构性的活动——汇集小额资金进行洗钱,以及与洗钱相关的国际汇款,因为通常这些活动的资金都用来支持毒品走私,以及有组织的犯罪。对毒品的战争与全求恐怖网路的结合,导致了对银行交易监察的加强。

对这类交易的关注在21世纪就有了显著的加强。高速的全球交易网络无处不在,2001年911恐怖袭击,和公众对上市公司交易丑闻的强力抗议,导致以规则和框架式工作流程的监管模式提升到了一个崭新的重要的层次。2001年美国爱国者法案包括了不少于10方面,特别是具体要求金融机构监控、报告与洗钱有关的可以活动,客户识别,以及对非法金融机构的全面认知。由金融犯罪执法网来监视和调查洗钱活动以及可疑的交易行为。

遵守法律,需要银行和其他金融机构去监管账户(报告欺诈,洗钱和其它的违法行为)通常都是利用技术手段完成的,例如网络监控和金融犯罪软件,这种软件是通过对客户的个人行为与历史交易数据进行分析判断。

简而言之,反洗钱和反欺诈技术就是从交易数据中找到能够表明违法行为的一种模式。例如,这些技术通过对客户现在要求转移资金的金额和类型,与他之前的交易需求的细节做比较。这些细节模式与已经确定的客户的存款、提款和转账模式相比较。账户信息,转账目的银行的信息(包括国家在内),收款人的姓名及他的所有信息与由统计得出的这个银行的所有客户的交易信息做比较。这种技术用来识别异常行为和异常类型的金额和收款人。

当然,这种对交易、客户和收款人的分析在很大程度上依赖于相关数据,也就是说本质上是完全结构化的。由于技术的局限性,欺诈和洗钱侦测系统在以前,所需要的必须是结构化的数据。

结构化分析对银行是很有吸引力的,原因是银行有海量的数据要处理,并且要面对现代化的全球金融服务的压力。银行必须要做这些重要的分析,来满足监管部门的所有需要,分析技术不但要迅速、低成本而且还要保证具有足够的竞争力和商业价值。但这些要求又引出了一系列的问题。一方面,使用结构化数据使得分析变得简单而又廉价。但在另一方面,由于人为的政策调整,将问题隐藏在非结构化数据中也同样简单而又廉价。

2008年法国SG银行内幕交易事件就是一个完美的与政策博弈的例子。一个在合规部门有经验的交易者,使得银行对非法交易承担了49亿英镑(71亿美元)的损失。显然犯人Jér□me Kerviel运用他熟悉的银行内部检测系统的详细知识,来帮助他完成了这次不法行为。这种现象决不罕见(尽管宣传上称SG银行的遭遇是极不寻常的);内部的欺诈和攻击在银行界是相当频繁的事情,虽然通常不会有这么大的规模。

日益增长的压力使得银行能够更好的抵御风险

在这种合规要求的背景下,银行要面对与日俱增的来自网络攻击的风险,这种攻击会导致重大的经济损失。

合规的目的除了检测洗钱之外,银行还要针对客户的账户(银行必须保证对客户无害)以及商业账户(银行不保证客户不受伤害,但通常只为商业目的)去检测不正当的行为。这些欺诈交易是通过交易卡、网上银行以及自动化交易渠道产生的。

常见威胁

银行所面对的欺诈性交易类型可分为三大类:

· 消费卡欺诈. 借记卡和信用卡支付已经变得很常见

· 消费者网络欺诈.当消费者的网络银行账户遭受侵权时,银行就会依靠系统来检测欺诈交易。然而,费用大约就是恢复现金的水平,银行卡的更换,恢复账户、邮寄以及与高级项目经理的电话,这些费用的总和。

· 商业银行欺诈.专业的电脑黑客组织会定期将目标锁定在中小型的商业银行。商业账户通常携带大量余额。许多小企业没有一个完善的内部计算机安全体系以及一个受过安全意识培训的员工,所以针对这些目标群体,钓鱼式的网络攻击的成功率极高。

具有代表性的是,罪犯把目标设为小型企业,对其安装一些恶意软件来获取他们的网上银行证书,然后访问他们的账户、电汇,自动将票据转移给第三方和境外人员的账户。这种类型的欺诈可能会对一些企业造成几万到十几万的损失(平均),但对于银行来说总计有十几亿美金的问题。因为涉及高额的费用和问题的复杂程度,银行使用传统的自动化识别技术是要花费很大的力气。

通用方法

银行已经逐渐的直观认识到,需要改变对风险整体的看法。直觉是描述这种动态改变很好的方法。可用数据的缺乏且需要从数据中收集信息,并将这些信息转换成知识的过程,这一过程依赖于将数据进行多角度的、有推理性的分析。

纵观历史,银行总是力图从结构化数据中发现这些知识。现在已经很明确,绝大多数的知识都是从非结构化数据库中得到的,但是这种非结构化数据的分析能力一直收到第22条规则的限制,这是由于这种获取情报的能力还需要技术上的支持。如果去购买这种技术,将是一笔高额的开销。

变化的本身是对庞大的金融数据飞快的分析能力。在过去的三年中,进步在于计算机计算速度的提高、带快的加大、大数据挖掘技术的进步以及先进分析技术成本的降低。然而这些工具现在决不是主流问题,而是经济学问题“我们是否要在阻止犯罪上花费的更多,还是罪犯让我们被消费?”现在回答不一。现在对先进分析技术投资的回报变得更引人注目。

就像银行过去常常用传统的工具进行反洗钱和欺诈检测,金融服务企业要积极的使用日志管理和客户关系管理工具,来尽早的发现内部欺诈的因素。具有代表性的有,这些系统提供对交易记录及交互记录的分析,还有对检测员工不法行为的分析应用,来找到那些已被证明的欺诈行为的模式。

例如,这些系统往往针对大型的集团风险,例如国家、银行、个体以及实体公司等。他们通过对交易日志和近乎实时的记录来找出不合格的或者,基于金融交易中特定指标或特征存在与否的突出问题的。

在特定的活动类型中,这是非常有效的方法。直到最近,由国家和国际规则指出的一系列可疑的金融交易中,这对合规来说是足够的。

然而,信息安全和国内安全人员已经知道这种方法的低效。从根本上讲,检查内部违法行为的需要交易和交互信息与合理正常的行为的对比,单单通过结构化数据根本是不可能得到的。

例如,一个银行职员每天早上花几个小时的时间在赌博网站上,然而整理论坛在没有对环境认识时看起来是很可疑的,然而员工自己的行为活动在欺诈检测中,看起来是完全符合银行要求以及自己的任务的。在另一方面,银行职员在发送关于账户的外部电子邮件后,再用于发起电汇,或者他在添加文本或者账户说明后再发送电汇,再或者他用非结构化甚至是外部通讯添加文本或者交易说明。(举例,像电子邮件这种通讯应用,在传统上是不会被反洗钱政策监控的)

员工活动环境的分析是一个很难说清的任务。环境是由一些高度微妙的指标和声明构成的,这不可能是结构化的;这种环境是由多层次以及多方的电子邮件、即时通讯聊天、内部消息、以及其它非结构化的数字通讯构成的。

Source adopted from:Hunt, S.,  

Proactive compliance: Using big data analytics to manage human risks



原文发布时间为:2013-07-25


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
分布式计算 资源调度 Hadoop
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(下)
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(下)
|
7月前
|
分布式计算 资源调度 Hadoop
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(上)
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(上)
|
4月前
|
分布式计算 大数据 调度
大数据计算MaxCompute怎么将一个Quota的资源优先供给给标准模式的生产库调度使用?
大数据计算MaxCompute怎么将一个Quota的资源优先供给给标准模式的生产库调度使用?
33 2
|
6月前
|
分布式计算 资源调度 Kubernetes
大数据问题排查系列 - SPARK STANDALONE HA 模式的一个缺陷点与应对方案
大数据问题排查系列 - SPARK STANDALONE HA 模式的一个缺陷点与应对方案
|
7月前
|
分布式计算 资源调度 Java
大数据Spark部署模式DeployMode
大数据Spark部署模式DeployMode
89 0
|
10月前
|
数据采集 缓存 大数据
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的多路复用模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector多路复用模式,讲解其数据采集流程。
110 0
|
10月前
|
数据采集 缓存 大数据
大数据数据采集的数据采集(收集/聚合)的Flume之数据采集流程的Selector的复制模式
在大数据处理和管理中,数据采集是非常重要的一环。为了更加高效地进行数据采集,Flume作为一种流式数据采集工具得到了广泛的应用。其中,Flume的Sink Processor模块是实现数据输出和处理的核心模块之一。本文将介绍Flume中的Selector复制模式,讲解其数据采集流程。
81 0
|
12月前
|
Java 大数据 Scala
大数据开发基础的编程语言的Scala的模式匹配和正则
Scala是一种支持模式匹配和正则表达式的编程语言,它提供了强大的字符串处理和数据解析功能。本文将介绍Scala中模式匹配和正则表达式的概念和用法,帮助开发者更好地理解和应用这门语言。
57 0
|
存储 数据采集 传感器
谈谈大数据环境下的数据集成新模式
信息技术发展迅速。但这并不总是导致现有技术灭绝。想想信息传播的渠道,比如广播、电视和互联网。
谈谈大数据环境下的数据集成新模式
|
存储 分布式计算 DataWorks
持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)
快速学习持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护
233 0
持续定义 SaaS 模式云数据仓库—— MaxCompute 数据的持续保护 | 学习笔记(三)