如何设计基于Hadoop、Spark、Storm的大数据风控架构?

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人用户展示经济财务等状况,撮合金融机构为用户提供最优质的贷款服务。金融的本质是风险和流动性,但是目前中国对于个人方面的征信行业发展落后于欧美国家,个人消费金融的需求没有得到很好的满足。按照央行最新数据,目前央行征信中心的数据覆盖人口达到8亿人[1],但其中有实际征信记录的只有3亿人左右,有5亿人在征信系统中只是一个身份证号码。此外,我国还有5亿人跟银行从来没有信贷交易关系,这5亿人对金融部门来说是陌生人。这样算下来,有征信记录的人只占到全国人口数的23.7%,远低于美国征信体系对人口的85%的覆盖率。如何在信用记录缺失的情况下,做好多个人用户的风险定价,是个棘手的难题。量化派通过基于机器学习和互联网化的风险定价,整合互联网及传统数据源,对个人在消费金融应用场景里的信用风险进行评估。这篇文章就主要介绍一下量化派的大数据平台,以及机器学习在量化派的应用。

一、互联网化的风控创新

量化派及“信用钱包”的核心任务是让用户可以凭借其良好的信用,而无需抵押或者担保就可以贷款。也就是说,用户仅凭信用即可开启财富之门。为了达到这个目的,信用钱包需要把用户个性化的需求与信贷产品信息精准匹配到一起。在帮助用户找到合适自己的信贷产品的同时,也帮助信贷产品公司找到了最合适的贷款用户,从而实现信贷消费者和信贷产品提供者的双赢。为了确保贷款的高成功率,为了更好的掌握用户需求以及对个人进行信用评级,我们需要大数据平台的支持。

目前,可以接入央行征信中心的金融机构仅仅只有银行、持牌照的第三方征信服务商以及部分地区的小贷公司,绝大多数的P2P平台还无法接入央行的征信数据,这无疑加大了P2P平台的风控难度。在征信思路上,传统征信是用昨天的信用记录来判断今天的信用价值,这未见得就是最合理的。在征信技术上,传统的方法是从线下采集信用数据,效率比较低。可以说,传统的线下征信技术限制了数据来源和信用评估思路,而互联网的技术、工具和思维则具备了改变这一切的可能性。回归到征信的本质,其实就在于解决两方面问题:信用能力和信用意愿,换而言之,即解决个人的还款能力和还款意愿,再追根溯源一点,即解决坏账和逾期两个问题[2]。量化派公司基于大数据的用户征信和传统征信殊途同归,所不同的是,传统征信中,数据依赖于银行信贷数据,而大数据征信的数据并不仅仅包括传统的信贷数据,同时也包括了与消费者还款能力、还款意愿相关的一些描述性风险特征,这些相关性描述风险特征的抽取与筛选是量化派的技术核心。相比于传统征信数据的强相关性,这些大数据征信的数据与消费者的信用状况相关性较弱,量化派就利用大数据技术,通过用户授权等方法搜集了更多的数据维度来加强这些弱相关数据的描述能力。这样就使大数据征信不依赖于传统信贷数据,就可以对传统征信无法服务的人群进行征信,实现对整个消费者人群的覆盖[3]。我们的数据来源如下图所示:

图一 量化派的数据来源

二、量化派的大数据平台架构

量化派的信用钱包每天都会获取大量的用户的注册信息等结构化数据以及爬虫抓取的非结构化数据,还有第三方的接入数据,系统运行产生的日志数据等等,数据的形式多种多样,如何保护好、利用好这些数据,是公司重中之重的任务。量化派的业务也决定了公司是数据驱动型的。为了更好的满足公司日益增长变化的业务,在大数据平台建设中全面拥抱开源的基础上,进行了不停迭代设计,对数据平台中采用的开源软件进行了深度应用开发,同时还开发了很多契合业务需求的工具软件,很好的支撑我们去实现普惠金融的理想。量化派公司的数据平台架构如图二所示。

图二 量化派的数据平台架构

相比我国的网民数量,信贷用户只占其中的一小部分,所以我司产品的用户基数并不是非常大,但是,为了给信贷用户更准确的信用评级,对于每个信贷用户我们都会从多个渠道获取大量的有效数据,这些数据聚合起来也是海量数据规模。公司发展伊始,几乎将所有的数据都存放在Mysql关系数据库中,工程师使用标准SQL语句来存储或者调用数据资源。Mysql很快就遇到了性能瓶颈,虽然可以通过不停地优化整个Mysql集群以应对数据的快速增长,但是面对复杂的数据业务需求,Mysql显然无法提供最优的解决方案。所以我司最终决定将数据迁移到大数据平台上,Mysql仅用来存储需要经常变化的状态类数据。除了系统运行日志直接存放在HDFS之中,大量的数据利用HBase来进行管理。HBase中的数据按照不同的数据源存放在不同的表中,每张表按照业务和存储需求对rowkey进行精心设计,确保海量数据中查询所需数据毫秒级返回。

根据业务的不同特点,对于常规的数据ETL处理,我们使用MapReduce[4]框架来完成;BI和数据挖掘这些工作都放到了Spark[5]上。这样一来,依赖不同任务或不同计算框架间的数据共享情况在所难免,例如Spark的分属不同Stage的两个任务,或Spark与MapReduce框架的数据交互。在这种情况下,一般就需要通过磁盘来完成数据交换,而这通常是效率很低的。为了解决这个问题,我们引入了Tachyon[6]中间层,数据交换实际上在内存中进行了。而且,使用了Tachyon之后还解决了Spark任务进程崩溃后就要丢失进程中的所有数据的问题,因为此时数据都在Tachyon里面了,从而进一步提升了Spark的性能。Tachyon自身也具有较强的容错性,Tachyon集群的master通过ZooKeeper[7]来管理,down机时会自动选举出新的leader,并且worker会自动连接到新的leader上。

多维度的征信大数据可以使得量化派可以融合多源信息,采用了先进机器学习的预测模型和集成学习的策略,进行大数据挖掘。不完全依赖于传统的征信体系,即可对个人消费者从不同的角度进行描述和进一步深入地量化信用评估。公司开发了多个基于机器学习的分析模型,对每位信贷申请人的数千条数据信息进行分析,并得出数万个可对其行为做出测量的指标,这些都在数秒之内完成。

三、不同场景的机器学习方法

上部分说到量化派首先需要对用户进行信用风险的评估,为了让用户可以仅凭信用,而无需抵押和担保就可贷款成功。美国有着很完善的征信体系,以及成熟的信用评估系统。通过几十年的发展,美国的三大征信局[8]对85%的公民有着详细的信用记录:包括信用卡,房贷,以往的住址,工作等情况都有记录在案。而且在找工作,租房时候也会查询个人信用记录,如果有违约等不良行为也会反馈给征信局。Fair Issac公司的FICO评分是业界应用最为广泛的评分,是建立在详细的个人征信记录上的预测系统。FICO从最开始的用图表画出的评分,到后来演化为logistic regression类的回归算法,用来预测用户在未来一段时间内违约的可能性。近年来,在predictive analytics 方面的发展,deep learning 在supervised learning里面得到了广泛应用。

中国由于在征信方面的数据缺失,需要通过更为自由的模式来创新和跨越式发展。宜信[9]作为国内最大的p2p机构,拥有多年的业务积累,以及一流的风控团队。传统上是通过线下风控的手段,对用户进行详尽的背景调查。收集用户的资料例如他们有的曾提交过信用报告、联系人信息、教育水平、工资单、银行流水等一系列传统征信数据。这样的贷款审核流程耗时较长,贷款申请人往往需要少则几天,多则数月的等待。时间成本过大,流程繁琐,是用户痛点所在,造成了潜在贷款用户的大量流失。提高审核效率,优化贷款流程,把申请人贷款体验做到极致,最终做到极速放贷是大势所趋。到目前,宜信也开始从传统的线下业务,开始往线上做业务拓展,宜信的瞬时贷通过大数据进行实时授信,用户授权系统读取信用卡账单邮箱、电商、运营商相关记录信息,得到有关你性格、消费偏好的个人画像。同时进行交叉验证形成风控机制,进而计算出每一个用户的风险评分,最终判断是否应该放款,以及该用户的授信额度、 还款周期等并最快达到10分钟放款。另外,蚂蚁金服的芝麻信用[10],根据个人淘宝、支付宝等交易数据以及其他授权数据,对个人进行信用评分。芝麻信用综合考虑了个人用户的信用历史,行为偏好,履约能力,身份特质,人脉关系等五个纬度的信息得出的。于此同时,腾讯系的腾讯征信都会考虑到一些信贷之外的一些信息。除了微信支付、QQ钱包绑定的银行卡外,腾讯还能够从更大范围获取数据,比如很多银行都在微信上开通了公众号,向用户发送消费数据;微信的社交状况也能够对个人的资质进行有效的评估。

量化派对用户的信息整合也包括了用户的社交信息,不光包含了用户的画像 (性别、职业、爱好等等),也包含了用户之间的关系。如果说每个人是图中的一个节点,那么人与环境所形成的关系就是两点间的线。当把“点和线”综合起来分析时,我们对个人的性格特征、信用状况、财富属性都会有更深层、更全面的理解。Google 的 PageRank 算法考虑到了web页面的相关性来提高页面的质量,例如权重高的页面指向链接的页面对应的权重相对来说会比较高。类似来说,信贷风险低的用户的常用联系人的小圈子,个人资质的也应该是比较好的。

另一个方面,“信用钱包”需要把用户个性化的需求与信贷产品信息精准匹配到一起。帮助用户找到合适自己的信贷产品,实现信贷消费者和信贷产品提供者的双赢。我们对信贷产品向用户做了基于协同过滤的和基于产品信息匹配的推荐。在对用户做了较为准确的信用评价之后,我们的分发平台(如图三所示)会根据贷款用户的贷款需求来分派给相应的贷款产品,这样就出现了一个客户面对多款信贷产品的情况。我们会根据批贷额度、贷款利率、承诺放款速度等因素在多个信贷产品中选出最适合用户的产品。

图三 分单平台系统

四、美国的风控系统案例

打造一流的风控系统不是光靠数据分析师团队能够做到的,整个风控是需要在公司的DNA里面。美国的Capital One是最早利用大数据分析来判断个人借款还款概率的公司,本文的作者都曾经在Capital One 工作过,并在金融危机发生的时候也在那边,目睹了他是如何发展壮大成第五大银行的。在危机开始的时候,非常果断的把有潜在问题的GreenPoint Mortgage整体出售,并在危机发生的时候,谨慎挑战风险政策来控制风险,并在危机发生的时候以非常低廉的价格收购华盛顿地区的Chevy Chase 银行, ING Direct, HSBC Card北美分部。并完善其Local Banking, Global Lending的策略。

Capital One的风控系统是通过多年的积累和演变而形成的。Capital One 的 Analytics 部门里面分为几个种类,Data Analyst, Business Analyst, Statistician/Modeler. 不仅仅是分析师专注的做模型,做风控来对模型进行大数据分析。所有的决策者,包括商务的总监,运营副总等,所有的决策都会有大量的数据分析,模型策略做支撑。

Capital One在各个业务部门都有很多的决策引擎和模型来支撑。在获取用户时,根据不同的业务线prime, subprime, 汽车金融等,有专门的 customer model,risk model等。在用户关系管理方面,有cross-sell model, customer contact model等。除此还有专门的反欺诈模型,包含identify-fraud model, payment fraud model等等。不同的业务线有着这么多种类的模型,对于这些模型的监管也都是有一套系统的流程的。对于每个模型,模型开发人员会对模型开发写出详细的文档,有着一套类似于code review, unit test的检验机制。公司层面,部门设有专门的中高级别scoring officer (模型官), 负责定期对模型进行监管和监测。除了对于整体模型的效果的监管,整体评分的分布的稳定性;还包括在变量层面的监管,监测模型的重要变量的稳定性。 Capital One 用到的大量征信局的数据和在自身平台上沉淀的用户数据,根据以往的用户的个人行为和违约记录,建立的用户风险决策模型对用户进行评估,模型的效果会比FICO分数高40%以上。

面向个人消费的风控体系的搭建是一个长期的,系统的工程。在中国目前的市场情况,缺失的个人信用风险和高速发展的互联网金融,以及未被满足的普惠金融需求是十分矛盾的。移动互联网时代的到来,对个人风险评估带来了崭新的视角。大数据平台和机器学习的结合能够带来多样化的创新,量化派的使命就是通过这两者的结合来服务互联网金融机构,降低全行业的风险。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
大数据
【赵渝强老师】大数据主从架构的单点故障
大数据体系架构中,核心组件采用主从架构,存在单点故障问题。为提高系统可用性,需实现高可用(HA)架构,通常借助ZooKeeper来实现。ZooKeeper提供配置维护、分布式同步等功能,确保集群稳定运行。下图展示了基于ZooKeeper的HDFS HA架构。
|
1月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
90 1
|
7天前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
【赵渝强老师】基于大数据组件的平台架构
|
15天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
59 2
|
17天前
|
分布式计算 大数据 Apache
Apache Spark & Paimon Meetup · 北京站,助力 LakeHouse 架构生产落地
2024年11月15日13:30北京市朝阳区阿里中心-望京A座-05F,阿里云 EMR 技术团队联合 Apache Paimon 社区举办 Apache Spark & Paimon meetup,助力企业 LakeHouse 架构生产落地”线下 meetup,欢迎报名参加!
84 3
|
16天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
56 1
|
1月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
64 1
|
1月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
53 1
|
1月前
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
100 0
|
5天前
|
缓存 负载均衡 JavaScript
探索微服务架构下的API网关模式
【10月更文挑战第37天】在微服务架构的海洋中,API网关犹如一座灯塔,指引着服务的航向。它不仅是客户端请求的集散地,更是后端微服务的守门人。本文将深入探讨API网关的设计哲学、核心功能以及它在微服务生态中扮演的角色,同时通过实际代码示例,揭示如何实现一个高效、可靠的API网关。