数据湖驱动更大规模存储,帮助互金行业释放数据价值-阿里云开发者社区

开发者社区> 阿里云存储服务> 正文

数据湖驱动更大规模存储,帮助互金行业释放数据价值

简介: 利用DLA+ OSS极致分析能力来应对业务波峰波谷。一方面轻松应对来自品牌客户的临时分析。另一方面利用DLA的强大计算能力,分析按月、季度广告投放,精确计算出一个品牌下面会有多少个活动,每个活动分媒体,分市场,分频道,分DMP的投放效果,进一步增强了加和智能流量平台为品牌营销带来的销售转化率。

行业综述

线下金融行业疫情受挫,互联网金融强势崛起
互联网+金融业务互相结合,诞生出了多种互联网金融业务模式。尤其是2020年以来,由于疫情的影响,先下车金融机构被迫关闭,难以直接接触用户,使得传统理财业务在销售、售后等方面都受到一定的影响。而互联网金融,以“无接触”的特点,被大众广泛接受。
在近几年,互联网金融成为了市场新热点,互联网技术的发展,将无限种看似不可能达成的事,变成了现实。互联网金融也从单纯的“互联网+金融业务”的模式,转变为将互联网技术与金融相结合,让大数据推动金融业务发展的模式。

行业发展方向

互金行业势头正盛,六大行加紧技术部署
单单以互联网汽车金融市场举例,2018年,我国互联网汽车金融的市场规模为3566.3亿元。到了2019年,中国互联网+汽车金融市场规模更是达到4438.4亿元左右。
根据中国互联网信息中心数据,截至2019年6,我国线上理财用户就已达1.69亿人。而根据2019年六大行年报披露,六大行也已经开始重金布局金融科技。从投资金额来看,六大行在19年对互联网金融方面的投资,高达634.96亿元。从招纳人才方面来看,2019年六大行招纳金融科技类人才共达到8.064万人。

面临的痛点

大数据驱动下数据存储成难题,资源浪费成难题
近些年来,随着互联网金融,移动金融等新型金融形态的涌现,给金融传统IT架构带来了较大的冲击与挑战。

16.png

由于互联网金融行业的逐渐成熟,以及各家金融巨头在技术方面的发力,在未来金融行业的核心竞争力将会依赖与大数据中提取信息和知识的速度与能力。通过数据资产的挖掘,讲数据资产转化为产品创新,精准营销和市场竞争力。
同时,因为市场的冲击和同业竞争,现在银行信用卡发卡时间从15天左右缩短到5分钟;再如招行现在已可以提供30万以下贷款的分钟级放款,这些都是对银行风控业务的重大挑战。
随着互联网金融,移动金融等新型金融业态的涌现,强化以“用户为中心”因此如何同时为客户和业务提供更好的服务模式将成为金融业的重要发展方向。
虽然互联网金融行业日渐成熟,市场也在逐步扩大,但是如果想要依托互联网的技术来为自己的业务添砖加瓦,却是有一定的门槛的。

数据湖解决方案

阿里云数据湖解决方案,助力企业真正释放数据价值
15.png
基于阿里云对象存储OSS构建的数据湖解决方案,可以全面满足数据的存储、离线分析、交互查询等各种业务诉求,帮助解决上面提到的这些难题。
首先,数据湖解决方案可为用户存储的数据提供高达12个9的可靠性,让数据安全存放,保障用户数据不丢不坏。

 其次,阿里云的数据湖解决方案,也是一套十分智能的解决方案。其中对象存储OSS,可以对接个多业务系统,存储来自不同业务系统的多种数据源,如些系统的原始数据、游戏日志数据等。等数据汇聚到数据湖之后,它的上层系统可以兼容多种计算引擎,如开源大数据引擎像Hive,Spark,阿里云EMR、DLA等,帮助用户便捷地实现数据处理和分析,不需要再重复拷贝多份。同时采用 Jindofs提供缓存加速方案,还可以获得比使用HDFS更好的体验。

这样一套整体的数据存储、处理分析解决方案,能很大程度地减少系统兼容性问题,管理维护也更加简单,帮助IT人员从复杂且繁琐的运维中解放出来,更加专注在产品创新和业务模式的运营上。

17.png

首先,由于互联网金融行业涉及到的数据类型较多,在数据源采集的方式和存储方式方式上各不同,因此会形成数据孤岛的现象,同一用户的数据可能会有好几种表现和存储的方式。
完成数据收集阶段后,就到了数据运算的阶段。由于数据类型众多,因此在进行运算时,就需要将不同类型的数据在孤岛间相互拷贝,并转换成相对应的数据形式,因此这也就大大减慢了数据处理的时间,造成了存储资源、计算资源以及时间上不必要的浪费。
同时由于互联网具备高时效性与高度开放性,系统可能会在某个时间段内,收到大量的用户数据,如何高效地将这些数据加以筛选、留存、运算,成为了互联网金融企业需要解决的痛点之一,因此如何搭建一个高效自动化的平台,也就成为各家企业迫切需要解决的问题。

互金行业数据湖解决方案

18.png
阿里云面向金融行业,基于对象存储OSS构建了一个统一的数据湖。阿里云数据湖解决方案能够从各种数据源沉淀数据,将数据进行统一治理,并且可通过阿里云EMR集群,无缝对接各类计算引擎,展现数据最大化的价值。
首先基于云存储构建的数据湖天然具有很好的弹性伸缩能力,特别是在阿里云的节点及规模优势基础之上,能够轻松应对业务指数级的扩容需求,平滑应对业务各类型波动及峰值。
其次,阿里云对象存储OSS支持标准、低频、归档三种存储类型,覆盖热、温、冷的数据场景,结合生命周期管理功能,可以自动实现对数据的冷热分层,很好实现对数据存储的成本的管理。
同时阿里云对象存储OSS打通了阿里云日志服务,用户可一键将不同种类的日志服务投递到阿里云对象存储OSS上,将各种过程日志利用起来,让日志也发挥自己的价值。
最后,在数据计算上面,阿里云数据湖解决方案采用EMR构建计算集群,同时结合包括Hadoop、Hive、Spark、Presto在内的多种大数据产品。由于数据湖的存储与计算解耦合架构,阿里云EMR集群创建的ECS弹性计算实例,可以在计算任务完成后,就直接释放,帮助互金企业能把更多的资源和精力放在搭建不同类型的业务数据模型上。而阿里云的云原生数据湖分析DLA提供的Serverless 化的SQL(Presto)和Serverless 化的Spark引擎,job级别的弹性计算能力,使得用户在使用计算资源时成本零浪费,帮助用户集中精力专注于业务实现逻辑,快速实现数据变现,洞察数据价值。

最佳案例实践

客户简介
国内某政策性银行,需要上收下属几千家金融机构每天的数据信息,进行筛查分析,统一存储和调度。

业务挑战
1、存储规模达到百PB级别,大规模数据存储耗时长且成本高
2、自建集群成本过高,难以同步业务需求进行弹性拓展
3、数据类型不同,各类数据之间难以打通,发生数据孤岛的现象

解决方案
针对该银行对于数据存储、收发能力、拓展能力、数据兼容以及可靠性方面的要求,阿里云为其量身定制了一套数据湖解决方案。

20.png

1、在数据传送和采集层,阿里云为其提供了SDK、API等传输工具,可将不同类型的数据传输到阿里云对象存储OSS以及实时的数仓。而OSS作为数据的统一存储层,能将全国各个金融机构的数据进行统一存储管理和调度,并为其提供99.9999999999%(12个9)的数据持久性和99.995%的高可用性。
2、在数据计算与分析层,阿里云为客户提供了由EMR构建的计算集群,为其提供了丰富灵活且高性价的离线和在线处理模式,通过云原生的计算引擎和其自建的服务,轻松支撑其每天TB级别的数据计算与分析。
客户价值
为客户的智能流量平台提供了性价比极高的处理方案。
1、实现客户所需要的全国各个金融机构数据能够通过多种传输模式海量并发上收,统一存储管理和调度,并通过EMR集群进行高效的计算与分析。
2、将冷热数据分层存储,全流程业务日志信息可留存,可分析,可告警。冷数据定期迁移到低成本OSS,新产生的热数据传递到数仓分析应用,最大程度地降低数据存储的成本
3、无须再担心集群因为容量不足的扩容难题,最大程度地提升应对业务峰值的能力

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

阿里云存储基于飞天盘古2.0分布式存储系统,产品多种多样,充分满足用户数据存储和迁移上云需求。

官方博客
链接