数据湖驱动更大规模存储,帮助互金行业释放数据价值

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 利用DLA+ OSS极致分析能力来应对业务波峰波谷。一方面轻松应对来自品牌客户的临时分析。另一方面利用DLA的强大计算能力,分析按月、季度广告投放,精确计算出一个品牌下面会有多少个活动,每个活动分媒体,分市场,分频道,分DMP的投放效果,进一步增强了加和智能流量平台为品牌营销带来的销售转化率。

行业综述

线下金融行业疫情受挫,互联网金融强势崛起
互联网+金融业务互相结合,诞生出了多种互联网金融业务模式。尤其是2020年以来,由于疫情的影响,先下车金融机构被迫关闭,难以直接接触用户,使得传统理财业务在销售、售后等方面都受到一定的影响。而互联网金融,以“无接触”的特点,被大众广泛接受。
在近几年,互联网金融成为了市场新热点,互联网技术的发展,将无限种看似不可能达成的事,变成了现实。互联网金融也从单纯的“互联网+金融业务”的模式,转变为将互联网技术与金融相结合,让大数据推动金融业务发展的模式。

行业发展方向

互金行业势头正盛,六大行加紧技术部署
单单以互联网汽车金融市场举例,2018年,我国互联网汽车金融的市场规模为3566.3亿元。到了2019年,中国互联网+汽车金融市场规模更是达到4438.4亿元左右。
根据中国互联网信息中心数据,截至2019年6,我国线上理财用户就已达1.69亿人。而根据2019年六大行年报披露,六大行也已经开始重金布局金融科技。从投资金额来看,六大行在19年对互联网金融方面的投资,高达634.96亿元。从招纳人才方面来看,2019年六大行招纳金融科技类人才共达到8.064万人。

面临的痛点

大数据驱动下数据存储成难题,资源浪费成难题
近些年来,随着互联网金融,移动金融等新型金融形态的涌现,给金融传统IT架构带来了较大的冲击与挑战。

16.png

由于互联网金融行业的逐渐成熟,以及各家金融巨头在技术方面的发力,在未来金融行业的核心竞争力将会依赖与大数据中提取信息和知识的速度与能力。通过数据资产的挖掘,讲数据资产转化为产品创新,精准营销和市场竞争力。
同时,因为市场的冲击和同业竞争,现在银行信用卡发卡时间从15天左右缩短到5分钟;再如招行现在已可以提供30万以下贷款的分钟级放款,这些都是对银行风控业务的重大挑战。
随着互联网金融,移动金融等新型金融业态的涌现,强化以“用户为中心”因此如何同时为客户和业务提供更好的服务模式将成为金融业的重要发展方向。
虽然互联网金融行业日渐成熟,市场也在逐步扩大,但是如果想要依托互联网的技术来为自己的业务添砖加瓦,却是有一定的门槛的。

数据湖解决方案

阿里云数据湖解决方案,助力企业真正释放数据价值
15.png
基于阿里云对象存储OSS构建的数据湖解决方案,可以全面满足数据的存储、离线分析、交互查询等各种业务诉求,帮助解决上面提到的这些难题。
首先,数据湖解决方案可为用户存储的数据提供高达12个9的可靠性,让数据安全存放,保障用户数据不丢不坏。

 其次,阿里云的数据湖解决方案,也是一套十分智能的解决方案。其中对象存储OSS,可以对接个多业务系统,存储来自不同业务系统的多种数据源,如些系统的原始数据、游戏日志数据等。等数据汇聚到数据湖之后,它的上层系统可以兼容多种计算引擎,如开源大数据引擎像Hive,Spark,阿里云EMR、DLA等,帮助用户便捷地实现数据处理和分析,不需要再重复拷贝多份。同时采用 Jindofs提供缓存加速方案,还可以获得比使用HDFS更好的体验。

这样一套整体的数据存储、处理分析解决方案,能很大程度地减少系统兼容性问题,管理维护也更加简单,帮助IT人员从复杂且繁琐的运维中解放出来,更加专注在产品创新和业务模式的运营上。

17.png

首先,由于互联网金融行业涉及到的数据类型较多,在数据源采集的方式和存储方式方式上各不同,因此会形成数据孤岛的现象,同一用户的数据可能会有好几种表现和存储的方式。
完成数据收集阶段后,就到了数据运算的阶段。由于数据类型众多,因此在进行运算时,就需要将不同类型的数据在孤岛间相互拷贝,并转换成相对应的数据形式,因此这也就大大减慢了数据处理的时间,造成了存储资源、计算资源以及时间上不必要的浪费。
同时由于互联网具备高时效性与高度开放性,系统可能会在某个时间段内,收到大量的用户数据,如何高效地将这些数据加以筛选、留存、运算,成为了互联网金融企业需要解决的痛点之一,因此如何搭建一个高效自动化的平台,也就成为各家企业迫切需要解决的问题。

互金行业数据湖解决方案

18.png
阿里云面向金融行业,基于对象存储OSS构建了一个统一的数据湖。阿里云数据湖解决方案能够从各种数据源沉淀数据,将数据进行统一治理,并且可通过阿里云EMR集群,无缝对接各类计算引擎,展现数据最大化的价值。
首先基于云存储构建的数据湖天然具有很好的弹性伸缩能力,特别是在阿里云的节点及规模优势基础之上,能够轻松应对业务指数级的扩容需求,平滑应对业务各类型波动及峰值。
其次,阿里云对象存储OSS支持标准、低频、归档三种存储类型,覆盖热、温、冷的数据场景,结合生命周期管理功能,可以自动实现对数据的冷热分层,很好实现对数据存储的成本的管理。
同时阿里云对象存储OSS打通了阿里云日志服务,用户可一键将不同种类的日志服务投递到阿里云对象存储OSS上,将各种过程日志利用起来,让日志也发挥自己的价值。
最后,在数据计算上面,阿里云数据湖解决方案采用EMR构建计算集群,同时结合包括Hadoop、Hive、Spark、Presto在内的多种大数据产品。由于数据湖的存储与计算解耦合架构,阿里云EMR集群创建的ECS弹性计算实例,可以在计算任务完成后,就直接释放,帮助互金企业能把更多的资源和精力放在搭建不同类型的业务数据模型上。而阿里云的云原生数据湖分析DLA提供的Serverless 化的SQL(Presto)和Serverless 化的Spark引擎,job级别的弹性计算能力,使得用户在使用计算资源时成本零浪费,帮助用户集中精力专注于业务实现逻辑,快速实现数据变现,洞察数据价值。

最佳案例实践

客户简介
国内某政策性银行,需要上收下属几千家金融机构每天的数据信息,进行筛查分析,统一存储和调度。

业务挑战
1、存储规模达到百PB级别,大规模数据存储耗时长且成本高
2、自建集群成本过高,难以同步业务需求进行弹性拓展
3、数据类型不同,各类数据之间难以打通,发生数据孤岛的现象

解决方案
针对该银行对于数据存储、收发能力、拓展能力、数据兼容以及可靠性方面的要求,阿里云为其量身定制了一套数据湖解决方案。

20.png

1、在数据传送和采集层,阿里云为其提供了SDK、API等传输工具,可将不同类型的数据传输到阿里云对象存储OSS以及实时的数仓。而OSS作为数据的统一存储层,能将全国各个金融机构的数据进行统一存储管理和调度,并为其提供99.9999999999%(12个9)的数据持久性和99.995%的高可用性。
2、在数据计算与分析层,阿里云为客户提供了由EMR构建的计算集群,为其提供了丰富灵活且高性价的离线和在线处理模式,通过云原生的计算引擎和其自建的服务,轻松支撑其每天TB级别的数据计算与分析。
客户价值
为客户的智能流量平台提供了性价比极高的处理方案。
1、实现客户所需要的全国各个金融机构数据能够通过多种传输模式海量并发上收,统一存储管理和调度,并通过EMR集群进行高效的计算与分析。
2、将冷热数据分层存储,全流程业务日志信息可留存,可分析,可告警。冷数据定期迁移到低成本OSS,新产生的热数据传递到数仓分析应用,最大程度地降低数据存储的成本
3、无须再担心集群因为容量不足的扩容难题,最大程度地提升应对业务峰值的能力

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
存储 数据挖掘 BI
数据平台发展史-从数据仓库数据湖到数据湖仓 1
数据平台发展史-从数据仓库数据湖到数据湖仓
|
6月前
|
存储 人工智能 Cloud Native
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
喜马拉雅和阿里云的合作,正走在整个互联网行业的最前沿,在新的数据底座之上,喜马拉雅的AI、大数据应用也将大放光彩。本文摘自《云栖战略参考》
46479 5
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
|
4月前
|
存储 人工智能 运维
【云原生企业级数据湖:打破数据孤岛,优化存储成本】
【云原生企业级数据湖:打破数据孤岛,优化存储成本】 随着大数据时代的到来,企业对于数据的处理和存储需求日益增长。如何有效地存储和管理大量数据,同时降低运维成本,成为了企业面临的一大挑战。盛通教育的云原生企业级数据湖方案,正是为了解决这一问题而设计的。
165 1
|
4月前
|
存储 对象存储 SQL
【获奖名单公示】Hologres实时湖仓分析挑战赛
5分钟快速使用Hologres实时湖仓能力,无需移动数据,直接加速读取存储于数据湖OSS上的Hudi、Delta、Paimon等格式类型的数据
【获奖名单公示】Hologres实时湖仓分析挑战赛
|
5月前
|
SQL 分布式计算 Apache
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
流数据湖平台Apache Paimon(六)集成Spark之DML插入数据
94 0
|
6月前
|
存储 数据采集 安全
什么是数据管理,数据治理,数据中心,数据中台,数据湖?
什么是数据管理,数据治理,数据中心,数据中台,数据湖?
178 0
|
7月前
|
SQL 存储 人工智能
数据平台发展史-从数据仓库数据湖到数据湖仓 2
数据平台发展史-从数据仓库数据湖到数据湖仓
|
9月前
|
存储 消息中间件 SQL
Apache Paimon 实时数据湖 Streaming Lakehouse 的存储底座
阿里云开源大数据表存储团队负责人,阿里巴巴高级技术专家李劲松(之信),在 Streaming Lakehouse Meetup 的分享。
698 0
Apache Paimon 实时数据湖 Streaming Lakehouse 的存储底座
|
9月前
|
分布式计算 DataWorks 对象存储
全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力
阿里云全链路数据湖开发治理解决方案能力持续升级,发布2.0版本。解决方案包含开源大数据平台E-MapReduce(EMR) , 一站式大数据数据开发治理平台DataWorks ,数据湖构建DLF,对象存储OSS等核心产品。支持EMR新版数据湖DataLake集群(on ECS)、自定义集群(on ECS)、Spark集群(on ACK)三种形态,对接阿里云一站式大数据开发治理平台DataWorks,沉淀阿里巴巴十多年大数据建设方法论,为客户完成从入湖、建模、开发、调度、治理、安全等全链路数据湖开发治理能力,帮助客户提升数据的应用效率。
1292 1
|
11月前
|
存储 XML 弹性计算
带你读《云存储应用白皮书》之31:4. 数据湖存储解决方案
带你读《云存储应用白皮书》之31:4. 数据湖存储解决方案
215 0