开发者学习笔记【阿里云云数据库助理工程师(ACA)认证:快速构建轻量级云原生数据湖服务(二)】
课程地址:https://edu.aliyun.com/course/3112080/lesson/19071
快速构建轻量级云原生数据湖服务(二)
三、 DLA典型应用场景介绍
首先通过外部各种数据源的接入,比如将数据上传到OSS,或者通过T+1的方式,将数据批量导入到OSS,或者是通过实时建湖的方式,我们以hudi LakeHouse为核心的数据库存储,接下来通过DLA Spark进行复杂的ETL和机器学习,通过DLA SQL来实现在线交互式的查询,最后提供给分析师,做一个业务BI报表等等。所以这种高性价比、高弹性的解决方案,在游戏、新零售、广告和教育行业方面得到广泛的使用。
Hadoop |
对标组件 |
优势 |
缺点 |
Hive |
DLA Spark |
架构升级,兼容度高 |
|
Presto |
DLA Presto |
弹性1分钟300节点按需完全兼容 |
|
HBase |
云HBase&Lindom |
弹性Min,Max,O运维完全兼容 |
|
Kudu+impala&Kylin |
ADB |
性能高、弹性、O运维 |
一定的改造成本 |
HDFS |
Lindom HDFS&OSS |
冷热分离、O运完全兼容 |
|
Clickhouse |
Clickhouse |
O运维 |
|
调度 |
Dataworks&DMS |
支持良好 |
在上图中,数据库和大数据业务通过云原生数据库分析产品的对标。通过DLA Spark和DLA Presto,我们能够在运维成本上,在性价比上,在弹性模式上和在生态金融上,我们有具有巨大的优势。
自建Hadoop系统 |
AWS数据湖方案 |
阿里云数据湖方案 |
|
产品体系 |
复杂,组件较多 |
复杂,各个产品协调 |
一体化,端到端 |
持有成本 |
高 |
低 |
低 |
入湖 |
自己写代码构建Huid |
未知 |
支持T+10分钟入湖建仓构建(Hudi) |
学习成本 |
高 |
低 |
低 |
弹性 |
无或者弱 |
云原生、弹性中 |
云原生、弹性强、1分钟300节点 |
安全多租户 |
无 |
安全 |
安全 |
功能 |
开源功能,缺乏云连接器的支持,云内部系统对接与优化 |
未知 |
性能优化版本100%性能优化 |
上表中,典型应用场景下,我们跟自建的Hadoop体系,跟AWS数据湖方案和DLA的数据库方案的一些优势,在产品体系上能够实现端到端的一体化的数据入湖,数据管理和数据作业。在通过云原生极致弹性的产品形态能够实现极高的性价比,同时以Lakehouse为核心,能够支持实时入湖和增量入湖。
四、DLA一键入湖、实时入湖介绍
主要是三步走,首先是原数据自动发现,第二个是配置构建数据库的任务,第三个是我们通过DLA Spark和DLA Presto来完成在线交互的查询和复杂的ETL操作。
需求场景一 |
需求场景二 |
需求场景三 |
1、MySQL除了在线业务逻辑的读写,还会有一些额外的数据分析需求,如BI报表、可视化大屏、大数据应用等。2、随着业务的发展,单机MySQL数据库达到一定的数据量后,直接使用MySQL做数据分析性能比较差,而且会影响在线业务的读写性能,需要寻求新的数据分析方案。 |
MySQL中的数据需要和日志数据做联合分析,有些客户会使用开源的大数据系统搭建数据仓库,这个方法虽然能解决问题,但他所需的人力成本和服务器等资源成本却是最高的。如何才能低成本的把MySQL与其他系统的数据做联合分析? |
当MySQL中数据量超过单机性能后,为了保证在线业务性能,dba通常会采用分库分表技术将一个数据库中的单张表数据拆分到多个数据库的多张表中。由于一个逻辑表被猜成多张表,这首如果要进行数据分析将会变得十分复杂,需要新的分析方案来解决。 |
在传统的MySQL场景里,有些客户会通过MySQL的只读实例来进行数据分析和数据报表,随着数据量的增大,性能受到很大挑战。
第二个是客户会通过scope把数据库的数据抽取到大数据的分析平台上,这样就带来了一个人力成本和服务器成本的问题。第三个是在传统的分库分表场景里面,如果进行数据分析,会变得复杂。
支持丰富的数据源 |
自动同步保持数据一致 |
支持丰富的数据源,包括自建MySQL\SQLServer\PostgreSQL\Oracle、云数据库RDS\PolarDB\ADB等。它的设计目标是简单,让用户通过简单配置就能实现数据同步到DLA,真正实现一键建厂 |
支持自动同步更新的数据,也能自动同步包括创建/删除表,新增/修改/删除列等元数据操作。在分库分表的场景中,数据湖构建能把一张分布在多个数据库的逻辑表合并到一张表中,实现基于一张表做数据分析 |
DLA的设计目标是让客户实现端到端的一体化解决方案,设计目标较简单,让客户通过简单的配置,界面化的操作,就能够实现数据一键同步到DLA,目标是实现一键建仓,一键建湖。所以,DLA能够一键键湖,能够支持自动的数据同步,包括DDL的变更和DML的变更,从而实现基于一张表做数据湖分析。
这种方案对源库的查询无影响,同时能够实现在源库的数据同步时,对源库的性能影响保证在10%以内。通过选择合适的索引链进行数据切分,并且动态的去感知原端的负载,控制自己,控制抽取现成的并发数量,从而能够绝对的控制对源库的压力。
上图性价比优势,以TPCH10G B的数据为对比模型在RDS的存储,OSS的存储因为裂痕和压缩之后大约是3GB。RDS的规格采用8C16G的规格,包月的价格是2000左右,在DLA里每天跑一组TPCH。总费,包括存储费用、OSS请求费用、DLA的扫描费用,大概的成本是26块钱。所以基于DLA构建一个数据库分析服务,能够做到简单易用,同时能够实现高性价比。