快速构建轻量级云原生数据湖服务(二)

简介: 快速构建轻量级云原生数据湖服务(二)

开发者学习笔记【阿里云云数据库助理工程师(ACA)认证:快速构建轻量级云原生数据湖服务(二)】

课程地址https://edu.aliyun.com/course/3112080/lesson/19071

 

快速构建轻量级云原生数据湖服务(二)


三、 DLA典型应用场景介绍


图片128.png

 首先通过外部各种数据源的接入,比如将数据上传到OSS,或者通过T+1的方式,将数据批量导入到OSS,或者是通过实时建湖的方式,我们以hudi LakeHouse为核心的数据库存储,接下来通过DLA Spark进行复杂的ETL和机器学习,通过DLA SQL来实现在线交互式的查询,最后提供给分析师,做一个业务BI报表等等。所以这种高性价比、高弹性的解决方案,在游戏、新零售、广告和教育行业方面得到广泛的使用。

图片129.png

Hadoop

对标组件

优势

缺点

Hive

DLA Spark

架构升级,兼容度高

 

Presto

DLA Presto

弹性1分钟300节点按需完全兼容

 

HBase

云HBase&Lindom

弹性Min,Max,O运维完全兼容

 

Kudu+impala&Kylin

ADB

性能高、弹性、O运维

一定的改造成本

HDFS

Lindom HDFS&OSS

冷热分离、O运完全兼容

 

Clickhouse

Clickhouse

O运维

 

调度

Dataworks&DMS

支持良好

在上图中,数据库和大数据业务通过云原生数据库分析产品的对标。通过DLA Spark和DLA Presto,我们能够在运维成本上,在性价比上,在弹性模式上和在生态金融上,我们有具有巨大的优势。

自建Hadoop系统

AWS数据湖方案

阿里云数据湖方案

产品体系

复杂,组件较多

复杂,各个产品协调

一体化,端到端

持有成本

入湖

自己写代码构建Huid

未知

支持T+10分钟入湖建仓构建(Hudi

学习成本

弹性

无或者弱

云原生、弹性中

云原生、弹性强、1分钟300节点

安全多租户

安全

安全

功能

开源功能,缺乏云连接器的支持,云内部系统对接与优化

未知

性能优化版本100%性能优化

中,典型应用场景下,我们跟自建的Hadoop体系,跟AWS数据湖方案和DLA的数据库方案的一些优势,在产品体系上能够实现端到端的一体化的数据入湖,数据管理和数据作业。在通过云原生极致弹性的产品形态能够实现极高的性价比,同时以Lakehouse为核心,能够支持实时入湖和增量入湖。

 

四、DLA一键入湖、实时入湖介绍


图片130.png

主要是三步走,首先是原数据自动发现,第二个是配置构建数据库的任务,第三个是我们通过DLA Spark和DLA Presto来完成在线交互的查询和复杂的ETL操作。

 图片131.png

需求场景一

需求场景二

需求场景三

1、MySQL除了在线业务逻辑的读写,还会有一些额外的数据分析需求,如BI报表、可视化大屏、大数据应用等。2、随着业务的发展,单机MySQL数据库达到一定的数据量后,直接使用MySQL做数据分析性能比较差,而且会影响在线业务的读写性能,需要寻求新的数据分析方案。

MySQL中的数据需要和日志数据做联合分析,有些客户会使用开源的大数据系统搭建数据仓库,这个方法虽然能解决问题,但他所需的人力成本和服务器等资源成本却是最高的。如何才能低成本的把MySQL与其他系统的数据做联合分析?

当MySQL中数据量超过单机性能后,为了保证在线业务性能,dba通常会采用分库分表技术将一个数据库中的单张表数据拆分到多个数据库的多张表中。由于一个逻辑表被猜成多张表,这首如果要进行数据分析将会变得十分复杂,需要新的分析方案来解决。

在传统的MySQL场景里,有些客户会通过MySQL的只读实例来进行数据分析和数据报表,随着数据量的增大,性能受到很大挑战。

第二个是客户会通过scope把数据库的数据抽取到大数据的分析平台上,这样就带来了一个人力成本和服务器成本的问题。第三个是在传统的分库分表场景里面,如果进行数据分析,会变得复杂。

图片132.png

支持丰富的数据源

自动同步保持数据一致

支持丰富的数据源,包括自建MySQL\SQLServer\PostgreSQL\Oracle、云数据库RDS\PolarDB\ADB等。它的设计目标是简单,让用户通过简单配置就能实现数据同步到DLA,真正实现一键建厂

支持自动同步更新的数据,也能自动同步包括创建/删除表,新增/修改/删除列等元数据操作。在分库分表的场景中,数据湖构建能把一张分布在多个数据库的逻辑表合并到一张表中,实现基于一张表做数据分析

DLA的设计目标是让客户实现端到端的一体化解决方案,设计目标较简单,让客户通过简单的配置,界面化的操作,就能够实现数据一键同步到DLA,目标是实现一键建仓,一键建湖。所以,DLA能够一键键湖,能够支持自动的数据同步,包括DDL的变更和DML的变更,从而实现基于一张表做数据湖分析。

 图片133.png

 这种方案对源库的查询无影响,同时能够实现在源库的数据同步时,对源库的性能影响保证在10%以内。通过选择合适的索引链进行数据切分,并且动态的去感知原端的负载,控制自己,控制抽取现成的并发数量,从而能够绝对的控制对源库的压力。

图片134.png

上图性价比优势,以TPCH10G B的数据为对比模型在RDS的存储,OSS的存储因为裂痕和压缩之后大约是3GB。RDS的规格采用8C16G的规格,包月的价格是2000左右,在DLA里每天跑一组TPCH。总费,包括存储费用、OSS请求费用、DLA的扫描费用,大概的成本是26块钱。所以基于DLA构建一个数据库分析服务,能够做到简单易用,同时能够实现高性价比。

相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
2月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
535 33
|
4月前
|
运维 NoSQL Serverless
|
3月前
|
Cloud Native 算法 区块链
站在巨人的肩膀上:gRPC通过HTTP/2构建云原生时代的通信标准
gRPC是云原生时代高效通信标准,基于HTTP/2实现,支持四种服务方法。通过.proto文件定义接口,生成多语言Stub,实现跨语言调用。其请求响应结构清晰,结合Headers、Data帧与Trailers,保障高性能与可扩展性,广泛应用于微服务架构中。
203 0
|
8月前
|
人工智能 关系型数据库 OLAP
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
660 17
|
4月前
|
运维 NoSQL Serverless
《第四纪元》玩得轻松,构建也轻松 | 阿里云云原生 API 网关、函数计算助力 IGame 快速构建轻休闲游戏
在轻休闲游戏流量波动大、生命周期短的背景下,传统架构难以应对成本与扩展挑战。本文介绍了基于阿里云函数计算 FC 和 Redis 构建的新一代服务器架构,实现弹性伸缩、成本优化与高效运维,助力轻休闲游戏快速迭代与稳定运营,提升开发效率并降低运维复杂度。
《第四纪元》玩得轻松,构建也轻松 | 阿里云云原生 API 网关、函数计算助力 IGame 快速构建轻休闲游戏
|
5月前
|
安全 Cloud Native 容器
开发者视角:构建坚不可摧的云原生安全工具 - 安全内生于开发流
云原生时代,运维团队面临容器漏洞、微服务失陷与CI/CD污染三大威胁。通过容器基因解码、微服务免疫与管道净化构建三维防御体系,结合板栗看板、Snyk、Check Point、Aqua等工具,实现从漏洞预测到实时拦截的全链路防护。未来,安全将内生于云原生技术,构建主动免疫防线。
开发者视角:构建坚不可摧的云原生安全工具 - 安全内生于开发流
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
610 1
|
10月前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
12月前
|
存储 SQL 大数据
从数据存储到分析:构建高效开源数据湖仓解决方案
今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。