快速构建轻量级云原生数据湖服务(二)

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云原生数据库 PolarDB 分布式版,标准版 2核8GB
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 快速构建轻量级云原生数据湖服务(二)

开发者学习笔记【阿里云云数据库助理工程师(ACA)认证:快速构建轻量级云原生数据湖服务(二)】

课程地址https://edu.aliyun.com/course/3112080/lesson/19071

 

快速构建轻量级云原生数据湖服务(二)


三、 DLA典型应用场景介绍


图片128.png

 首先通过外部各种数据源的接入,比如将数据上传到OSS,或者通过T+1的方式,将数据批量导入到OSS,或者是通过实时建湖的方式,我们以hudi LakeHouse为核心的数据库存储,接下来通过DLA Spark进行复杂的ETL和机器学习,通过DLA SQL来实现在线交互式的查询,最后提供给分析师,做一个业务BI报表等等。所以这种高性价比、高弹性的解决方案,在游戏、新零售、广告和教育行业方面得到广泛的使用。

图片129.png

Hadoop

对标组件

优势

缺点

Hive

DLA Spark

架构升级,兼容度高

 

Presto

DLA Presto

弹性1分钟300节点按需完全兼容

 

HBase

云HBase&Lindom

弹性Min,Max,O运维完全兼容

 

Kudu+impala&Kylin

ADB

性能高、弹性、O运维

一定的改造成本

HDFS

Lindom HDFS&OSS

冷热分离、O运完全兼容

 

Clickhouse

Clickhouse

O运维

 

调度

Dataworks&DMS

支持良好

在上图中,数据库和大数据业务通过云原生数据库分析产品的对标。通过DLA Spark和DLA Presto,我们能够在运维成本上,在性价比上,在弹性模式上和在生态金融上,我们有具有巨大的优势。

自建Hadoop系统

AWS数据湖方案

阿里云数据湖方案

产品体系

复杂,组件较多

复杂,各个产品协调

一体化,端到端

持有成本

入湖

自己写代码构建Huid

未知

支持T+10分钟入湖建仓构建(Hudi

学习成本

弹性

无或者弱

云原生、弹性中

云原生、弹性强、1分钟300节点

安全多租户

安全

安全

功能

开源功能,缺乏云连接器的支持,云内部系统对接与优化

未知

性能优化版本100%性能优化

中,典型应用场景下,我们跟自建的Hadoop体系,跟AWS数据湖方案和DLA的数据库方案的一些优势,在产品体系上能够实现端到端的一体化的数据入湖,数据管理和数据作业。在通过云原生极致弹性的产品形态能够实现极高的性价比,同时以Lakehouse为核心,能够支持实时入湖和增量入湖。

 

四、DLA一键入湖、实时入湖介绍


图片130.png

主要是三步走,首先是原数据自动发现,第二个是配置构建数据库的任务,第三个是我们通过DLA Spark和DLA Presto来完成在线交互的查询和复杂的ETL操作。

 图片131.png

需求场景一

需求场景二

需求场景三

1、MySQL除了在线业务逻辑的读写,还会有一些额外的数据分析需求,如BI报表、可视化大屏、大数据应用等。2、随着业务的发展,单机MySQL数据库达到一定的数据量后,直接使用MySQL做数据分析性能比较差,而且会影响在线业务的读写性能,需要寻求新的数据分析方案。

MySQL中的数据需要和日志数据做联合分析,有些客户会使用开源的大数据系统搭建数据仓库,这个方法虽然能解决问题,但他所需的人力成本和服务器等资源成本却是最高的。如何才能低成本的把MySQL与其他系统的数据做联合分析?

当MySQL中数据量超过单机性能后,为了保证在线业务性能,dba通常会采用分库分表技术将一个数据库中的单张表数据拆分到多个数据库的多张表中。由于一个逻辑表被猜成多张表,这首如果要进行数据分析将会变得十分复杂,需要新的分析方案来解决。

在传统的MySQL场景里,有些客户会通过MySQL的只读实例来进行数据分析和数据报表,随着数据量的增大,性能受到很大挑战。

第二个是客户会通过scope把数据库的数据抽取到大数据的分析平台上,这样就带来了一个人力成本和服务器成本的问题。第三个是在传统的分库分表场景里面,如果进行数据分析,会变得复杂。

图片132.png

支持丰富的数据源

自动同步保持数据一致

支持丰富的数据源,包括自建MySQL\SQLServer\PostgreSQL\Oracle、云数据库RDS\PolarDB\ADB等。它的设计目标是简单,让用户通过简单配置就能实现数据同步到DLA,真正实现一键建厂

支持自动同步更新的数据,也能自动同步包括创建/删除表,新增/修改/删除列等元数据操作。在分库分表的场景中,数据湖构建能把一张分布在多个数据库的逻辑表合并到一张表中,实现基于一张表做数据分析

DLA的设计目标是让客户实现端到端的一体化解决方案,设计目标较简单,让客户通过简单的配置,界面化的操作,就能够实现数据一键同步到DLA,目标是实现一键建仓,一键建湖。所以,DLA能够一键键湖,能够支持自动的数据同步,包括DDL的变更和DML的变更,从而实现基于一张表做数据湖分析。

 图片133.png

 这种方案对源库的查询无影响,同时能够实现在源库的数据同步时,对源库的性能影响保证在10%以内。通过选择合适的索引链进行数据切分,并且动态的去感知原端的负载,控制自己,控制抽取现成的并发数量,从而能够绝对的控制对源库的压力。

图片134.png

上图性价比优势,以TPCH10G B的数据为对比模型在RDS的存储,OSS的存储因为裂痕和压缩之后大约是3GB。RDS的规格采用8C16G的规格,包月的价格是2000左右,在DLA里每天跑一组TPCH。总费,包括存储费用、OSS请求费用、DLA的扫描费用,大概的成本是26块钱。所以基于DLA构建一个数据库分析服务,能够做到简单易用,同时能够实现高性价比。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
26天前
|
边缘计算 Cloud Native 安全
构建灵活高效的下一代应用架构 随着企业数字化转型的加速,云原生技术正逐渐成为构建现代化应用程序的关键支柱。
随着企业数字化转型加速,云原生技术逐渐成为构建现代化应用的关键。本文探讨了云原生的核心概念(如容器化、微服务、DevOps)、主要应用场景(如金融、电商、IoT)及未来发展趋势(如无服务器计算、边缘计算、多云架构),并分析了面临的挑战,如架构复杂性和安全问题。云原生技术为企业提供了更灵活、高效的应用架构,助力数字化转型。
59 4
|
9天前
|
Kubernetes Cloud Native Ubuntu
庆祝 .NET 9 正式版发布与 Dapr 从 CNCF 毕业:构建高效云原生应用的最佳实践
2024年11月13日,.NET 9 正式版发布,Dapr 从 CNCF 毕业,标志着云原生技术的成熟。本文介绍如何使用 .NET 9 Aspire、Dapr 1.14.4、Kubernetes 1.31.0/Containerd 1.7.14、Ubuntu Server 24.04 LTS 和 Podman 5.3.0-rc3 构建高效、可靠的云原生应用。涵盖环境准备、应用开发、Dapr 集成、容器化和 Kubernetes 部署等内容。
35 5
|
22天前
|
Cloud Native 持续交付 云计算
云原生技术深度探索:构建现代化应用的基石####
【10月更文挑战第21天】 本文将深入探讨云原生技术的核心概念、关键技术及其在现代软件开发中的应用。我们将从容器化、微服务架构、持续集成/持续部署(CI/CD)、无服务器架构等关键方面展开,揭示这些技术如何共同作用,帮助企业实现高效、弹性且易于维护的应用部署与管理。通过实例分析,展现云原生技术在实际项目中的显著优势,为读者提供一套全面理解并应用云原生技术的指南。 ####
31 2
|
1月前
|
运维 Cloud Native 持续交付
云原生技术:构建现代应用的基石
【10月更文挑战第9天】在数字化转型的浪潮中,云原生技术如同一股清流,引领着企业走向更加灵活、高效的未来。本文将深入探讨云原生的核心概念,揭示其在现代应用开发与部署中的重要作用,并通过实际案例分析,展现云原生技术如何助力企业实现敏捷开发和自动化运维,最终提升业务竞争力。
77 3
|
13天前
|
监控 Cloud Native 微服务
云端漫步:探索云原生应用的构建与部署
【10月更文挑战第32天】在数字时代的浪潮中,云原生技术如同一艘航船,承载着企业的梦想驶向未知的海洋。本文将带你领略云原生应用的魅力,从基础概念到实战操作,我们将一步步揭开云原生的神秘面纱,体验它如何简化开发、加速部署,并提升系统的可扩展性与可靠性。让我们一起启航,探索云原生的世界!
|
1月前
|
运维 Kubernetes Cloud Native
云原生技术:构建现代应用的新范式
【10月更文挑战第9天】 云原生是一种通过云计算环境优化的软件开发和运行方法论,旨在最大化利用云平台的灵活性、可扩展性和弹性。本文将深入探讨云原生技术的基本原理、核心组件以及其在实际项目中的应用。我们将从Kubernetes的容器编排机制入手,逐步探讨如何通过自动化工具实现持续集成与持续部署(CI/CD),最终展示如何构建一个高效、可靠的云原生应用。
53 2
|
1月前
|
Cloud Native Devops 云计算
云原生技术:构建现代应用的新基石
【10月更文挑战第12天】 本文深入探讨了云原生技术的核心理念、关键技术和实践方法,揭示了其在现代应用开发和运维中的重要地位。通过分析云原生技术的发展趋势和面临的挑战,本文为读者提供了全面而深入的理解,旨在帮助读者更好地利用云原生技术构建高效、灵活和可扩展的现代应用。
35 0
|
6月前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
139 2
|
6月前
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
260 1
|
3月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
246 53