快速构建轻量级云原生数据湖服务(二)

本文涉及的产品
RDS SQL Server Serverless,2-4RCU 50GB 3个月
推荐场景:
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB 分布式版,标准版 2核8GB
简介: 快速构建轻量级云原生数据湖服务(二)

开发者学习笔记【阿里云云数据库助理工程师(ACA)认证:快速构建轻量级云原生数据湖服务(二)】

课程地址https://edu.aliyun.com/course/3112080/lesson/19071

 

快速构建轻量级云原生数据湖服务(二)


三、 DLA典型应用场景介绍


图片128.png

 首先通过外部各种数据源的接入,比如将数据上传到OSS,或者通过T+1的方式,将数据批量导入到OSS,或者是通过实时建湖的方式,我们以hudi LakeHouse为核心的数据库存储,接下来通过DLA Spark进行复杂的ETL和机器学习,通过DLA SQL来实现在线交互式的查询,最后提供给分析师,做一个业务BI报表等等。所以这种高性价比、高弹性的解决方案,在游戏、新零售、广告和教育行业方面得到广泛的使用。

图片129.png

Hadoop

对标组件

优势

缺点

Hive

DLA Spark

架构升级,兼容度高

 

Presto

DLA Presto

弹性1分钟300节点按需完全兼容

 

HBase

云HBase&Lindom

弹性Min,Max,O运维完全兼容

 

Kudu+impala&Kylin

ADB

性能高、弹性、O运维

一定的改造成本

HDFS

Lindom HDFS&OSS

冷热分离、O运完全兼容

 

Clickhouse

Clickhouse

O运维

 

调度

Dataworks&DMS

支持良好

在上图中,数据库和大数据业务通过云原生数据库分析产品的对标。通过DLA Spark和DLA Presto,我们能够在运维成本上,在性价比上,在弹性模式上和在生态金融上,我们有具有巨大的优势。

自建Hadoop系统

AWS数据湖方案

阿里云数据湖方案

产品体系

复杂,组件较多

复杂,各个产品协调

一体化,端到端

持有成本

入湖

自己写代码构建Huid

未知

支持T+10分钟入湖建仓构建(Hudi

学习成本

弹性

无或者弱

云原生、弹性中

云原生、弹性强、1分钟300节点

安全多租户

安全

安全

功能

开源功能,缺乏云连接器的支持,云内部系统对接与优化

未知

性能优化版本100%性能优化

中,典型应用场景下,我们跟自建的Hadoop体系,跟AWS数据湖方案和DLA的数据库方案的一些优势,在产品体系上能够实现端到端的一体化的数据入湖,数据管理和数据作业。在通过云原生极致弹性的产品形态能够实现极高的性价比,同时以Lakehouse为核心,能够支持实时入湖和增量入湖。

 

四、DLA一键入湖、实时入湖介绍


图片130.png

主要是三步走,首先是原数据自动发现,第二个是配置构建数据库的任务,第三个是我们通过DLA Spark和DLA Presto来完成在线交互的查询和复杂的ETL操作。

 图片131.png

需求场景一

需求场景二

需求场景三

1、MySQL除了在线业务逻辑的读写,还会有一些额外的数据分析需求,如BI报表、可视化大屏、大数据应用等。2、随着业务的发展,单机MySQL数据库达到一定的数据量后,直接使用MySQL做数据分析性能比较差,而且会影响在线业务的读写性能,需要寻求新的数据分析方案。

MySQL中的数据需要和日志数据做联合分析,有些客户会使用开源的大数据系统搭建数据仓库,这个方法虽然能解决问题,但他所需的人力成本和服务器等资源成本却是最高的。如何才能低成本的把MySQL与其他系统的数据做联合分析?

当MySQL中数据量超过单机性能后,为了保证在线业务性能,dba通常会采用分库分表技术将一个数据库中的单张表数据拆分到多个数据库的多张表中。由于一个逻辑表被猜成多张表,这首如果要进行数据分析将会变得十分复杂,需要新的分析方案来解决。

在传统的MySQL场景里,有些客户会通过MySQL的只读实例来进行数据分析和数据报表,随着数据量的增大,性能受到很大挑战。

第二个是客户会通过scope把数据库的数据抽取到大数据的分析平台上,这样就带来了一个人力成本和服务器成本的问题。第三个是在传统的分库分表场景里面,如果进行数据分析,会变得复杂。

图片132.png

支持丰富的数据源

自动同步保持数据一致

支持丰富的数据源,包括自建MySQL\SQLServer\PostgreSQL\Oracle、云数据库RDS\PolarDB\ADB等。它的设计目标是简单,让用户通过简单配置就能实现数据同步到DLA,真正实现一键建厂

支持自动同步更新的数据,也能自动同步包括创建/删除表,新增/修改/删除列等元数据操作。在分库分表的场景中,数据湖构建能把一张分布在多个数据库的逻辑表合并到一张表中,实现基于一张表做数据分析

DLA的设计目标是让客户实现端到端的一体化解决方案,设计目标较简单,让客户通过简单的配置,界面化的操作,就能够实现数据一键同步到DLA,目标是实现一键建仓,一键建湖。所以,DLA能够一键键湖,能够支持自动的数据同步,包括DDL的变更和DML的变更,从而实现基于一张表做数据湖分析。

 图片133.png

 这种方案对源库的查询无影响,同时能够实现在源库的数据同步时,对源库的性能影响保证在10%以内。通过选择合适的索引链进行数据切分,并且动态的去感知原端的负载,控制自己,控制抽取现成的并发数量,从而能够绝对的控制对源库的压力。

图片134.png

上图性价比优势,以TPCH10G B的数据为对比模型在RDS的存储,OSS的存储因为裂痕和压缩之后大约是3GB。RDS的规格采用8C16G的规格,包月的价格是2000左右,在DLA里每天跑一组TPCH。总费,包括存储费用、OSS请求费用、DLA的扫描费用,大概的成本是26块钱。所以基于DLA构建一个数据库分析服务,能够做到简单易用,同时能够实现高性价比。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6天前
|
存储 SQL 大数据
从数据存储到分析:构建高效开源数据湖仓解决方案
今年开源大数据迈向湖仓一体(Lake House)时代,重点介绍Open Lake解决方案。该方案基于云原生架构,兼容开源生态,提供开箱即用的数据湖仓产品。其核心优势在于统一数据管理和存储,支持实时与批处理分析,打破多计算产品的数据壁垒。通过阿里云的Data Lake Formation和Apache Paimon等技术,用户可高效搭建、管理并分析大规模数据,实现BI和AI融合,满足多样化数据分析需求。
|
25天前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
5天前
|
人工智能 Cloud Native 大数据
DataWorks深度技术解读:构建开放的云原生数据开发平台
Dateworks是一款阿里云推出的云原生数据处理产品,旨在解决数据治理和数仓管理中的挑战。它强调数据的准确性与一致性,确保商业决策的有效性。然而,严格的治理模式限制了开发者的灵活性,尤其是在面对多模态数据和AI应用时。为应对这些挑战,Dateworks进行了重大革新,包括云原生化、开放性增强及面向开发者的改进。通过Kubernetes作为资源底座,Dateworks实现了更灵活的任务调度和容器化支持,连接更多云产品,并提供开源Flowspec和Open API,提升用户体验。
|
19天前
|
Cloud Native
邀您参加云原生高可用技术沙龙丨云上高可用体系构建:从理论到实践
云原生高可用技术专场,邀您从理论到实践一起交流,探索云上高可用体系构建!
|
25天前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
30天前
|
Cloud Native JavaScript Docker
云原生技术:构建现代应用的基石
在数字化转型的浪潮中,云原生技术如同一艘承载梦想的航船,引领企业驶向创新与效率的新海域。本文将深入探索云原生技术的核心价值,揭示其如何重塑软件开发、部署和运维模式,同时通过一个简易代码示例,展现云原生应用的构建过程,让读者领略到云原生技术的魅力所在。
|
5天前
|
运维 监控 Cloud Native
云原生之运维监控实践:使用 taosKeeper 与 TDinsight 实现对 时序数据库TDengine 服务的监测告警
在数字化转型的过程中,监控与告警功能的优化对保障系统的稳定运行至关重要。本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品之一,详细介绍了如何利用 TDengine、taosKeeper 和 TDinsight 实现对 TDengine 服务的状态监控与告警功能。作者通过容器化安装 TDengine 和 Grafana,演示了如何配置 Grafana 数据源、导入 TDinsight 仪表板、以及如何设置告警规则和通知策略。欢迎大家阅读。
22 0
|
2月前
|
Kubernetes Cloud Native Docker
云原生之旅:从传统架构到容器化服务的演变
随着技术的快速发展,云计算已经从简单的虚拟化服务演进到了更加灵活和高效的云原生时代。本文将带你了解云原生的概念、优势以及如何通过容器化技术实现应用的快速部署和扩展。我们将以一个简单的Python Web应用为例,展示如何利用Docker容器进行打包和部署,进而探索Kubernetes如何管理这些容器,确保服务的高可用性和弹性伸缩。
|
8月前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
173 2
|
8月前
|
存储 SQL 分布式计算
基于Apache Hudi + MinIO 构建流式数据湖
基于Apache Hudi + MinIO 构建流式数据湖
283 1