一篇文章搞懂数据仓库:常用ETL工具、方法

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 一篇文章搞懂数据仓库:常用ETL工具、方法

正文


一、什么是ETL?


ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,是数据仓库的生命线。


      抽取(Extract)主要是针对各个业务系统及不同服务器的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取和缓慢渐变的规则。


      转换(transform)主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过ETL工具可视化拖拽操作可以直接使用标准的内置代码片段功能、自定义脚本、函数、存储过程以及其他的扩展方式,实现了各种复杂的转换,并且支持自动分析日志,清楚的监控数据转换的状态并优化分析模型。


装载(Load)主要是将经过转换的数据装载到数据仓库里面,可以通过直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。


二、ETL & ELT


伴随着数据仓库的发展,数据量从小到大,数据实时性从T+1到准实时、实时,ETL也在不断演进。


在传统数仓中,数据量小,计算逻辑相对简单,我们可以直接用ETL工具实现数据转换(T),转换之后再加载到目标库,即(Extract-Transform-Load)。但在大数据场景下,数据量越大越大,计算逻辑愈发复杂,数据清洗需放在运算能力更强的分布式计算引擎中完成,ETL也就变成了ELT(Extract-Load-Transform)。


即:Extract-Transform-Load  >>  Extract-Load-Transform


通常我们所说的ETL,已经泛指数据同步、数据清洗全过程,而不仅限于数据的抽取-转换-加载。


三、常用的ETL工具


下面小编将介绍几类ETL工具(sqoop,DataX,Kettle,canal,StreamSets)。


3.1 sqoop


是Apache开源的一款在Hadoop和关系数据库服务器之间传输数据的工具。

可以将一个关系型数据库(MySQL ,Oracle等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导出到关系型数据库中。

sqoop命令的本质是转化为MapReduce程序。

sqoop分为导入(import)和导出(export),

策略分为table和query

模式分为增量和全量。


13.jpg

12.jpg



3.2 DataX


DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台

实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。


12.jpg

11.jpg


3.3 Kettle


一款国外免费开源的、可视化的、功能强大的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。


3.4 canal


canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据实时订阅和消费,目前主要支持了MySQL,也支持mariaDB。


14.jpg


3.5 StreamSets


是大数据实时采集ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。

创建一个Pipelines管道需要配置数据源(Origins)、操作(Processors)、目的地(Destinations)三部分。


四、ETL加载策略


4.1 增量


有些表巨大,我们需要选择增量策略,新增delta数据需要和存量数据merge合并。

两种方法:

merge(一)


13.jpg


merge(二)

只有新增(full join。能拿更新表就拿更新表)


12.jpg


新增+删除

history-table Left join delet-table where delect-table.value is null == 表a

表a full join update-table (能拿update就拿update)


11.jpg


4.2 全量


每天一个全量表,也可一个hive天分区一个全量。


4.3 流式


使用kafka,消费mysql binlog日志到目标库,源表和目标库是1:1的镜像。


小编有话


无论是全量还是增量的方式,都会浪费多余的存储或通过计算去重,得到最新的全量数据。为解决这一问题,墙裂建议kafka的数据同步方案,源表变化一条,目标表消费一条,目标表数据始终是一份最新全量数据,且为实时同步的。


ps.极端情况下可能会丢数,需要写几个监控监本(详见数据质量篇)和补数脚本即可~


相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
数据采集 存储 分布式计算
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
20490 2
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
|
存储 SQL 大数据
一篇文章搞懂数据仓库:三种事实表(设计原则,设计方法、对比)
一篇文章搞懂数据仓库:三种事实表(设计原则,设计方法、对比)
一篇文章搞懂数据仓库:三种事实表(设计原则,设计方法、对比)
|
6月前
|
存储 机器学习/深度学习 数据采集
【专栏】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具
【4月更文挑战第27天】在数字化时代,数据仓库和数据湖成为企业管理数据的关键工具。数据仓库是经过规范化处理的结构化数据集合,适合支持已知业务需求;而数据湖存储原始多类型数据,提供数据分析灵活性。数据仓库常用于企业决策、财务分析,而数据湖适用于大数据分析、机器学习和物联网数据处理。企业需根据自身需求选择合适的数据存储方式,以挖掘数据价值并提升竞争力。理解两者异同对企业的数字化转型至关重要。
133 2
|
6月前
|
SQL 分布式计算 关系型数据库
【数据仓库与联机分析处理】数据仓库工具Hive
【数据仓库与联机分析处理】数据仓库工具Hive
110 6
|
SQL 架构师 数据处理
带你读《升舱 - 数据仓库升级交付标准白皮书》——4.4交付内容工具化
带你读《升舱 - 数据仓库升级交付标准白皮书》——4.4交付内容工具化
298 0
|
存储 机器学习/深度学习 大数据
数据仓库常见建模方法与大数据领域建模实例综述
数据仓库常见建模方法与大数据领域建模实例综述
903 0
数据仓库常见建模方法与大数据领域建模实例综述
|
大数据 BI
一篇文章搞懂数据仓库:维度表(设计原则、设计方法)
一篇文章搞懂数据仓库:维度表(设计原则、设计方法)
一篇文章搞懂数据仓库:维度表(设计原则、设计方法)
|
SQL 存储 分布式计算
数据仓库工具之Hive的架构原理
数据仓库工具之Hive的架构原理
|
SQL 运维 数据库
课时10: 1月28日-06-数据库生态工具&阿里云数据仓库解决方案及案例
课时10: 1月28日-06-数据库生态工具&阿里云数据仓库解决方案及案例
280 0
课时10: 1月28日-06-数据库生态工具&阿里云数据仓库解决方案及案例
|
OLTP 数据库 数据库管理
【DBMS 数据库管理系统】数据仓库中 数据追加 ( 时标方法 | DELTA 文件法 | 前后映像文件法 | 日志文件法 )
【DBMS 数据库管理系统】数据仓库中 数据追加 ( 时标方法 | DELTA 文件法 | 前后映像文件法 | 日志文件法 )
258 0
下一篇
无影云桌面