ETL与ELT中数据质量的最佳实践

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 几十年来,企业数据集成项目在数据处理、集成和存储需求上都严重依赖传统的ETL。如今,来自不同来源的大数据和非结构化数据的出现,使得基于云的ELT解决方案变得更加流行。

几十年来,企业数据集成项目在数据处理、集成和存储需求上都严重依赖传统的ETL。如今,来自不同来源的大数据和非结构化数据的出现,使得基于云的ELT解决方案变得更加流行 IDG云计算研究揭示了组织中有73%的企业至少有一个应用或者他们的计算基础设施的一部分已经在云中。尽管云计算已经改变了当今大多数组织处理数据集成项目的方式,但是数据质量工具仍在继续确保您的组织将从信任的数据中受益。

本文将通过探讨数据质量工具在其中发挥重要作用的不同用例,来强调数据质量与ETL和ELT数据集成方法的相关性。我们还将研究如何使数据质量工具对ETL和ELT都有效。

一、ETL和ELT的主要区别

为了了解数据质量的作用以及如何将其应用于这两种方法,让我们首先介绍一下ETL和ELT之间的关键区别。

提取转换加载(ETL) 方法数十年来一直是数据集成的金标准,通常用于将CRM,ERP或其他结构化数据存储库中的数据集成到数据仓库中。尽管ETL流程是为内部关系数据仓库设计的,但它们需要专用平台来执行提取数据并将其加载到目标存储库之间的中间步骤。

948e66270214544de4e52532d28dc497.jpg

提取加载转换(ELT)可以处理大数据源的数量、种类和速度,并且不需要此中间步骤即可将数据加载到目标系统中。ELT需要较少的物理基础结构和专用资源,因为转换是在目标系统的引擎内执行的。因此,从ETL转换为ELT工具是大数据时代的必然结果,并已成为数据湖集成的首选方法。

ETL和ELT工具之间的主要区别是ETL在将数据加载到目标系统之前先转换数据,而后者则在那些系统内转换数据。

二、ETL集成下的数据质量

据说,ETL仅在不打算过渡到云的公司或组织使用的旧数据仓库中占有一席之地。在以云为中心的世界中,所有类型的组织都必须使用云应用程序,数据库和平台以及生成的数据。但是重要的是不要忘记本地系统中包含的数据。ETL工具应该能够容纳来自任何来源的数据:云、多云、混合或本地。如今,市场上有一些ETL工具厂商通过扩展数据质量功能,例如数据剖析、数据清理、大数据处理和数据治理等,在功能上取得了重大进步。

Dominos公司希望集成来自85,000多个结构化和非结构化数据源的信息,以获得其客户和全球运营的单一视图。Domino公司的IT体系结构阻碍了他们实现这些目标。他们没有标准的方式来提取数据,并且存在数据质量问题,因为他们正在进行大量的自定义和定制化的开发。Domino选择Talend Data Fabric平台用于数据集成和大数据处理,并与数据质量工具结合使用,可以采集数据,对其进行清理,对其进行标准化,将其进行补充和存储,以便在ETL过程之后多个团队可以使用它们。

510445f5a1ca773d97b2437328fe43b2.jpg

有了功能强大的数据平台,Domino's现在有了一个可以信赖的单一数据视图,它可以用来改善从物流到财务预测的业务绩效,同时实现跨多个接触点的一对一购买体验。

阿斯利康(AstraZeneca plc)是全球第七大制药公司,业务遍及100多个国家,其数据分散在整个组织的各种来源和存储库中。必须从CRM,HR,财务系统和SAP ERP系统的多个不同版本中提取整个组织中分散的数据,这减慢了重要的报告和分析项目的速度。此外,由于信息孤岛的存在导致报告不一致,而且公司无法发现隐藏在未连接数据源中的洞察和见解。他们需要建立一个架构,以帮助将数据整合到一个真实的来源中。

AstraZeneca使用AWS上的数据湖来保存来自其各种源系统的数据,从而利用Talend将数据提取、转移、转换和交付到云中,从多个源中提取数据,然后将数据推送到Amazon S3中。构建Talend作业,然后在AWS Elastic Beanstalk中执行。经过一些转换工作之后,Talend将其批量加载到Amazon Redshift中进行分析。

36ef6ef2aa3fe227fd9afb48dbcc5a3e.jpg

由于管理进入数据湖的数据质量提到至关重要的位置,数据湖才不会成为数据沼泽,因此Talend Data Quality添加到Data Scientist AWS工作站。这使团队能够开发和自动化数据传输和清理,以协助其进行高级分析。通过ETL和数据湖充分利用数据质量,阿斯利康的数据科学与支持部门可以以更高的可视性和更加有效地管理自身数据。通过整合来自全球SAP系统的数据,财务部门创建了真实的单一来源,以提供见解和洞察并帮助企业制定长期战略。

三、ELT集成下的数据质量

DoubleDown Interactive是互联网上有趣的娱乐场游戏的领先提供商。DoubleDown面临的挑战是从他们的游戏事件数据中获取连续的数据反馈,并将其与其他数据集成为游戏活动、可用性和趋势的整体表示。但是,它们的数据集成非常复杂:对于JSON格式的每个数据日志,都需要许多源,这些源具有单独的数据流路径和ETL转换。

先前的过程是使用企业集成数据套件将数据放入NoSQL数据库中,以运行数据库收集器和聚合器。然后,将数据拉到暂存区域,在此通过数据质量工具清理、转换并使其符合星形模式。由于缺乏数据管道的可靠性以及所需的ETL转换量,这带来了隐性成本和风险。因此,DoubleDown必须找到一种替代方法来加快数据提取和转换过程。

8fbb4628a88d59d311c047ddce811147.png

DoubleDown选择了Snowflake云数据仓库的ELT方法,因为它具有可扩展的云架构以及能够以其本机形式加载和处理JSON日志数据。现在,所有以前的MongoDB转换和聚合以及新的转换和聚合都在Snowflake中完成。使用Snowflake带来了DoubleDown的三个重要优势:更快,更可靠的数据管道;降低成本;以及使用SQL访问新数据的灵活性。此外,通过使集成更加简化,他们可以利用数据质量工具,同时每5分钟运行一次ELT流程以获得更受信任的数据源

四、数据质量工具

ETL和ELT流程都涉及过渡区域。在ETL中,这些登台区域位于ETL工具中,而在ELT中,登台区域位于数据仓库中,并且数据库引擎执行转换。在这些过渡区域中,数据质量工具也必须起作用。

1、ETL工具的数据质量

在ETL集成中,必须在根源上管理数据质量,这些根源是从Salesforce和SAP之类的应用程序,Oracle和Redshift之类的数据库或CSV,XML,JSON或AVRO之类的文件格式中提取的。这可能会为数据科学家带来很多工作,通过一个统一的平台管理ETL,可以在云中转换数据质量,以获得更好的灵活性和可扩展性。

2、ELT工具的数据质量

在ELT集成中,在将数据加载到数据仓库、数据湖或云数据存储中之后发生数据分段,从而提高了效率并减少了延迟。因此,如果目标存储库没有内置数据质量工具,将很难确保加载后要转换的数据是您可以信任的数据。

3、常态化的数据质量

无论哪种情况,最好的方法都是为公司的数据质量建立常态、主动和协作的方法。数据质量必须是每个团队而不仅仅是技术团队必须负责的事情;它必须覆盖所有系统;并且必须有规则和制度来阻止不良数据进入

Talend Data Preparation等自助数据准备工具 具有机器学习功能的云原生平台。使数据准备过程变得更加简单和高效,这意味着对缺乏高级IT技能的业务用户可以自助运行流程,数据科学家可以将更多的时间花在分析数据上,而不是花在清理数据上。

五、正确选择数据质量工具

无论使用哪种集成方法,数据质量工具都应执行以下操作:

分析–分析数据以确定其质量,数量和格式。将检查元数据,并评估整体数据质量。

匹配-检查数据以识别和合并数据集中的相关条目。

清理–消除重复值,完成或丢弃缺失值,并对所有类别和字段选项进行标准化。

充实–现有数据补充有其他数据源,以最大程度地提高数据价值。

监视–为了避免数据质量中断,该工具通常实时地快速识别并解决质量问题。

1、数据整合方法选择

这两种方法之间的差异不仅限于执行步骤的顺序。为了决定使用哪种方法,需要重点考虑以下因素:

基础存储技术;

您的数据仓库架构设计方法;

数据仓库本身的业务用例。

最终,选择ETL或ELT将取决特定数据需求,要处理的数据的类型和数量以及组织在数字化转型中所走的距离。

2、使用ETL和ELT的数据质量

数据集成不必太复杂,但是必须确保数据质量。Talend Data Fabric等工具可以通过数据质量功能简化了ETL或ELT流程,因此数据团队可以专注于其他优先事项并使用您可以获得信任的数据,更有效地将数据从几乎任何数据源移动到数据仓库中。选择自动化能力强的数据质量管理工具可以帮助企业减少支出,加快实现价值的时间并交付可以信任的数据。

相关文章
|
19天前
|
存储 数据采集 JavaScript
深入理解数仓开发(一)数据技术篇之日志采集
深入理解数仓开发(一)数据技术篇之日志采集
|
8月前
|
SQL 数据采集 Oracle
ETL过程原理和数据仓库建设的优化
ETL过程原理和数据仓库建设的优化
|
数据采集 SQL 分布式计算
常用的数据集成ETL工具有哪些?
六种常用的数据集成ETL工具
常用的数据集成ETL工具有哪些?
|
6天前
|
数据采集 分布式计算 监控
MaxCompute产品使用问题之如何配置数据质量监控
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
1月前
|
数据采集 分布式计算 监控
DataWork数据处理问题之数据质量报警如何解决
DataWork数据处理是指使用DataWorks平台进行数据开发、数据处理和数据治理的活动;本合集将涵盖DataWork数据处理的工作流程、工具使用和问题排查,帮助用户提高数据处理的效率和质量。
|
9月前
|
数据采集 监控 数据管理
数据质量最佳实践(5):利用质量分和排行榜提升企业数据质量【Dataphin V3.12】
在数据质量最佳实践(3):通过质量治理工作台,实现质量问题的跟踪和处理这篇文章中,我们详细的介绍了如何通过治理工作台,对系统出现的一个一个具体质量问题进行治理。 但是对于企业整体的数据质量情况,我们该如何评估呢?以及如何寻找当前企业的数据质量短板,并有针对性的进行改进和提升呢? 在Dataphin V3.12版本中,质量新增了质量分的能力,可以给数据表和质量规则配置打分权重和打分方式,从而获得全局、数据源、项目、负责人、数据表等维度的质量打分评估,帮助CDO判断企业整体的数据质量情况和数据质量问题的分布,从而有针对性的提升企业整体的数据质量水平。
475 1
|
10月前
|
数据采集 机器学习/深度学习 存储
ETL工程师必知的数据清洗方法【最全】
ETL工程师必知的数据清洗方法【最全】
|
11月前
|
数据采集 监控 数据管理
数据质量最佳实践(4):支持范围和多级分区质量监控+按项目和个人管理数据质量【Dataphin V3.11】
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在Dataphin V3.11版本中,质量新增了下面两个能力: 1、针对复杂的业务分区的校验能力 2、按照项目和个人管理数据质量
406 1
|
数据采集 SQL 监控
Hive 数仓数据质量治理
Hive 数仓数据质量治理
283 0
|
SQL Web App开发 存储
EMR数据湖开发治理之用户画像分析-3
EMR数据湖开发治理之用户画像分析-3
203 1
EMR数据湖开发治理之用户画像分析-3