ETL与ELT中数据质量的最佳实践

简介: 几十年来,企业数据集成项目在数据处理、集成和存储需求上都严重依赖传统的ETL。如今,来自不同来源的大数据和非结构化数据的出现,使得基于云的ELT解决方案变得更加流行。

几十年来,企业数据集成项目在数据处理、集成和存储需求上都严重依赖传统的ETL。如今,来自不同来源的大数据和非结构化数据的出现,使得基于云的ELT解决方案变得更加流行 IDG云计算研究揭示了组织中有73%的企业至少有一个应用或者他们的计算基础设施的一部分已经在云中。尽管云计算已经改变了当今大多数组织处理数据集成项目的方式,但是数据质量工具仍在继续确保您的组织将从信任的数据中受益。

本文将通过探讨数据质量工具在其中发挥重要作用的不同用例,来强调数据质量与ETL和ELT数据集成方法的相关性。我们还将研究如何使数据质量工具对ETL和ELT都有效。

一、ETL和ELT的主要区别

为了了解数据质量的作用以及如何将其应用于这两种方法,让我们首先介绍一下ETL和ELT之间的关键区别。

提取转换加载(ETL) 方法数十年来一直是数据集成的金标准,通常用于将CRM,ERP或其他结构化数据存储库中的数据集成到数据仓库中。尽管ETL流程是为内部关系数据仓库设计的,但它们需要专用平台来执行提取数据并将其加载到目标存储库之间的中间步骤。

948e66270214544de4e52532d28dc497.jpg

提取加载转换(ELT)可以处理大数据源的数量、种类和速度,并且不需要此中间步骤即可将数据加载到目标系统中。ELT需要较少的物理基础结构和专用资源,因为转换是在目标系统的引擎内执行的。因此,从ETL转换为ELT工具是大数据时代的必然结果,并已成为数据湖集成的首选方法。

ETL和ELT工具之间的主要区别是ETL在将数据加载到目标系统之前先转换数据,而后者则在那些系统内转换数据。

二、ETL集成下的数据质量

据说,ETL仅在不打算过渡到云的公司或组织使用的旧数据仓库中占有一席之地。在以云为中心的世界中,所有类型的组织都必须使用云应用程序,数据库和平台以及生成的数据。但是重要的是不要忘记本地系统中包含的数据。ETL工具应该能够容纳来自任何来源的数据:云、多云、混合或本地。如今,市场上有一些ETL工具厂商通过扩展数据质量功能,例如数据剖析、数据清理、大数据处理和数据治理等,在功能上取得了重大进步。

Dominos公司希望集成来自85,000多个结构化和非结构化数据源的信息,以获得其客户和全球运营的单一视图。Domino公司的IT体系结构阻碍了他们实现这些目标。他们没有标准的方式来提取数据,并且存在数据质量问题,因为他们正在进行大量的自定义和定制化的开发。Domino选择Talend Data Fabric平台用于数据集成和大数据处理,并与数据质量工具结合使用,可以采集数据,对其进行清理,对其进行标准化,将其进行补充和存储,以便在ETL过程之后多个团队可以使用它们。

510445f5a1ca773d97b2437328fe43b2.jpg

有了功能强大的数据平台,Domino's现在有了一个可以信赖的单一数据视图,它可以用来改善从物流到财务预测的业务绩效,同时实现跨多个接触点的一对一购买体验。

阿斯利康(AstraZeneca plc)是全球第七大制药公司,业务遍及100多个国家,其数据分散在整个组织的各种来源和存储库中。必须从CRM,HR,财务系统和SAP ERP系统的多个不同版本中提取整个组织中分散的数据,这减慢了重要的报告和分析项目的速度。此外,由于信息孤岛的存在导致报告不一致,而且公司无法发现隐藏在未连接数据源中的洞察和见解。他们需要建立一个架构,以帮助将数据整合到一个真实的来源中。

AstraZeneca使用AWS上的数据湖来保存来自其各种源系统的数据,从而利用Talend将数据提取、转移、转换和交付到云中,从多个源中提取数据,然后将数据推送到Amazon S3中。构建Talend作业,然后在AWS Elastic Beanstalk中执行。经过一些转换工作之后,Talend将其批量加载到Amazon Redshift中进行分析。

36ef6ef2aa3fe227fd9afb48dbcc5a3e.jpg

由于管理进入数据湖的数据质量提到至关重要的位置,数据湖才不会成为数据沼泽,因此Talend Data Quality添加到Data Scientist AWS工作站。这使团队能够开发和自动化数据传输和清理,以协助其进行高级分析。通过ETL和数据湖充分利用数据质量,阿斯利康的数据科学与支持部门可以以更高的可视性和更加有效地管理自身数据。通过整合来自全球SAP系统的数据,财务部门创建了真实的单一来源,以提供见解和洞察并帮助企业制定长期战略。

三、ELT集成下的数据质量

DoubleDown Interactive是互联网上有趣的娱乐场游戏的领先提供商。DoubleDown面临的挑战是从他们的游戏事件数据中获取连续的数据反馈,并将其与其他数据集成为游戏活动、可用性和趋势的整体表示。但是,它们的数据集成非常复杂:对于JSON格式的每个数据日志,都需要许多源,这些源具有单独的数据流路径和ETL转换。

先前的过程是使用企业集成数据套件将数据放入NoSQL数据库中,以运行数据库收集器和聚合器。然后,将数据拉到暂存区域,在此通过数据质量工具清理、转换并使其符合星形模式。由于缺乏数据管道的可靠性以及所需的ETL转换量,这带来了隐性成本和风险。因此,DoubleDown必须找到一种替代方法来加快数据提取和转换过程。

8fbb4628a88d59d311c047ddce811147.png

DoubleDown选择了Snowflake云数据仓库的ELT方法,因为它具有可扩展的云架构以及能够以其本机形式加载和处理JSON日志数据。现在,所有以前的MongoDB转换和聚合以及新的转换和聚合都在Snowflake中完成。使用Snowflake带来了DoubleDown的三个重要优势:更快,更可靠的数据管道;降低成本;以及使用SQL访问新数据的灵活性。此外,通过使集成更加简化,他们可以利用数据质量工具,同时每5分钟运行一次ELT流程以获得更受信任的数据源

四、数据质量工具

ETL和ELT流程都涉及过渡区域。在ETL中,这些登台区域位于ETL工具中,而在ELT中,登台区域位于数据仓库中,并且数据库引擎执行转换。在这些过渡区域中,数据质量工具也必须起作用。

1、ETL工具的数据质量

在ETL集成中,必须在根源上管理数据质量,这些根源是从Salesforce和SAP之类的应用程序,Oracle和Redshift之类的数据库或CSV,XML,JSON或AVRO之类的文件格式中提取的。这可能会为数据科学家带来很多工作,通过一个统一的平台管理ETL,可以在云中转换数据质量,以获得更好的灵活性和可扩展性。

2、ELT工具的数据质量

在ELT集成中,在将数据加载到数据仓库、数据湖或云数据存储中之后发生数据分段,从而提高了效率并减少了延迟。因此,如果目标存储库没有内置数据质量工具,将很难确保加载后要转换的数据是您可以信任的数据。

3、常态化的数据质量

无论哪种情况,最好的方法都是为公司的数据质量建立常态、主动和协作的方法。数据质量必须是每个团队而不仅仅是技术团队必须负责的事情;它必须覆盖所有系统;并且必须有规则和制度来阻止不良数据进入

Talend Data Preparation等自助数据准备工具 具有机器学习功能的云原生平台。使数据准备过程变得更加简单和高效,这意味着对缺乏高级IT技能的业务用户可以自助运行流程,数据科学家可以将更多的时间花在分析数据上,而不是花在清理数据上。

五、正确选择数据质量工具

无论使用哪种集成方法,数据质量工具都应执行以下操作:

分析–分析数据以确定其质量,数量和格式。将检查元数据,并评估整体数据质量。

匹配-检查数据以识别和合并数据集中的相关条目。

清理–消除重复值,完成或丢弃缺失值,并对所有类别和字段选项进行标准化。

充实–现有数据补充有其他数据源,以最大程度地提高数据价值。

监视–为了避免数据质量中断,该工具通常实时地快速识别并解决质量问题。

1、数据整合方法选择

这两种方法之间的差异不仅限于执行步骤的顺序。为了决定使用哪种方法,需要重点考虑以下因素:

基础存储技术;

您的数据仓库架构设计方法;

数据仓库本身的业务用例。

最终,选择ETL或ELT将取决特定数据需求,要处理的数据的类型和数量以及组织在数字化转型中所走的距离。

2、使用ETL和ELT的数据质量

数据集成不必太复杂,但是必须确保数据质量。Talend Data Fabric等工具可以通过数据质量功能简化了ETL或ELT流程,因此数据团队可以专注于其他优先事项并使用您可以获得信任的数据,更有效地将数据从几乎任何数据源移动到数据仓库中。选择自动化能力强的数据质量管理工具可以帮助企业减少支出,加快实现价值的时间并交付可以信任的数据。

相关文章
|
XML SQL JavaScript
SpringBoot+vue实现导入导出excel,使用hutool工具
在实际应用场景中,我们常常需要迁移应用到另一个环境中。「应用的导入导出」功能可以便捷实现应用的迁移与重塑,甚至可以选择不同菜单,数据模型,与审批流程,业务事件,选择性导入,更高效便捷完成应用的迁移。其次,在导入的应用中,选择所需导入的部分,可以全选,也可以选择部分导入。「部分导入」实现了模块迁移的效果,对于企业级应用迁移来说,不仅利用率高,适用性也极为普遍。有了「应用导入导出」功能,就可以轻松迁移各类应用。同时,在使用应用市场中的应用,与更新应用方面,都非常灵活易用。 下面来介绍,这个功能性是如何实现的。
2411 0
SpringBoot+vue实现导入导出excel,使用hutool工具
|
5月前
|
数据采集 数据可视化 安全
终于有人把数据治理讲明白了
在数字化转型浪潮下,企业常面临数据混乱、标准不一等问题。本文深入浅出解析“数据治理”核心概念,探讨如何通过“拉式”与“推式”两种策略,构建高效、可持续的数据管理体系,提升数据质量与应用价值,助力企业实现精准决策与业务创新。
|
SQL 分布式计算 Hadoop
|
7月前
|
存储 Prometheus 监控
OSS监控体系搭建:Prometheus+Grafana实时监控流量、错误码、存储量(开源方案替代云监控自定义视图)
本方案基于Prometheus构建OSS监控系统,涵盖架构设计、指标采集、可视化、告警及性能优化,助力企业实现高可用、低成本的自建监控体系。
784 1
|
5月前
|
运维 监控 测试技术
2025年微服务架构关键知识点(一):核心原则与演进趋势
微服务架构凭借其高可用性、灵活扩展等优势,已成为2025年主流软件开发范式。本文深入解析微服务的核心原则、演进趋势及实践要点,助力开发者夯实基础,应对挑战,构建高效、稳定的系统架构。
|
机器学习/深度学习 自然语言处理 PyTorch
PyTorch与Hugging Face Transformers:快速构建先进的NLP模型
【8月更文第27天】随着自然语言处理(NLP)技术的快速发展,深度学习模型已经成为了构建高质量NLP应用程序的关键。PyTorch 作为一种强大的深度学习框架,提供了灵活的 API 和高效的性能,非常适合于构建复杂的 NLP 模型。Hugging Face Transformers 库则是目前最流行的预训练模型库之一,它为 PyTorch 提供了大量的预训练模型和工具,极大地简化了模型训练和部署的过程。
985 2
|
数据采集 XML 运维
什么是主数据管理?企业主数据管理方法论
主数据又被称为黄金数据,其价值高也非常重要。对企业来说,主数据的重要性如何强调都不为过,主数据治理是企业数据治理中最为重要的一环。主数据管理的内容包括 主数据管理标准、主数据应用标准 和 主数据集成服务标准 三大类。
|
Java 编译器 程序员
Java异常处理和最佳实践(含案例分析)
如何处理Java异常?作者查看了一些异常处理的规范,对 Java 异常处理机制有更深入的了解,并将自己的学习内容记录下来,希望对有同样困惑的同学提供一些帮助。
13767 3
Java异常处理和最佳实践(含案例分析)
|
前端开发 机器人 测试技术
【RF案例】Web自动化测试弹窗处理
在进行Web自动化测试时,常会遇到不同类型的弹窗,如ajax、iframe、新窗口及alert/Confirm等。这些弹窗可通过Selenium进行定位与处理。其中,ajax弹窗直接定位处理;iframe需先选中再操作;新窗口类似iframe处理;而alert/Confirm则需特殊方法应对。在Robot Framework中,需先定义并获取窗口后使用特定关键字处理。此外,还有部分div弹窗需在消失前快速定位。希望本文能帮助大家更好地处理各类弹窗。
399 6
【RF案例】Web自动化测试弹窗处理