【数据湖开发治理篇】——数据湖开发治理平台DataWorks

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 元数据管理、数据集成、数据开发是数据湖需要解决的三大问题,阿里云的DataWorks作为一个通用的大数据平台,除了很好的解决了数仓场景的各类问题,也同样解决了数据湖场景中的核心痛点。

数据湖的定义:

wikipedia中对于数据湖的定义是:“A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files. A data lake is usually a single store of all enterprise data including raw copies of source system data and transformed data used for tasks such as reporting, visualization, advanced analytics and machine learning.”
可见数据湖是一个通用的数据存储,通用到可以存储任意类型的数据。

数据湖要考虑的首要问题:

从定义看,一块u盘即符合数据湖的定义。u盘可以是数据湖,oss可以是数据湖,hdfs、盘古也可以是数据湖。它们均严格的符合数据湖的定义。作为企业的数据湖技术选型第一个需要考虑的问题就是:采用什么样的存储介质或存储系统作为自己的数据湖解决方案。众所周知,不同的存储介质或存储系统有不同的优势和劣势。比如:有的存储系统随机读取的响应时间更好、有的系统批量读取的吞吐量更好、有的系统存储成本更低、有的系统扩展性更好、有的系统结构化数据组织得更高效...相应的,这些提到的各个指标中有些恰恰是有些存储所不擅长的,如何享有所有存储系统的优势、规避所有存储系统的劣势变成了云上数据湖服务要考虑的首要问题。

要解决这个矛盾的问题,在理论上是不可能一劳永逸的。聪明的做法是对上提供一个逻辑上的存储解决方案,然后让需要不同访问特点的数据灵活地在各种底层存储系统中迁移。通过便捷的数据迁移(、以及数据格式转化)的能力, 来充分发挥出各个存储系统的优势。结论:成熟的数据湖一定是一个逻辑上的存储系统,它的底层是多个各种类型的存储系统所组成。

数据湖要解决的三大问题:

元数据管理、数据集成、数据开发是数据湖需要解决的三大问题,阿里云的DataWorks作为一个通用的大数据平台,除了很好的解决了数仓场景的各类问题,也同样解决了数据湖场景中的核心痛点。

元数据管理:

用户的湖上数据需要有个统一集中的管理能力,这就成了数据湖的第一个核心能力。dataworks的数据治理能力便是用来解决数据湖中的各类存储系统的元数据管理的。目前它管理了云上11中数据源的元数据。涵盖OSS、EMR、MaxCompute、Hologres、mysql、PostgreSQL、SQL Server、Oracle、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 2.0、AnalyticDB for MySQL 3.0 等云上主要数据源类型的元数据管理。功能上涵盖元数据采集、存储检索、在线元数据服务、数据预览、分类打标、数据血缘、数据探查、影响分析、资源优化等能力。

技术的宏观架构如图:

56.png

产品形态如图:

45.png

67.png

数据集成:

数据湖中的数据管理起来之后,就会面临数据在各个存储系统中迁移和转化的能力。为此dataworks的数据集成能力可以做到40种类常见数据源的导入导出及格式转化的能力,同时覆盖了离线和实时两大同步场景,以及可以解决对外对接时的复杂网络场景。

数据集成核心能力:

34.png

离线同步功能:

35.png

实时同步功能:

36.png

数据开发:

解决了数据湖的存储管理和数据迁移问题后,接下来就是如何让数据湖中的数据更好的赋能业务。这就需要引入各类计算引擎,计算平台事业部拥有丰富的各类计算引擎,有开源体系的spark、presto、hive、flink,还有自研的MaxCompute、Hologres,这里的挑战在于如何方便的发挥各类引擎的长处,让湖中的数据能够被各类引擎访问和计算。为此dataworks提供了便捷的数据迁移方式(方便数据在各类引擎中流转穿梭)、提供一站式的数据开发环境,从即席查询到周期的etl开发,dataworks提供了各个计算引擎的统一计算任务的开发和运维能力。
38.png

数据开发产品:

39.png

至此、dataworks在解决了数据湖底层的存储系统差异的难题后,提供了完备的湖上元数据管理、数据治理、数据迁移转换、数据计算的全流程能力。让阿里云上的数据湖更好的给客户发挥出业务价值。


更多数据湖技术相关的文章请点击:阿里云重磅发布云原生数据湖体系


更多数据湖相关信息交流请加入阿里巴巴数据湖技术钉钉群
数据湖钉群.JPG

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
3月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何开发ODPS Spark任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
25天前
|
SQL 人工智能 DataWorks
DataWorks:新一代 Data+AI 数据开发与数据治理平台演进
本文介绍了阿里云 DataWorks 在 DA 数智大会 2024 上的最新进展,包括新一代智能数据开发平台 DataWorks Data Studio、全新升级的 DataWorks Copilot 智能助手、数据资产治理、全面云原生转型以及更开放的开发者体验。这些更新旨在提升数据开发和治理的效率,助力企业实现数据价值最大化和智能化转型。
202 5
|
1月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
94 1
|
1月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
93 3
|
3月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
447 54
|
3月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
250 53
|
2月前
|
SQL 人工智能 DataWorks
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。
344 0
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
|
3月前
|
SQL JSON 分布式计算
DataWorks操作报错合集之如何解决在创建Hologres开发节点时报错
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
3月前
|
数据采集 运维 DataWorks
DataWorks产品使用合集之怎么区分是生产还是开发
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
142 2
下一篇
无影云桌面