【数据湖开发治理篇】——数据湖开发治理平台DataWorks

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 元数据管理、数据集成、数据开发是数据湖需要解决的三大问题,阿里云的DataWorks作为一个通用的大数据平台,除了很好的解决了数仓场景的各类问题,也同样解决了数据湖场景中的核心痛点。

数据湖的定义:

wikipedia中对于数据湖的定义是:“A data lake is a system or repository of data stored in its natural/raw format, usually object blobs or files. A data lake is usually a single store of all enterprise data including raw copies of source system data and transformed data used for tasks such as reporting, visualization, advanced analytics and machine learning.”
可见数据湖是一个通用的数据存储,通用到可以存储任意类型的数据。

数据湖要考虑的首要问题:

从定义看,一块u盘即符合数据湖的定义。u盘可以是数据湖,oss可以是数据湖,hdfs、盘古也可以是数据湖。它们均严格的符合数据湖的定义。作为企业的数据湖技术选型第一个需要考虑的问题就是:采用什么样的存储介质或存储系统作为自己的数据湖解决方案。众所周知,不同的存储介质或存储系统有不同的优势和劣势。比如:有的存储系统随机读取的响应时间更好、有的系统批量读取的吞吐量更好、有的系统存储成本更低、有的系统扩展性更好、有的系统结构化数据组织得更高效...相应的,这些提到的各个指标中有些恰恰是有些存储所不擅长的,如何享有所有存储系统的优势、规避所有存储系统的劣势变成了云上数据湖服务要考虑的首要问题。

要解决这个矛盾的问题,在理论上是不可能一劳永逸的。聪明的做法是对上提供一个逻辑上的存储解决方案,然后让需要不同访问特点的数据灵活地在各种底层存储系统中迁移。通过便捷的数据迁移(、以及数据格式转化)的能力, 来充分发挥出各个存储系统的优势。结论:成熟的数据湖一定是一个逻辑上的存储系统,它的底层是多个各种类型的存储系统所组成。

数据湖要解决的三大问题:

元数据管理、数据集成、数据开发是数据湖需要解决的三大问题,阿里云的DataWorks作为一个通用的大数据平台,除了很好的解决了数仓场景的各类问题,也同样解决了数据湖场景中的核心痛点。

元数据管理:

用户的湖上数据需要有个统一集中的管理能力,这就成了数据湖的第一个核心能力。dataworks的数据治理能力便是用来解决数据湖中的各类存储系统的元数据管理的。目前它管理了云上11中数据源的元数据。涵盖OSS、EMR、MaxCompute、Hologres、mysql、PostgreSQL、SQL Server、Oracle、AnalyticDB for PostgreSQL、AnalyticDB for MySQL 2.0、AnalyticDB for MySQL 3.0 等云上主要数据源类型的元数据管理。功能上涵盖元数据采集、存储检索、在线元数据服务、数据预览、分类打标、数据血缘、数据探查、影响分析、资源优化等能力。

技术的宏观架构如图:

56.png

产品形态如图:

45.png

67.png

数据集成:

数据湖中的数据管理起来之后,就会面临数据在各个存储系统中迁移和转化的能力。为此dataworks的数据集成能力可以做到40种类常见数据源的导入导出及格式转化的能力,同时覆盖了离线和实时两大同步场景,以及可以解决对外对接时的复杂网络场景。

数据集成核心能力:

34.png

离线同步功能:

35.png

实时同步功能:

36.png

数据开发:

解决了数据湖的存储管理和数据迁移问题后,接下来就是如何让数据湖中的数据更好的赋能业务。这就需要引入各类计算引擎,计算平台事业部拥有丰富的各类计算引擎,有开源体系的spark、presto、hive、flink,还有自研的MaxCompute、Hologres,这里的挑战在于如何方便的发挥各类引擎的长处,让湖中的数据能够被各类引擎访问和计算。为此dataworks提供了便捷的数据迁移方式(方便数据在各类引擎中流转穿梭)、提供一站式的数据开发环境,从即席查询到周期的etl开发,dataworks提供了各个计算引擎的统一计算任务的开发和运维能力。
38.png

数据开发产品:

39.png

至此、dataworks在解决了数据湖底层的存储系统差异的难题后,提供了完备的湖上元数据管理、数据治理、数据迁移转换、数据计算的全流程能力。让阿里云上的数据湖更好的给客户发挥出业务价值。


更多数据湖技术相关的文章请点击:阿里云重磅发布云原生数据湖体系


更多数据湖相关信息交流请加入阿里巴巴数据湖技术钉钉群
数据湖钉群.JPG

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
20天前
|
SQL 人工智能 DataWorks
DataWorks:新一代 Data+AI 数据开发与数据治理平台演进
本文介绍了阿里云 DataWorks 在 DA 数智大会 2024 上的最新进展,包括新一代智能数据开发平台 DataWorks Data Studio、全新升级的 DataWorks Copilot 智能助手、数据资产治理、全面云原生转型以及更开放的开发者体验。这些更新旨在提升数据开发和治理的效率,助力企业实现数据价值最大化和智能化转型。
174 5
|
1月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
83 1
|
1月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
88 3
|
3月前
|
数据采集 DataWorks 数据挖掘
提升数据分析效率:DataWorks在企业级数据治理中的应用
【8月更文第25天】本文将探讨阿里巴巴云的DataWorks平台如何通过建立统一的数据标准、规范以及实现数据质量监控和元数据管理来提高企业的数据分析效率。我们将通过具体的案例研究和技术实践来展示DataWorks如何简化数据处理流程,减少成本,并加速业务决策。
431 54
|
3月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
243 53
|
2月前
|
SQL 人工智能 DataWorks
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
在9月21日的云栖大会上,DataWorks发布了新一代智能湖仓一体数据开发与治理平台。DataWorks历经Kubernetes改造与云原生调度系统的优化,实现了资源组全面Serverless化,降低了使用成本,最高可节省40%。新推出的DataWorks Data Studio,支持多种计算引擎,提供更开放的云原生WebIDE,提升开发效率。DataWorks Copilot智能助手也得到升级,支持多种SQL方言和Python代码生成,平均提升数据开发效率35%。此外,DataWorks还推出了全方位的数据资产治理体系,涵盖业务和技术视角,助力企业实现数据智能化管理和转型。
331 0
【云栖实录】DataWorks:新一代智能湖仓一体数据开发与治理平台
|
3月前
|
数据采集 SQL DataWorks
【颠覆想象的数据巨匠】DataWorks——远超Excel的全能数据集成与管理平台:一场电商数据蜕变之旅的大揭秘!
【8月更文挑战第7天】随着大数据技术的发展,企业对数据处理的需求日益增长。DataWorks作为阿里云提供的数据集成与管理平台,为企业提供从数据采集、清洗、加工到应用的一站式解决方案。不同于桌面级工具如Excel,DataWorks具备强大的数据处理能力和丰富的功能集,支持大规模数据处理任务。本文通过电商平台案例,展示了如何使用DataWorks构建数据处理流程,包括多源数据接入、SQL任务实现数据采集、数据清洗加工以提高质量,以及利用分析工具挖掘数据价值的过程。这不仅凸显了DataWorks在大数据处理中的核心功能与优势,还展示了其相较于传统工具的高扩展性和灵活性。
135 0
|
5月前
|
机器学习/深度学习 人工智能 DataWorks
人工智能平台PAI产品使用合集之在使用行调用时遇到一直卡在ps job的问题,并且无法在DataWorks上查看到相关日志,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
存储 分布式计算 DataWorks
MaxCompute产品使用问题之dataworks仅支持maxcompute上面的数据治理吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
3月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决