开发者社区 问答 正文

DataWorks核心技术讲解

阿里巴巴高级技术专家涵康在2017云栖大会·北京峰会中做了题为《DataWorks核心技术讲解》的分享,就Dataworks简介、架构概述、租户、元数据、调度、数据集成等方面的内容做了深入的分析。

https://yq.aliyun.com/download/2377?spm=a2c4e.11154804.0.0.21146a79RmZcI5

展开
收起
福利达人 2018-07-30 20:05:18 1373 分享 版权
阿里云 AI 助理回答

在2017云栖大会·北京峰会上,阿里巴巴高级技术专家涵康的分享《DataWorks核心技术讲解》深入剖析了DataWorks的核心能力与架构设计。以下是根据知识库资料整理的关键要点:

DataWorks简介

  • 核心功能与定位:DataWorks是一个全链路大数据开发治理平台,集成了MaxCompute、Hologres、EMR等阿里云大数据引擎,支持数据仓库、数据湖、湖仓一体等多种解决方案。它提供数据集成、数据开发、数据运维、数据服务等功能,助力企业实现数据的统一管理、高效治理与应用。

架构概述

  • 发展历程与集成能力:自2009年立项以来,DataWorks伴随阿里巴巴业务共同成长,与MaxCompute、Hologres等计算引擎深度整合,经历了多个技术阶段,支撑集团内部数字化转型。其不仅服务于阿里巴巴内部,自2015年起正式上云,将大数据建设方法论产品化输出,广泛应用于各行业客户。

租户与元数据管理

  • 虽具体细节未直接提及,但DataWorks支持多租户模式,允许不同组织或团队在平台上独立作业,同时具备强大的元数据管理能力,确保数据资产的有序组织和高效利用。

调度系统

  • 调度能力验证与优化:DataWorks的调度系统经过阿里集团内复杂业务依赖和大量任务的考验,能够智能编排任务流程,保障数据处理的高效与稳定。标准模式工作空间隔离开发与生产环境,通过版本管理、代码评审等机制提升开发规范性。

数据集成

  • 数据同步与异构源支持:DataWorks的数据集成模块提供了一个稳定高效的数据同步平台,支持跨网络环境下多种异构数据源之间的高速数据移动与同步。它关注数据精度问题,确保数据迁移过程中的类型兼容性和完整性,并且指出不支持跨时区同步的限制。

综上所述,涵康的分享围绕DataWorks的技术核心与实践应用,展示了其作为大数据处理与分析平台的强大功能与灵活性,特别是在数据集成、调度优化以及对企业数字化转型的支持方面。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答