DataWorks实现MaxCompute湖仓一体统一开发管理-开发者社区-阿里云

MaxCompute湖仓一体介绍

2022-02-22 2594

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本篇内容分享了MaxCompute湖仓一体介绍。分享人：孟硕阿里云 MaxCompute产品专家

视频链接：https://developer.aliyun.com/adc/series/yunqiinternet/lookback8?spm=a2c6h.25893875.J_2523936200.2.2ff43919WXR1ts

正文：
本篇内容将通过两个部分来介绍MaxCompute湖仓一体。
一、什么是 MaxCompute 湖仓一体
二、湖仓一体成功案例介绍

一、什么是 MaxCompute 湖仓一体
湖仓一体的整体架构，主要面向数据分析师，数据科学家以及大数据工程师来使用。主要应用的业务有Machine，非结构化数据分析，Ad-hoc/BI，Reporting和Learning等等。在整体架构中，DataWorks作为数据统一开发管理的平台，主要负责数据安全，开发IDE，任务调度和数据资产管理等综合工作，确保平台稳定运行。

如上图所示，在整体架构中，我们首先将数据湖集群和MaxCompute数仓集群的网络打通，然后将存储层的数据打通，确保智能Cache，冷热分层，存储优化和性能加速。在计算层，我么实现了DB级元数据的透视，避免数据孤岛。

DataWorks统一了各种数据资产，比如E-MapReduce，CDH HBase，CDH Hive和AnalyticDB for等。不但能在数据地图中看到全域的数据资产，而且还支持从数据源里抽取元素与信息。

在阿里内部，我们实现了一定程度的数据民主化。现如今，阿里集团内部所有的表，员工都能够看到表名称和的元数据信息，以及信息的安全等级。DataWorks作为中台：可以从列表中支持的数据源采集数据，纳入平台管控。

目前，统一的表级、字段级别数据血缘就现有的产品能力，只能局限于单一引擎内部的跨血缘。预计明年能够实现跨引擎的数据血缘。

在单一引擎内部，可以挂载多个hadoop集群，实现统一引擎的对接与管理。

DataWorks作为统一的数据开发平台，能够将MC的任务和hadoop任务混编在一个流程中。不但可以统一临时查询入口，发送给不同的引擎。而且可以将不同的引擎作业混合调度。比如数据集成作业，MaxCompute作业以及Hive作业等。

二、湖仓一体成功案例介绍
某互联网游戏公司的广告算法团队是湖仓一体主要客户，主要应用是机器学习DW+MC+PAI+EAS在线模型服务。该团队的自服务程度高、需要一站式的机器学习平台。而Hadoop集群有多团队共用，使用集群管控较严，无法短时间支撑大workload的创新业务。
基于以上需求，我们通过湖仓一体，将新业务平台与原有数据平台打通，即PAI on MaxCompute+DataWorks。为客户提供了一站式机器学习，模型开发、模型发布，大规模计算等能力，提升了团队的工作效率。

数禾公司通过引入MaxCompute作为计算引擎的数据中台，不但让数据湖计算自由流动，而且解决了先前异构计算引擎存储管理，元数据管理和权限管理不同统一的问题。不但提升了整体的工作效率，而且降低了运维成本，起到了降本增效的作用。

上图是数禾公司构建的基于MaxCompute+DLF+EMR的湖仓一体架构。底层是OSS数据湖存储，我们通过DLF构建了元数据管理，数据血缘管理，数据权限管理。通过JindoFS+MC的方式，实现了数据的冷热分层和本地缓存。我们结合MaxCompute和EMR，成功实现了智能数据构建与数据中台管理。