MaxCompute湖仓一体介绍

简介: 本篇内容分享了MaxCompute湖仓一体介绍。分享人:孟硕 阿里云 MaxCompute产品专家

视频链接:https://developer.aliyun.com/adc/series/yunqiinternet/lookback8?spm=a2c6h.25893875.J_2523936200.2.2ff43919WXR1ts

正文:
本篇内容将通过两个部分来介绍MaxCompute湖仓一体。
一、什么是 MaxCompute 湖仓一体
二、湖仓一体成功案例介绍

image.png

一、什么是 MaxCompute 湖仓一体
湖仓一体的整体架构,主要面向数据分析师,数据科学家以及大数据工程师来使用。主要应用的业务有Machine,非结构化数据分析,Ad-hoc/BI,Reporting和Learning等等。在整体架构中,DataWorks作为数据统一开发管理的平台,主要负责数据安全,开发IDE,任务调度和数据资产管理等综合工作,确保平台稳定运行。
image.png

如上图所示,在整体架构中,我们首先将数据湖集群和MaxCompute数仓集群的网络打通,然后将存储层的数据打通,确保智能Cache,冷热分层,存储优化和性能加速。在计算层,我么实现了DB级元数据的透视,避免数据孤岛。
image.png

DataWorks统一了各种数据资产,比如E-MapReduce,CDH HBase,CDH Hive和AnalyticDB for等。不但能在数据地图中看到全域的数据资产,而且还支持从数据源里抽取元素与信息。
image.png

在阿里内部,我们实现了一定程度的数据民主化。现如今,阿里集团内部所有的表,员工都能够看到表名称和的元数据信息,以及信息的安全等级。DataWorks作为中台:可以从列表中支持的数据源采集数据,纳入平台管控。
image.png

目前,统一的表级、字段级别数据血缘就现有的产品能力,只能局限于单一引擎内部的跨血缘。预计明年能够实现跨引擎的数据血缘。
image.png

在单一引擎内部,可以挂载多个hadoop集群,实现统一引擎的对接与管理。
image.png

DataWorks作为统一的数据开发平台,能够将MC的任务和hadoop任务混编在一个流程中。不但可以统一临时查询入口,发送给不同的引擎。而且可以将不同的引擎作业混合调度。比如数据集成作业,MaxCompute作业以及Hive作业等。
image.png

二、湖仓一体成功案例介绍
某互联网游戏公司的广告算法团队是湖仓一体主要客户,主要应用是机器学习DW+MC+PAI+EAS在线模型服务。该团队的自服务程度高、需要一站式的机器学习平台。而Hadoop集群有多团队共用,使用集群管控较严,无法短时间支撑大workload的创新业务。
基于以上需求,我们通过湖仓一体,将新业务平台与原有数据平台打通,即PAI on MaxCompute+DataWorks。为客户提供了一站式机器学习,模型开发、模型发布,大规模计算等能力,提升了团队的工作效率。
image.png

数禾公司通过引入MaxCompute作为计算引擎的数据中台,不但让数据湖计算自由流动,而且解决了先前异构计算引擎存储管理,元数据管理和权限管理不同统一的问题。不但提升了整体的工作效率,而且降低了运维成本,起到了降本增效的作用。
image.png

上图是数禾公司构建的基于MaxCompute+DLF+EMR的湖仓一体架构。底层是OSS数据湖存储,我们通过DLF构建了元数据管理,数据血缘管理,数据权限管理。通过JindoFS+MC的方式,实现了数据的冷热分层和本地缓存。我们结合MaxCompute和EMR,成功实现了智能数据构建与数据中台管理。
image.png

在未来,湖仓统一开发管理平台,能够实现湖仓数据的一站式管理与治理。OSS的对象存储不但支持结构化数据,也能支持非机构化数据。整个平台不但能同步联邦数据源,而且能统一元数据服务和元数据仓库。

阿里云大数据是为业务敏捷而生的简单、易用、全托管的云原生大数据服务。激活数据生产力,分析产生业务价值。详情访问:https://www.aliyun.com/product/bigdata/apsarabigdata

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
8月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据存储计算服务:MaxCompute
阿里云MaxCompute是快速、全托管的TB/PB级数据仓库解决方案,提供海量数据存储与计算服务。支持多种计算模型,适用于大规模离线数据分析,具备高安全性、低成本、易用性强等特点,助力企业高效处理大数据。
394 0
|
6月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
508 1
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
942 3
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
9月前
|
存储 缓存 分布式计算
OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
MaxCompute直读OSS外部表优化方案,解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化(ORC/Parquet)、分区剪枝、谓词下推与元数据缓存等技术,显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略,实现高效数据分析。
247 2
|
9月前
|
人工智能 分布式计算 大数据
构建AI时代的大数据基础设施-MaxCompute多模态数据处理最佳实践
本文介绍了大数据与AI一体化架构的演进及其实现方法,重点探讨了Data+AI开发全生命周期的关键步骤。文章分析了大模型开发中的典型挑战,如数据管理混乱、开发效率低下和运维管理困难,并提出了解决方案。同时,详细描述了MaxCompute在构建AI时代数据基础设施中的作用,包括其强大的计算能力、调度能力和易用性特点。此外,还展示了MaxCompute在多模态数据处理中的应用实践以及具体客户案例,最后提供了体验MaxFrame解决方案的方式。
1063 2
|
存储 分布式计算 物联网
美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台
美的楼宇科技基于阿里云 EMR Serverless Spark 建设 IoT 数据平台,实现了数据与 AI 技术的有效融合,解决了美的楼宇科技设备数据量庞大且持续增长、数据半结构化、数据价值缺乏深度挖掘的痛点问题。并结合 EMR Serverless StarRocks 搭建了 Lakehouse 平台,最终实现不同场景下整体性能提升50%以上,同时综合成本下降30%。
951 58
|
SQL 缓存 数据处理
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)
Apache Doris 提出“数据无界”和“湖仓无界”理念,提供高效的数据管理方案。本文聚焦三个典型应用场景:湖仓分析加速、多源联邦分析、湖仓数据处理,深入介绍 Apache Doris 的最佳实践,帮助企业快速响应业务需求,提升数据处理和分析效率
773 3
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)
|
存储 SQL 数据挖掘
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
湖仓一体架构融合了数据湖的低成本、高扩展性,以及数据仓库的高性能、强数据治理能力,高效应对大数据时代的挑战。为助力企业实现湖仓一体的建设,Apache Doris 提出了数据无界和湖仓无界核心理念,并结合自身特性,助力企业加速从 0 到 1 构建湖仓体系,降低转型过程中的风险和成本。本文将对湖仓一体演进及 Apache Doris 湖仓一体方案进行介绍。
1244 1
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
|
存储 分布式计算 运维
课时6:阿里云MaxCompute:轻松玩转大数据
阿里云MaxCompute是全新的大数据计算服务,提供快速、完全托管的PB级数据仓库解决方案。它拥有高效的压缩存储技术、强大的计算能力和丰富的用户接口,支持SQL查询、机器学习等高级分析。MaxCompute兼容多种计算模型,开箱即用,具备金融级安全性和灵活的数据授权功能,帮助企业节省成本并提升效率。
378 0

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute