阿里云云原生一体化数仓 — 湖仓一体新能力解读

简介: 本文主要介绍如何通过湖仓一体,打通 MaxCompute 与 Hadoop、DLF/OSS 数据湖,以及 Hologres、MySQL 等数据平台,并通过 DataWorks 做统一数据开发和治理。

分享人:阿里云智能 产品专家 孟硕

没来得及看直播的同学,可以观看直播回放。
直播回放:https://developer.aliyun.com/live/249819


一、基于 MaxCompute 的湖仓一体架构更新

基于MaxCompute 云数据仓库的湖仓一体架构近期进行架构升级。了解 MaxCompute 的同学可能比较清楚,MaxCompute 有两层结构,需要先创建 Project ,在 Project 里面创建表、资源等。传统数据库,在数据库跟表之间有一层 Schema。当前从数据库迁移数据至 MaxCompute 时,有客户对 Schema 这层有诉求。本次架构升级,MaxCompute 升级为三层模型,Table --> Schema --> Project(此功能将在9月上线) 。


对于湖仓一体架构,MaxCompute 是作为仓的存在,使用外部 Schema 对接外部数据源,外部数据源这里称之为Foreign Server,其中包括了 Foreign Data Wrapper 涵盖每一个数据源的连接信息。最早支持的 hadoop 的 hive 数据源,映射 Hive metastore 读写 hdfs 数据。同时可以对接阿里云数据湖构建 Data Lake Formation 产品,DLF 主要的作用是通过扫描 OSS文件,做一个统一的元数据管理和权限管理。我们可以通过 Foreign Server 也就是外部数据源对接 DLF 的元数据,处理 OSS 文件结构。这样就可以对接云上 OSS 数据湖以及开源 Hadoop 生态 hdfs 数据湖。除此之外,也支持阿里云生态内的数仓和数据库,比如 Hologres 、关系型数据库和分析型数据库等。对于外部数据库,是通过 JDBC 协议连接,对于内部生态产品比如 Hologres ,可以做到存储上的直读,从性能是比 JDBC 更快一些。这是利用外部 Schema 对接外部数据源。


对于 OSS 上的一些非结构化数据,可以通过 Mount OSS 路径升级到 MaxCompute 做对象管理。可以通过MaxCompute 权限系统,对 Mount OSS 的对象做授权管理。可以使用 MaxCompute spark ML 和MaxCompute 的 AI 等引擎对 OSS 上文件结构的数据做处理。如果传统的 hadoop 数据平台,希望用到云上扩展算力,又不想全部迁移上云,可以在Hadoop 里通过 SDK 调用云上计算能力,同时把数据从云上导入云下,作为云下 Hadoop 集群算力的一个扩展。


总结来说,内部存储对接阿里云的Hologres 和 MaxCompute ,都是使用盘古文件系统,使用传统方式做对接,同时在 Porject 和 Table 之间加了一层 Schema,对接整个数据库生态;对于数据湖的存储,支持 HDFS 通过 Hive 的 MetaStore 映射到 MaxCompute 的外部 Schema ,支持 OSS 通过 DLF(Data Lake Formation)映射到Foreign Server 和 Foreign Data Wrapper 中,从而实现对外部 Internal Schema 的映射,也支持阿里云Hologres 以及外部的数据库生态。同时,整个 MaxCompute 的算力也可以被云下 Hadoop 集群引用,作为云下算力的扩充。下层的复杂结构,都可以通过统一的数据开发与治理平台 DataWorks 来管理。


总结三点:

  • 对外部数据库生态联邦查询

支持 MaxCompute 外部 Schema 整库映射 MySQL 、Hologres DB/Schema,同时与 Hologres 能够存储直读,提升读写效率,用户不用做类似于从关系型数据库到 MaxCompute 的数据迁移工作,直接通过外部数据源的映射,在 MaxCompute 里可以实现本地数仓和外部数据源的联邦查询。


  • 对非结构化数据的管理和处理

MaxCompute 通过 Mount OSS 路径,可以将存储在 OSS 上的结构化文件、非结构化图片、音视频等等,纳入到数仓权限体系做管理。OSS 还是对文件做粗粒度的权限管理, 把 OSS 提升为 MaxCompute 的一个对象,利用 MaxCompute 里的 ACL对每个用户是否可以访问 OSS 上的某些文件,做细粒度的权限管理。通过 MaxCompute 里的 Spark 引擎或者 机器学习 PAI 对结构化、半结构化以及非结构化文件格式的数据做处理。


  • 对 Hadoop 资源池的云上扩展

当 IDC 集群或者云上Hadoop 集群需要扩容以及业务线快速的更新迭代,想要快速的试错。在不对本身集群资源做调整的情况下,直接将需要的算力放到 Serverless 云数仓服务,就可以实现对业务的快速迭代和试错,达到对现有资源的无缝扩展。

1.png

ForresterWaveCDW 技术评比中,主要从四个方面进行评测。

1、原生数据湖查询能力

2、对数据湖安全的集成能力

3、对数据湖引擎的集成能力

4、客户案例

基于这四个方面的评测,MaxCompute+DataWorks组合在数据湖集成方案中取得最高分。

2.png

二、典型使用场景介绍

IDC 线下 Hadoop 无迁移上云

客户不希望所有数据迁移上云,希望保有一部分数据自主可控,但有一部分算力需要在云上解决。之前做法是每天将数据做 ETL 导入导出,再利用云上的大规模分布式引擎 MaxCompute 做处理。每天需要做大量的 ETL 操作,消耗大量的时间和人力。通过线上线下打通,底层存储元数据,通过高速网络互联,实现云上直接消费云下数据,并且把数据返回到云下。

3.png

Serverless 数据湖 ETL / 交互式分析

云上的数据存储,已经变成了事实上的数据湖。湖上有离线数据、实时入湖数据、结构化、半结构化以及非结构化数据。对 OSS 数据的统一管理,外部元数据管理 DLF,通过扫描 OSS 上的文件,能 Schema 化的变成库表形式,不能 Schema 化的变成文件 location 的管理。通过DLF做元数据管理,上边对接数仓和引擎,也可以对接阿里云 EMR 的 Spark、Presto等。从而达到数据的共享、统一的元数据、以及多引擎的灵活架构。

4.png

IDC Hadoop 的云上弹性资源池

云上引擎 MaxCompute 可以作为本地数据平台的弹性资源池,整体数据的开发和治理都在本地 Hadoop ,依照 Hadoop 的调度将 MaxCompute 作为一个资源池。从线下 Hadoop 集群发起作业,读写云上 MaxCompute 的资源,利用 MaxCompute 的算力,来做云上云下的数据传输。

5.png

多联邦查询

通过MaxCompute做多联邦查询,通过在统一的开发界面,能够 Join  MaxCompute 云数仓的库和表,以及其他外部映射到 MaxCompute 的库和表。

6.png

三、 Demo

以MaxCompute映射Hologres外部数据源为例,展示MaxCompute如何通过外部Schema去映射外部数据库数据源。

Demo请点击查看视频


更多 阿里云大数据产品>>

MaxCompute 二维码拼图.png

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
12月前
|
Kubernetes Cloud Native 安全
云原生机密计算新范式 PeerPods技术方案在阿里云上的落地和实践
PeerPods 技术价值已在阿里云实际场景中深度落地。
|
11月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
8月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
530 7
|
8月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
9月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
1025 1
|
11月前
|
分布式计算 Serverless OLAP
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
Hologres推出Serverless型实例,支持按需计费、无需独享资源,适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表,弹性扩展至512CU,性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案,助力高效数据分析。
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
|
10月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
10月前
|
消息中间件 人工智能 监控
【云故事探索 | NO.15】:阿里云云原生加速鸣鸣很忙数字化
【云故事探索 | NO.15】:阿里云云原生加速鸣鸣很忙数字化
|
11月前
|
SQL DataWorks 关系型数据库
DataWorks+Hologres:打造企业级实时数仓与高效OLAP分析平台
本方案基于阿里云DataWorks与实时数仓Hologres,实现数据库RDS数据实时同步至Hologres,并通过Hologres高性能OLAP分析能力,完成一站式实时数据分析。DataWorks提供全链路数据集成与治理,Hologres支持实时写入与极速查询,二者深度融合构建离在线一体化数仓,助力企业加速数字化升级。

热门文章

最新文章

相关产品

  • 云原生大数据计算服务 MaxCompute