什么是Zero-ETL
- ETL 是将上层业务系统的数据经过提取(Extract)、转换清洗(Transform)、加载(Load)到数据仓库的处理过程,目的是将上游分散的数据整合到目标端数仓,通过在数仓中做进一步的计算分析,来为业务做有效的商业决策。
开发传统的ETL流程,具备以下挑战:
- 资源成本增加:不同的数据源可能需要不同的ETL工具,搭建ETL链路会产生额外的资源成本
- 系统复杂度增加:用户需要自行维护ETL工具,增加了运维难度,无法专注于业务应用的开发
- 数据实时性降低:部分ETL流程涉及周期性的批量更新,在近实时的应用场景中,无法做到快速产出分析结果。
Zero-ETL是旨在为用户减少不同数据源间人工迁移或同步的工作量,降低ETL的成本和复杂度,让用户不需要开发和关注ETL流程,专注于上层的应用开发和数据分析。
阿里云瑶池数据库提供的Zero-ETL服务
Zero-ETL优势
阿里云瑶池数据库Zero-ETL旨在实现事务处理和数据分析一体化,实现建仓成本的降低,建仓效率的提升。
目前使用Zero-ETL方案,数据接入成本可下降30%,构建数据仓库的效率可提升60%。
总结来看,Zero-ETL的优势如下:
零成本:提供低成本的数据接入链路,用户可免费或极低成本实现在AnalyticDB中对上游PolarDB数据进行分析
易用性好:无需创建和维护执行ETL(提取、转换、加载操作)的复杂数据管道,仅需选择源端数据和目标端实例,自动创建实时数据同步链路,减少构建和管理数据管道所带来的挑战,专注上层应用开发
多源汇集:Zero-ETL的目标端可以提供全局视角,将多个数据源实例汇集到目标端进行复杂分析、关联查询等
阿里云云原生数据仓库AnalyticDB MySQL基于湖仓一体架构打造,高度兼容MySQL,毫秒级更新,亚秒级查询,可以同时提供高吞吐离线处理和高性能在线分析。
针对在AnalyticDB MySQL中分析PolarDB的数据,我们提供以下两种Zero-ETL功能。
- 联邦分析:通过该功能可以免费将PolarDB MySQL的数据实时同步到AnalyticDB MySQL中,只需要简单配置源端和目标端,便可完成同步任务的构建,用户无需额外再维护其他的数据同步链路;数据进入AnalyticDB MySQL后可以直接用ADB Spark或XIHE计算引擎进行查询和分析
- 元数据自动同步:通过该功能,用户在PolarDB-X中开启列存表后,可以自动将列存表的元数据同步到AnalyticDB MySQL中,立即在ADB中分析PolarDB-X中的数据,并可将PolarDB-X中的表和其他数据源的表进行关联查询分析。
如何使用阿里云瑶池数据库Zero-ETL服务
PolarDB MySQL联邦分析
PolarDB MySQL概览页-「联邦分析」进入该功能
- 新建联邦分析链路:选择源端实例和目标端实例,默认同步整实例,打开「高级配置」后可以选择库表对象,也可以对大表进行分区键设置。
- 编辑链路、查看链路:支持修改库表对象等,支持查看联邦分析任务的配置详情
PolarDB-X 元数据自动发现
PolarDB-X 2.0控制台-「列存引擎」页面进入该功能
- 「列存引擎」页面,创建列存引擎,并「开通ADB湖仓」,此处可选择同地域下的已有实例
- 完成开通,在目标端AnalyticDB MySQL实例中-「数据接入」-「元数据发现」中会自动创建元数据同步任务;并可通过「SQL开发」、DMS或其他客户端工具,在实例中对源端PolarDB-X列存表进行查询分析。
Zero-ETL优势
阿里云瑶池数据库Zero-ETL旨在实现事务处理和数据分析一体化,实现建仓成本的降低,建仓效率的提升。
目前使用Zero-ETL方案和传统的数据同步链路方案对比来看,链路成本可下降30%,构建数据仓库的效率可提升60%。
总结来看,Zero-ETL的优势如下:
零成本:提供低成本的数据接入链路,用户可免费或极低成本实现在AnalyticDB中对上游PolarDB数据进行分析
易用性好:无需创建和维护执行ETL(提取、转换、加载操作)的复杂数据管道,仅需选择源端数据和目标端实例,自动创建实时数据同步链路,减少构建和管理数据管道所带来的挑战,专注上层应用开发
多源汇集:Zero-ETL的目标端可以提供全局视角,将多个数据源实例汇集到目标端进行复杂分析、关联查询等