带你读《升舱 - 数据仓库升级交付标准白皮书》——6、附:数据仓库升级实施云上组件(下)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 带你读《升舱 - 数据仓库升级交付标准白皮书》——6、附:数据仓库升级实施云上组件(下)

带你读《升舱 - 数据仓库升级交付标准白皮书》——6、附:数据仓库升级实施云上组件(上) https://developer.aliyun.com/article/1242443



(3)SQL 兼容改造工具


针对新旧数仓数据库的 SQL 语法进行兼容性改造,主要用于 ETL 作业脚本和数据库对象 DDL 脚本的改造工作,主要依赖阿里云数据库和应用迁移(AdvcancedDatabase and Appliction Migration,简称 ADAM)工具实现。该工具是阿里巴巴多年去 IOE 的方法论和经验的工具化成果,可以借助该工具自动化评估某传统数据仓库厂商到ADB PG在SQL语法、DDL转换方面的兼容点、不兼容点以及改造优化建议。

(4)数据迁移同步工具


数据迁移同步可采用阿里云迁移工具 DTS,支持传统数据仓库到阿里云数据库端到端的数据迁移工作。

DTS 可以在两个数据源之间同步正在进行的数据变更。 数据同步通常用于OLTP 到OLAP 的数据传输。 数据同步包括以下两个阶段:

1)同步初始化:

DTS 将源数据库的存量数据加载到目标数据库。

2)数据实时同步:

DTS 同步正在进行的数据变更,并保持源数据库和目标数据库的同步

image.png

数据迁移过程包括三个阶段,即结构迁移、全量数据迁移和增量数据迁移。 如果需要在迁移期间保持源数据库的正常运行,当您在配置迁移任务时,必须将结构迁移、全量数据迁移和增量数据迁移都选为所需的迁移类型。

1)结构迁移:

在迁移数据之前,DTS 需要在目标数据库中重新创建数据结构。 对于异构数据库之间的迁移,DTS 会解析源数据库的 DDL 代码,将代码转换成目标数据库的语法,然后在目标数据库中重新创建结构对象。

2)全量数据迁移:

在全量数据迁移阶段,DTS 会将源数据库的存量数据全部迁移到目标数据库。 源数据库保持运行状态,在迁移过程中仍不断进行数据更新。 DTS 使用增量数据读取模块来获取全量数据迁移过程中发生的数据更新。 当全量数据迁移开始时,增量数据读取模块将被激活。 在全量数据迁移阶段,增量数据会被解析、重新格式化并存储在本地 DTS 服务器上。

3)增量数据迁移:

当全量数据迁移完成后,DTS 会检索本地存储的增量数据,重新格式化,并将数据更新应用到目标数据库中。 此过程将持续下去,直到所有正在进行的数据变更都复制到目标数据库,并且源数据库和目标数据库完全同步。

(5)数据稽核校验工具

数据仓库动则数万张表,升级实施中经常要做数据迁移、ETL 测试,在迁移结束或测试数据时,需要频繁的做数据稽核比对,阿里云青天鉴就是一个支持多源异构数据源的数据校验工具,辅助我们做数据稽核时实现工具化、自动化,青天鉴功能示意图如下

image.png


该数据稽核校验工具支持全量校验和指标校验两方面:


1. 全量校验,即源端 A 表到目标端 B 表,所有记录完全一致,主要用于同构数据迁移的场景。


2. 指标校验,即表数据量或内容计算结果一致性校验,即源端和目标端 count()、sum() 等聚合结果对比。尤其是大规模数据仓库迁移,字段比较非常耗时,需要在绝对准确性和效率上追求合理的时间成本和相对准确性。因此,指标校验主要适用于数据仓库迁移后源和目标数据库的数据量校验。数据仓库中常常统计业务含义的指标,青天鉴支持带 group by 的指标校验,即业务方指定的源端指含(一个或多个字段,group by条件作为 pk)和目标端指标(一个或多个字段,group by 条件作为 pk)对比。


(6)批量调度运行平台


DataWorks( 大 数 据 开 发 治 理 平 台) 是 阿 里 云 重 要 的 PaaS(Platform-as-a-Service)平台产品,提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

DataWorks 支持多种计算和存储引擎服务,包括离线计算 MaxCompute、开源大数据引擎 E-MapReduce、实时计算(基于 Flink)、机器学习 PAI、云原生数据仓库AnalyticDB for PostgreSQL,云原生数据仓库 AnalyticDB for MySQL,并且支持用户自定义接入计算和存储服务。DataWorks 为您提供全链路智能大数据及 AI 开发和治理服务。

在过程中,可以使用 DataWorks 进行数据源(如 MaxCompute)到 ADB PG 的数据传输、转换和集成。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
存储 分布式计算 关系型数据库
|
存储 分布式计算 关系型数据库
云原生数据仓库AnalyticDB MySQL湖仓版架构升级,持续释放技术红利!
云原生数据仓库AnalyticDB MySQL湖仓版架降价23%!持续提供高性价比的产品服务
|
存储 人工智能 数据挖掘
带你读《升舱 - 数据仓库升级交付标准白皮书》——1、行业趋势与困惑
带你读《升舱 - 数据仓库升级交付标准白皮书》——1、行业趋势与困惑
213 0
|
存储 大数据 项目管理
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.1 数仓升级的三个目标
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.1 数仓升级的三个目标
282 0
|
存储 并行计算 Cloud Native
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.2 数仓升级的四个原则
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.2 数仓升级的四个原则
246 0
|
数据处理 数据库
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.3 升级实施的五大关键点(上)
带你读《升舱 - 数据仓库升级交付标准白皮书》——2.3 升级实施的五大关键点(上)
230 0
|
4月前
|
存储 缓存 Cloud Native
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
|
5月前
|
SQL Cloud Native 关系型数据库
云原生数据仓库使用问题之分组优化如何实现
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
5月前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库操作报错合集之遇到“table does not exist”错误,该怎么办
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
5月前
|
SQL Cloud Native 关系型数据库
云原生数据仓库操作报错合集之遇到报错“DDL forbidden because backupTask is doing snapshot”如何处理
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。

热门文章

最新文章