带你读《升舱 - 数据仓库升级交付标准白皮书》——6、附：数据仓库升级实施云上组件（下）-阿里云开发者社区

带你读《升舱 - 数据仓库升级交付标准白皮书》——6、附：数据仓库升级实施云上组件（下）

2023-06-06 312

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

云原生数据仓库AnalyticDB MySQL版，基础版 8ACU 100GB 1个月

简介： 带你读《升舱 - 数据仓库升级交付标准白皮书》——6、附：数据仓库升级实施云上组件（下）

带你读《升舱 - 数据仓库升级交付标准白皮书》——6、附：数据仓库升级实施云上组件（上） https://developer.aliyun.com/article/1242443

（3）SQL 兼容改造工具

针对新旧数仓数据库的 SQL 语法进行兼容性改造，主要用于 ETL 作业脚本和数据库对象 DDL 脚本的改造工作，主要依赖阿里云数据库和应用迁移（AdvcancedDatabase and Appliction Migration，简称 ADAM）工具实现。该工具是阿里巴巴多年去 IOE 的方法论和经验的工具化成果，可以借助该工具自动化评估某传统数据仓库厂商到ADB PG在SQL语法、DDL转换方面的兼容点、不兼容点以及改造优化建议。

（4）数据迁移同步工具

数据迁移同步可采用阿里云迁移工具 DTS，支持传统数据仓库到阿里云数据库端到端的数据迁移工作。

DTS 可以在两个数据源之间同步正在进行的数据变更。数据同步通常用于OLTP 到OLAP 的数据传输。数据同步包括以下两个阶段：

1）同步初始化：

DTS 将源数据库的存量数据加载到目标数据库。

2）数据实时同步：

DTS 同步正在进行的数据变更，并保持源数据库和目标数据库的同步

数据迁移过程包括三个阶段，即结构迁移、全量数据迁移和增量数据迁移。如果需要在迁移期间保持源数据库的正常运行，当您在配置迁移任务时，必须将结构迁移、全量数据迁移和增量数据迁移都选为所需的迁移类型。

1）结构迁移：

在迁移数据之前，DTS 需要在目标数据库中重新创建数据结构。对于异构数据库之间的迁移，DTS 会解析源数据库的 DDL 代码，将代码转换成目标数据库的语法，然后在目标数据库中重新创建结构对象。

2）全量数据迁移：

在全量数据迁移阶段，DTS 会将源数据库的存量数据全部迁移到目标数据库。源数据库保持运行状态，在迁移过程中仍不断进行数据更新。 DTS 使用增量数据读取模块来获取全量数据迁移过程中发生的数据更新。当全量数据迁移开始时，增量数据读取模块将被激活。在全量数据迁移阶段，增量数据会被解析、重新格式化并存储在本地 DTS 服务器上。

3）增量数据迁移：

当全量数据迁移完成后，DTS 会检索本地存储的增量数据，重新格式化，并将数据更新应用到目标数据库中。此过程将持续下去，直到所有正在进行的数据变更都复制到目标数据库，并且源数据库和目标数据库完全同步。

（5）数据稽核校验工具

数据仓库动则数万张表，升级实施中经常要做数据迁移、ETL 测试，在迁移结束或测试数据时，需要频繁的做数据稽核比对，阿里云青天鉴就是一个支持多源异构数据源的数据校验工具，辅助我们做数据稽核时实现工具化、自动化，青天鉴功能示意图如下

该数据稽核校验工具支持全量校验和指标校验两方面：

1. 全量校验，即源端 A 表到目标端 B 表，所有记录完全一致，主要用于同构数据迁移的场景。

2. 指标校验，即表数据量或内容计算结果一致性校验，即源端和目标端 count()、sum() 等聚合结果对比。尤其是大规模数据仓库迁移，字段比较非常耗时，需要在绝对准确性和效率上追求合理的时间成本和相对准确性。因此，指标校验主要适用于数据仓库迁移后源和目标数据库的数据量校验。数据仓库中常常统计业务含义的指标，青天鉴支持带 group by 的指标校验，即业务方指定的源端指含（一个或多个字段，group by条件作为 pk）和目标端指标（一个或多个字段，group by 条件作为 pk）对比。

（6）批量调度运行平台

DataWorks（大数据开发治理平台）是阿里云重要的 PaaS（Platform-as-a-Service）平台产品，提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务，一站式开发管理的界面，帮助企业专注于数据价值的挖掘和探索。

DataWorks 支持多种计算和存储引擎服务，包括离线计算 MaxCompute、开源大数据引擎 E-MapReduce、实时计算（基于 Flink）、机器学习 PAI、云原生数据仓库AnalyticDB for PostgreSQL，云原生数据仓库 AnalyticDB for MySQL，并且支持用户自定义接入计算和存储服务。DataWorks 为您提供全链路智能大数据及 AI 开发和治理服务。

在过程中，可以使用 DataWorks 进行数据源（如 MaxCompute）到 ADB PG 的数据传输、转换和集成。

带你读《升舱 - 数据仓库升级交付标准白皮书》——6、附：数据仓库升级实施云上组件（下）

（3）SQL 兼容改造工具