带你读《升舱 - 数据仓库升级交付标准白皮书》——6、附:数据仓库升级实施云上组件(上) https://developer.aliyun.com/article/1242443
(3)SQL 兼容改造工具
针对新旧数仓数据库的 SQL 语法进行兼容性改造,主要用于 ETL 作业脚本和数据库对象 DDL 脚本的改造工作,主要依赖阿里云数据库和应用迁移(AdvcancedDatabase and Appliction Migration,简称 ADAM)工具实现。该工具是阿里巴巴多年去 IOE 的方法论和经验的工具化成果,可以借助该工具自动化评估某传统数据仓库厂商到ADB PG在SQL语法、DDL转换方面的兼容点、不兼容点以及改造优化建议。
(4)数据迁移同步工具
数据迁移同步可采用阿里云迁移工具 DTS,支持传统数据仓库到阿里云数据库端到端的数据迁移工作。
DTS 可以在两个数据源之间同步正在进行的数据变更。 数据同步通常用于OLTP 到OLAP 的数据传输。 数据同步包括以下两个阶段:
1)同步初始化:
DTS 将源数据库的存量数据加载到目标数据库。
2)数据实时同步:
DTS 同步正在进行的数据变更,并保持源数据库和目标数据库的同步
数据迁移过程包括三个阶段,即结构迁移、全量数据迁移和增量数据迁移。 如果需要在迁移期间保持源数据库的正常运行,当您在配置迁移任务时,必须将结构迁移、全量数据迁移和增量数据迁移都选为所需的迁移类型。
1)结构迁移:
在迁移数据之前,DTS 需要在目标数据库中重新创建数据结构。 对于异构数据库之间的迁移,DTS 会解析源数据库的 DDL 代码,将代码转换成目标数据库的语法,然后在目标数据库中重新创建结构对象。
2)全量数据迁移:
在全量数据迁移阶段,DTS 会将源数据库的存量数据全部迁移到目标数据库。 源数据库保持运行状态,在迁移过程中仍不断进行数据更新。 DTS 使用增量数据读取模块来获取全量数据迁移过程中发生的数据更新。 当全量数据迁移开始时,增量数据读取模块将被激活。 在全量数据迁移阶段,增量数据会被解析、重新格式化并存储在本地 DTS 服务器上。
3)增量数据迁移:
当全量数据迁移完成后,DTS 会检索本地存储的增量数据,重新格式化,并将数据更新应用到目标数据库中。 此过程将持续下去,直到所有正在进行的数据变更都复制到目标数据库,并且源数据库和目标数据库完全同步。
(5)数据稽核校验工具
数据仓库动则数万张表,升级实施中经常要做数据迁移、ETL 测试,在迁移结束或测试数据时,需要频繁的做数据稽核比对,阿里云青天鉴就是一个支持多源异构数据源的数据校验工具,辅助我们做数据稽核时实现工具化、自动化,青天鉴功能示意图如下
该数据稽核校验工具支持全量校验和指标校验两方面:
1. 全量校验,即源端 A 表到目标端 B 表,所有记录完全一致,主要用于同构数据迁移的场景。
2. 指标校验,即表数据量或内容计算结果一致性校验,即源端和目标端 count()、sum() 等聚合结果对比。尤其是大规模数据仓库迁移,字段比较非常耗时,需要在绝对准确性和效率上追求合理的时间成本和相对准确性。因此,指标校验主要适用于数据仓库迁移后源和目标数据库的数据量校验。数据仓库中常常统计业务含义的指标,青天鉴支持带 group by 的指标校验,即业务方指定的源端指含(一个或多个字段,group by条件作为 pk)和目标端指标(一个或多个字段,group by 条件作为 pk)对比。
(6)批量调度运行平台
DataWorks( 大 数 据 开 发 治 理 平 台) 是 阿 里 云 重 要 的 PaaS(Platform-as-a-Service)平台产品,提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。
DataWorks 支持多种计算和存储引擎服务,包括离线计算 MaxCompute、开源大数据引擎 E-MapReduce、实时计算(基于 Flink)、机器学习 PAI、云原生数据仓库AnalyticDB for PostgreSQL,云原生数据仓库 AnalyticDB for MySQL,并且支持用户自定义接入计算和存储服务。DataWorks 为您提供全链路智能大数据及 AI 开发和治理服务。
在过程中,可以使用 DataWorks 进行数据源(如 MaxCompute)到 ADB PG 的数据传输、转换和集成。