《CDP企业数据云平台从入门到实践》——如何迁移CDH/HDP到CDP(3) https://developer.aliyun.com/article/1227913?groupCode=ClouderaCDP
3. 总体迁移方案
4. 全量&增量数据迁移
5. 数据一致性校验方法
1) HDFS 一致性检查
HDFS 的一致性检查,可以通过 HDFS 文件数目,以及大小两个维度确认数据的一致性。
• 文件个数比对
比对新老集群,拷贝的 HDFS 目录以及文件的个数是否一致。理论上,应该完全一致,否则应该排查是什么原因,进行解决。
• 文件数据量比对
逐一比对新老集群,拷贝的 HDFS 目录,文件的数据量大小。理论上应该完全一致。如果差异过大,应该进行数据更新。
2) Hive 一致性检查
在完成数据拷贝之后,理论上新老集群两边的数据是一致的,这个时候,我们需要进行数据一致性的对比,来确认是否数据是一致的。挑选部分关键的表格进行抽查一致性比对,主要包含如下内容:
• 数据量比对挑选部分关键表格,比对新老集群数据量的大小,注意这里的数据量大小并不会完全一致,原因是因为两边 hadoop,hive 等组件的版本都不相同,在数据存储上面会有细微的变化,因此最终的数据量是不同的。这里主要比对的是数据量的量级是否一致。
• Hive 表记录条数比对
挑选部分关键表格 ,比对新老集群 Hive 表记录条数。记录条数应该完全一致。如果不一致,则需要重新同步。
• 关键 SQL 结果比对
挑选部分的关键 SQL,或者编写部分 SQL,分别在新老集群运行,运行结果应该完全一致。如果不一致,则需要分析原因,重新同步。
• Hive 表个数对比
对比拷贝列表中的 hive 表个数与实际新集群的 hive 表个数是否一致。