开发者学堂课程【全链路数据治理-全域数据集成:分库分表至 Hologres 最佳实践】学习笔记,与课程紧密连接,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1082/detail/16063
分库分表至 Hologres 最佳实践
最佳实践
接下来给大家介绍分库分表至Hologres的最佳实践。
这个最佳实践是以MySQL为数据源进行分库分表,实时写入实时数仓,Hologres。
简单介绍一下操作步骤,首先是背景信息,我们假设了一个业务场景,就是在MySQL分库分表的场景下,我们这个上游的表和库是非常多的,那需要同时写入一张Hologres表,配置多个任务时会导致配置非常复杂,而且运维起来相对比较困难。针对这个难点,dataverse数据集成,分库分表的同步解决方案,提供了面向业务场景的同步任务配置化方案,能够支持不同的数据源进行一键同步的功能,方便业务简单快速的完成实时同步相关的工作。
使用限制,目前仅支持MySQL和Hologres for MySQL的单实例同步,以及这个同步是必须要使用dataverse独享数据计算资源组的,因为实时同步相对来说比较耗资源。
接下来进行准备工作,第一步是添加数据源,添加一个MySQL数据源,大家可以参考MySQL新增数据源的操作步骤。添加完之后,要进行联通性测试,来保证这个数据源与我们独享数据集成资源组有一个可联通的状态。那如果联不通的话,可以参考我们第三天的网络联通的最佳实践。
接下来,新建Hologres数据源同样也是输入Hologres里面数据库相关的信息。那添加完数据源之后,接下来配置任务,首先这个配置的入口是在data verse数据集成主站,就是数据集成模块里,那我们点击同步任务,新建任务,可以选择Hologres整库全增量的一个解决方案。选择解决方案之后,会有几步的操作步骤,可以选择表并刷新这个表的映射,可以看到这个表的映射关系。接下来我们可以配置这个表名的转换规则来修改一些目标表的名字。之后,我们可以配置附加的字段,表格中附加字段编辑按钮后会有一些黄色的感叹号标识,表示有这个附加字段的配置,配置完之后就可以直接提交执行任务了,那新的任务会出现在我们任务列表当中,我们点击启动就可以直接完成这个任务的启动。
任务启动完成之后,我们接下来会做一些任务运维相关的工作,比如说可以查看这个任务实施的运行状态。在执行概况里,还可以进行任务的一些运维,然后在任务运维里,可以查看这个结构迁移的状态进行到什么样的阶段?
比如说在数据结构迁移中会有一些数据的说明,比如目标对接方式,自动键表或者使用已有的表以及DDL的列,鼠标悬浮我们可以查看建表的SQL语句以及状态列值,比如说执行中,成功,失败。例如状态失败,我们鼠标悬浮上去的话,可以查看失败的原因。
在这个任务运维里能够查看实时同步的整个状态,里面会有一些指标。下面来跟大家做一些说明,比如说线程号,是我们这个实时同步线程总数,它是等于并发数,这个线程号从零开始计数,MySQL读取固定为单并发执行,还有一个就是总行数,独端已录取除以写入的总行数是总行数的概念。
注意,sub data的操作技术为二,那一条更新前数据,一条更新后的数据以及总等待时间以及业务延迟的时间都给大家会有一个解释与说明,那同时,在最后的那个日志区域,也可以查看实时任务的一个日志,了解到我们这个任务执行的日志详情。
以上就是我们这一篇的内容。