实际业务场景下,数据同步通常不能通过一个或多个简单离线同步或者实时同步任务完成,而是由多个离线同步、实时同步和数据处理等任务组合完成,这就会导致数据同步场景下的配置复杂度非常高。尤其是在MySQL分库分表的场景下,上游的表和库非常多,都需要同时写入一张Hologres表,如果要同时配置多个任务则会导致配置非常复杂且运维困难。
针对上诉痛点,阿里云DataWorks数据集成一键同步解决方案提供了面向业务场景的同步任务配置化方案,支持不同数据源的一键同步功能,方便业务简单快速的进行数据同步。同时阿里云Flink也提供了丰富强大的数据实时入仓入湖能力,支持将多种数据源方便快捷的写入至Hologres。
通过本文我们将会介绍,通过DataWorker数据集成,以及Flink两种方式将MySQL分库分表写入Hologres的实践。您可以根据业务场景选择合适的方式将MySQL分库分表数据写入Hologres。
MySQL分库分表通过DataWorks同步至Hologres
通过DataWorks将MySQL分库分表的数据同步至Hologres的具体操作步骤如下:
步骤1:准备MySQL数据
在同步之前需要准备好MySQL分库分表数据。本文示例准备了两个库和三张表,分别如下:
库名 |
表名 |
数据量 |
hmtest1 |
product_20220420 |
6301 |
hmtest1 |
product_20220421 |
6331 |
hmtest2 |
product_20220422 |
6227 |
表的DDL定义如下,3个表的schema一致,但不同的表中会有部分数据重复。
CREATETABLE product_20220420 ( value_id int8, attribute_id int8notnull, id_card int8, name text, potion text, ds TEXT,PRIMARY KEY (`value_id`))
步骤2:创建一键实时同步任务
前往DataWorks数据集成创建一键实时同步至Hologres任务,选择来源为MySQL,数据去向为Hologres。
步骤3:设置同步来源和规则
- 配置方案名称以及来源的基本信息,包括时区以及来源表等。
- 选择好来源表之后设置库/表的映射规则。如下示例通过正则匹配法选择出上游的库和表,实现分库分表写入同一个目标表
步骤4:设置目标表
选择好来源表以及设置映射规则之后,需要设置目标表配置。如下示例将会根据上游DDL并自动创建目标表。
说明:映射关系里会展示每一个上游表与目标表的关系,只要目标表为同一个表即表示都映射至同一个目标表
为了更好的区分上游表的来源,需要为目标表添加附加字段。勾选所有的任务,并单击“批量编辑目标表附加字段”。新增字段后单击“选择变量”为目标表添加附加字段,可以根据业务类型选择合适的附加字段以及系统变量。本次示例选择:db_name_src:来源数据库名称和table_name_src: 来源数据表名称。
若是上游数据量比较大,且表比较多,建议将附加字段设置成主键PK,与源表主键做联合主键,防止多源表主键数据互相冲突,同时将附加字段设置为distribution key,能保证将相同的数据写入至同一个shard,实现更好的性能。
如下示例,单击表名,并手动修改表的DDL,将附加列table_name添加为pk和distribution key。
说明:
- 一般建议添加tablename为联合主键,可根据业务场景适当添加
- 也可以根据业务需求为表设置更多的索引,以实现更好的性能,详情见文档。
步骤5:设置DML策略
目标表设置完成之后,为任务配置DML策略。根据业务情况进行单表设置或者批量设置。
步骤6:实时同步DDL消息处理策略
根据业务情况为任务设置DDL消息消息处理策略。
步骤7:运行资源设置
根据业务情况进行运行资源设置,包括资源组、连接数,并发数等。
步骤8:运行任务
配置完成之后,提交任务执行,可以查看任务运行详情。
步骤9:查询数据
一键解决方案会先运行全量数据,再运行实时同步数据。当全量离线任务运行完成后,可以前往Hologres中查询数据。如下示例可以看到附加列也有对应的数据表示数据的来源库和表名。以此表示上游分库分表写入至Hologres同一个表中。
最后,业务上游有实时数据也会启动实时任务,如上游增加数据下游将会自动触发实时任务写入至Hologres中。本次示例仅展示如何通过“一键同步解决方案”实现MySQL分库分表写入至Hologres一张表,更多操作将不再讲述,请根据业务逻辑自行配置任务。
MySQL分库分表通过Flink同步至Hologres
通过Flink将MySQL分库分表的数据同步至Hologres的具体操作请见文档
了解Hologres:https://www.aliyun.com/product/bigdata/hologram