MySQL分库分表写入Hologres实践

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文将会介绍如何通过DataWorks数据集成或者阿里云Flink将MySQL 分库分表数据写入至Hologres

实际业务场景下,数据同步通常不能通过一个或多个简单离线同步或者实时同步任务完成,而是由多个离线同步、实时同步和数据处理等任务组合完成,这就会导致数据同步场景下的配置复杂度非常高。尤其是在MySQL分库分表的场景下,上游的表和库非常多,都需要同时写入一张Hologres表,如果要同时配置多个任务则会导致配置非常复杂且运维困难。


针对上诉痛点,阿里云DataWorks数据集成一键同步解决方案提供了面向业务场景的同步任务配置化方案,支持不同数据源的一键同步功能,方便业务简单快速的进行数据同步。同时阿里云Flink也提供了丰富强大的数据实时入仓入湖能力,支持将多种数据源方便快捷的写入至Hologres。


通过本文我们将会介绍,通过DataWorker数据集成,以及Flink两种方式将MySQL分库分表写入Hologres的实践。您可以根据业务场景选择合适的方式将MySQL分库分表数据写入Hologres。


MySQL分库分表通过DataWorks同步至Hologres

通过DataWorks将MySQL分库分表的数据同步至Hologres的具体操作步骤如下:

步骤1:准备MySQL数据

在同步之前需要准备好MySQL分库分表数据。本文示例准备了两个库和三张表,分别如下:

库名

表名

数据量

hmtest1

product_20220420

6301

hmtest1

product_20220421

6331

hmtest2

product_20220422

6227


表的DDL定义如下,3个表的schema一致,但不同的表中会有部分数据重复。

CREATETABLE product_20220420 ( value_id int8, attribute_id int8notnull, id_card int8, name text, potion text,    ds TEXT,PRIMARY KEY (`value_id`))

步骤2:创建一键实时同步任务

前往DataWorks数据集成创建一键实时同步至Hologres任务,选择来源为MySQL,数据去向为Hologres。

分1.png

步骤3:设置同步来源和规则

  • 配置方案名称以及来源的基本信息,包括时区以及来源表等。

分2.png

  • 选择好来源表之后设置库/表的映射规则。如下示例通过正则匹配法选择出上游的库和表,实现分库分表写入同一个目标表

分3.png

步骤4:设置目标表

选择好来源表以及设置映射规则之后,需要设置目标表配置。如下示例将会根据上游DDL并自动创建目标表。

说明:映射关系里会展示每一个上游表与目标表的关系,只要目标表为同一个表即表示都映射至同一个目标表

分4.png

为了更好的区分上游表的来源,需要为目标表添加附加字段。勾选所有的任务,并单击“批量编辑目标表附加字段”。新增字段后单击“选择变量”为目标表添加附加字段,可以根据业务类型选择合适的附加字段以及系统变量。本次示例选择:db_name_src:来源数据库名称和table_name_src: 来源数据表名称。

分5.png


若是上游数据量比较大,且表比较多,建议将附加字段设置成主键PK,与源表主键做联合主键,防止多源表主键数据互相冲突,同时将附加字段设置为distribution key,能保证将相同的数据写入至同一个shard,实现更好的性能。


如下示例,单击表名,并手动修改表的DDL,将附加列table_name添加为pk和distribution key。


说明:

  • 一般建议添加tablename为联合主键,可根据业务场景适当添加
  • 也可以根据业务需求为表设置更多的索引,以实现更好的性能,详情见文档

分6.png

步骤5:设置DML策略

目标表设置完成之后,为任务配置DML策略。根据业务情况进行单表设置或者批量设置。

分7.png

步骤6:实时同步DDL消息处理策略

根据业务情况为任务设置DDL消息消息处理策略。

分8.png

步骤7:运行资源设置

根据业务情况进行运行资源设置,包括资源组、连接数,并发数等。

分9.png

步骤8:运行任务

配置完成之后,提交任务执行,可以查看任务运行详情。

分10.png

步骤9:查询数据

一键解决方案会先运行全量数据,再运行实时同步数据。当全量离线任务运行完成后,可以前往Hologres中查询数据。如下示例可以看到附加列也有对应的数据表示数据的来源库和表名。以此表示上游分库分表写入至Hologres同一个表中。

分11.png


最后,业务上游有实时数据也会启动实时任务,如上游增加数据下游将会自动触发实时任务写入至Hologres中。本次示例仅展示如何通过“一键同步解决方案”实现MySQL分库分表写入至Hologres一张表,更多操作将不再讲述,请根据业务逻辑自行配置任务。


MySQL分库分表通过Flink同步至Hologres

通过Flink将MySQL分库分表的数据同步至Hologres的具体操作请见文档




了解Hologres:https://www.aliyun.com/product/bigdata/hologram


合集.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
1月前
|
SQL 运维 网络安全
【实践】基于Hologres+Flink搭建GitHub实时数据查询
本文介绍了如何利用Flink和Hologres构建GitHub公开事件数据的实时数仓,并对接BI工具实现数据实时分析。流程包括创建VPC、Hologres、OSS、Flink实例,配置Hologres内部表,通过Flink实时写入数据至Hologres,查询实时数据,以及清理资源等步骤。
|
15天前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
12天前
|
缓存 关系型数据库 MySQL
MySQL 索引优化与慢查询优化:原理与实践
通过本文的介绍,希望您能够深入理解MySQL索引优化与慢查询优化的原理和实践方法,并在实际项目中灵活运用这些技术,提升数据库的整体性能。
42 5
|
25天前
|
存储 关系型数据库 MySQL
PHP与MySQL动态网站开发:从基础到实践####
本文将深入探讨PHP与MySQL的结合使用,展示如何构建一个动态网站。通过一系列实例和代码片段,我们将逐步了解数据库连接、数据操作、用户输入处理及安全防护等关键技术点。无论您是初学者还是有经验的开发者,都能从中获益匪浅。 ####
|
1月前
|
运维 数据挖掘 网络安全
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
|
1月前
|
关系型数据库 MySQL Java
MySQL索引优化与Java应用实践
【11月更文挑战第25天】在大数据量和高并发的业务场景下,MySQL数据库的索引优化是提升查询性能的关键。本文将深入探讨MySQL索引的多种类型、优化策略及其在Java应用中的实践,通过历史背景、业务场景、底层原理的介绍,并结合Java示例代码,帮助Java架构师更好地理解并应用这些技术。
34 2
|
1月前
|
关系型数据库 MySQL Linux
Linux环境下MySQL数据库自动定时备份实践
数据库备份是确保数据安全的重要措施。在Linux环境下,实现MySQL数据库的自动定时备份可以通过多种方式完成。本文将介绍如何使用`cron`定时任务和`mysqldump`工具来实现MySQL数据库的每日自动备份。
109 3
|
1月前
|
存储 监控 关系型数据库
MySQL自增ID耗尽解决方案:应对策略与实践技巧
在MySQL数据库中,自增ID(AUTO_INCREMENT)是一种特殊的属性,用于自动为新插入的行生成唯一的标识符。然而,当自增ID达到其最大值时,会发生什么?又该如何解决?本文将探讨MySQL自增ID耗尽的问题,并提供一些实用的解决方案。
43 1
|
20天前
|
SQL 关系型数据库 MySQL
PHP与MySQL的高效交互:从基础到实践####
本文深入探讨了PHP与MySQL数据库之间的高效交互技术,涵盖了从基础连接到高级查询优化的全过程。不同于传统的摘要概述,这里我们直接以一段精简代码示例作为引子,展示如何在PHP中实现与MySQL的快速连接与简单查询,随后文章将围绕这一核心,逐步展开详细讲解,旨在为读者提供一个从入门到精通的实战指南。 ```php <?php // 数据库配置信息 $servername = "localhost"; $username = "root"; $password = "password"; $dbname = "test_db"; // 创建连接 $conn = new mysqli($se
23 0
|
2月前
|
NoSQL 关系型数据库 MySQL
MySQL与Redis协同作战:百万级数据统计优化实践
【10月更文挑战第21天】 在处理大规模数据集时,传统的单体数据库解决方案往往力不从心。MySQL和Redis的组合提供了一种高效的解决方案,通过将数据库操作与高速缓存相结合,可以显著提升数据处理的性能。本文将分享一次实际的优化案例,探讨如何利用MySQL和Redis共同实现百万级数据统计的优化。
115 9

热门文章

最新文章

相关产品

  • 实时数仓 Hologres