MySQL分库分表写入Hologres实践

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文将会介绍如何通过DataWorks数据集成或者阿里云Flink将MySQL 分库分表数据写入至Hologres

实际业务场景下,数据同步通常不能通过一个或多个简单离线同步或者实时同步任务完成,而是由多个离线同步、实时同步和数据处理等任务组合完成,这就会导致数据同步场景下的配置复杂度非常高。尤其是在MySQL分库分表的场景下,上游的表和库非常多,都需要同时写入一张Hologres表,如果要同时配置多个任务则会导致配置非常复杂且运维困难。


针对上诉痛点,阿里云DataWorks数据集成一键同步解决方案提供了面向业务场景的同步任务配置化方案,支持不同数据源的一键同步功能,方便业务简单快速的进行数据同步。同时阿里云Flink也提供了丰富强大的数据实时入仓入湖能力,支持将多种数据源方便快捷的写入至Hologres。


通过本文我们将会介绍,通过DataWorker数据集成,以及Flink两种方式将MySQL分库分表写入Hologres的实践。您可以根据业务场景选择合适的方式将MySQL分库分表数据写入Hologres。


MySQL分库分表通过DataWorks同步至Hologres

通过DataWorks将MySQL分库分表的数据同步至Hologres的具体操作步骤如下:

步骤1:准备MySQL数据

在同步之前需要准备好MySQL分库分表数据。本文示例准备了两个库和三张表,分别如下:

库名

表名

数据量

hmtest1

product_20220420

6301

hmtest1

product_20220421

6331

hmtest2

product_20220422

6227


表的DDL定义如下,3个表的schema一致,但不同的表中会有部分数据重复。

CREATETABLE product_20220420 ( value_id int8, attribute_id int8notnull, id_card int8, name text, potion text,    ds TEXT,PRIMARY KEY (`value_id`))

步骤2:创建一键实时同步任务

前往DataWorks数据集成创建一键实时同步至Hologres任务,选择来源为MySQL,数据去向为Hologres。

分1.png

步骤3:设置同步来源和规则

  • 配置方案名称以及来源的基本信息,包括时区以及来源表等。

分2.png

  • 选择好来源表之后设置库/表的映射规则。如下示例通过正则匹配法选择出上游的库和表,实现分库分表写入同一个目标表

分3.png

步骤4:设置目标表

选择好来源表以及设置映射规则之后,需要设置目标表配置。如下示例将会根据上游DDL并自动创建目标表。

说明:映射关系里会展示每一个上游表与目标表的关系,只要目标表为同一个表即表示都映射至同一个目标表

分4.png

为了更好的区分上游表的来源,需要为目标表添加附加字段。勾选所有的任务,并单击“批量编辑目标表附加字段”。新增字段后单击“选择变量”为目标表添加附加字段,可以根据业务类型选择合适的附加字段以及系统变量。本次示例选择:db_name_src:来源数据库名称和table_name_src: 来源数据表名称。

分5.png


若是上游数据量比较大,且表比较多,建议将附加字段设置成主键PK,与源表主键做联合主键,防止多源表主键数据互相冲突,同时将附加字段设置为distribution key,能保证将相同的数据写入至同一个shard,实现更好的性能。


如下示例,单击表名,并手动修改表的DDL,将附加列table_name添加为pk和distribution key。


说明:

  • 一般建议添加tablename为联合主键,可根据业务场景适当添加
  • 也可以根据业务需求为表设置更多的索引,以实现更好的性能,详情见文档

分6.png

步骤5:设置DML策略

目标表设置完成之后,为任务配置DML策略。根据业务情况进行单表设置或者批量设置。

分7.png

步骤6:实时同步DDL消息处理策略

根据业务情况为任务设置DDL消息消息处理策略。

分8.png

步骤7:运行资源设置

根据业务情况进行运行资源设置,包括资源组、连接数,并发数等。

分9.png

步骤8:运行任务

配置完成之后,提交任务执行,可以查看任务运行详情。

分10.png

步骤9:查询数据

一键解决方案会先运行全量数据,再运行实时同步数据。当全量离线任务运行完成后,可以前往Hologres中查询数据。如下示例可以看到附加列也有对应的数据表示数据的来源库和表名。以此表示上游分库分表写入至Hologres同一个表中。

分11.png


最后,业务上游有实时数据也会启动实时任务,如上游增加数据下游将会自动触发实时任务写入至Hologres中。本次示例仅展示如何通过“一键同步解决方案”实现MySQL分库分表写入至Hologres一张表,更多操作将不再讲述,请根据业务逻辑自行配置任务。


MySQL分库分表通过Flink同步至Hologres

通过Flink将MySQL分库分表的数据同步至Hologres的具体操作请见文档




了解Hologres:https://www.aliyun.com/product/bigdata/hologram


合集.png

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
2月前
|
安全 关系型数据库 MySQL
PHP与MySQL交互:从入门到实践
【9月更文挑战第20天】在数字时代的浪潮中,掌握PHP与MySQL的互动成为了开发动态网站和应用程序的关键。本文将通过简明的语言和实例,引导你理解PHP如何与MySQL数据库进行对话,开启你的编程之旅。我们将从连接数据库开始,逐步深入到执行查询、处理结果,以及应对常见的挑战。无论你是初学者还是希望提升技能的开发者,这篇文章都将为你提供实用的知识和技巧。让我们一起探索PHP与MySQL交互的世界,解锁数据的力量!
|
12天前
|
关系型数据库 MySQL Linux
Linux环境下MySQL数据库自动定时备份实践
数据库备份是确保数据安全的重要措施。在Linux环境下,实现MySQL数据库的自动定时备份可以通过多种方式完成。本文将介绍如何使用`cron`定时任务和`mysqldump`工具来实现MySQL数据库的每日自动备份。
31 3
|
12天前
|
存储 监控 关系型数据库
MySQL自增ID耗尽解决方案:应对策略与实践技巧
在MySQL数据库中,自增ID(AUTO_INCREMENT)是一种特殊的属性,用于自动为新插入的行生成唯一的标识符。然而,当自增ID达到其最大值时,会发生什么?又该如何解决?本文将探讨MySQL自增ID耗尽的问题,并提供一些实用的解决方案。
19 1
|
26天前
|
NoSQL 关系型数据库 MySQL
MySQL与Redis协同作战:百万级数据统计优化实践
【10月更文挑战第21天】 在处理大规模数据集时,传统的单体数据库解决方案往往力不从心。MySQL和Redis的组合提供了一种高效的解决方案,通过将数据库操作与高速缓存相结合,可以显著提升数据处理的性能。本文将分享一次实际的优化案例,探讨如何利用MySQL和Redis共同实现百万级数据统计的优化。
68 9
|
2月前
|
存储 SQL 关系型数据库
一篇文章搞懂MySQL的分库分表,从拆分场景、目标评估、拆分方案、不停机迁移、一致性补偿等方面详细阐述MySQL数据库的分库分表方案
MySQL如何进行分库分表、数据迁移?从相关概念、使用场景、拆分方式、分表字段选择、数据一致性校验等角度阐述MySQL数据库的分库分表方案。
412 15
一篇文章搞懂MySQL的分库分表,从拆分场景、目标评估、拆分方案、不停机迁移、一致性补偿等方面详细阐述MySQL数据库的分库分表方案
|
1月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
176 0
|
1月前
|
消息中间件 监控 关系型数据库
MySQL数据实时同步到Elasticsearch:技术深度解析与实践分享
在当今的数据驱动时代,实时数据同步成为许多应用系统的核心需求之一。MySQL作为关系型数据库的代表,以其强大的事务处理能力和数据完整性保障,广泛应用于各种业务场景中。然而,随着数据量的增长和查询复杂度的提升,单一依赖MySQL进行高效的数据检索和分析变得日益困难。这时,Elasticsearch(简称ES)以其卓越的搜索性能、灵活的数据模式以及强大的可扩展性,成为处理复杂查询需求的理想选择。本文将深入探讨MySQL数据实时同步到Elasticsearch的技术实现与最佳实践。
93 0
|
3月前
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版产品使用问题之使用CTAS同步MySQL到Hologres时出现的时区差异,该如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
3月前
|
API C# 开发框架
WPF与Web服务集成大揭秘:手把手教你调用RESTful API,客户端与服务器端优劣对比全解析!
【8月更文挑战第31天】在现代软件开发中,WPF 和 Web 服务各具特色。WPF 以其出色的界面展示能力受到欢迎,而 Web 服务则凭借跨平台和易维护性在互联网应用中占有一席之地。本文探讨了 WPF 如何通过 HttpClient 类调用 RESTful API,并展示了基于 ASP.NET Core 的 Web 服务如何实现同样的功能。通过对比分析,揭示了两者各自的优缺点:WPF 客户端直接处理数据,减轻服务器负担,但需处理网络异常;Web 服务则能利用服务器端功能如缓存和权限验证,但可能增加服务器负载。希望本文能帮助开发者根据具体需求选择合适的技术方案。
165 0
|
3月前
|
存储 关系型数据库 MySQL
深入MySQL:事务日志redo log详解与实践
【8月更文挑战第24天】在MySQL的InnoDB存储引擎中,为确保事务的持久性和数据一致性,采用了redo log(重做日志)机制。redo log记录了所有数据修改,在系统崩溃后可通过它恢复未完成的事务。它由内存中的redo log buffer和磁盘上的redo log file组成。事务修改先写入buffer,再异步刷新至磁盘,最后提交事务。若系统崩溃,InnoDB通过redo log重放已提交事务并利用undo log回滚未提交事务,确保数据完整。理解redo log工作流程有助于优化数据库性能和确保数据安全。
565 0

热门文章

最新文章

相关产品

  • 实时数仓 Hologres