对比下 datax 的 OceanBase/MYSQL 不同数据同步方案的效率差异 || 聊聊参数 rewriteBatchedStatements

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
简介: 对比下 datax 的 OceanBase/MYSQL 不同数据同步方案的效率差异 || 聊聊参数 rewriteBatchedStatements

大家好,我是明哥!

1. 聊聊信创与 Oceanbase 数据库

熟悉金融行业的小伙伴们大都知道,银行券商基金公司保险公司等金融行业的中大型企业,都在积极响应国家号召,高举信创的大旗,从服务器/操作系统/数据库/中间件等软件生态的方方面面,探索国产化的各种可能方案。

其中在数据库层面,我司目前推出的方案主要有三个:

  • 对接蚂蚁的 Oceanbase;
  • 对接 PingCAP的 Tidb;
  • 对接我司的 LightDb;

以上三种方案,目前我司在不同券商都有一些落地方案。

2. 聊聊 datax 的 Oceanbase 数据同步方案

不管客户选用哪种信创数据库的方案,不可避免的一个话题都是数据集成/数据同步,目前我司使用最多的一个方案是基于阿里开源的数据集成方案 datax 二次开发而来的一个方案。

那么 datax 对接 OceanBase 时,都有哪些同步方案可选呢?

  • 一是 datax 的 rdbmsreader/rdbmswriter: 因为 Oceanbase 提供了 JDBC 驱动,所以当然可以使用 datax 的支持所有关系型数据库的通用RDBMS插件来同步数据;
  • 二是 datax 推出的 OceanBase 专用插件 oceanbasev10writer/oceanbasev10reader:了解社区发展动向的小伙伴们,会留意到,datax 在2021年5月推出了开源的OceanBase 专用插件 oceanbasev10writer/oceanbasev10reader,如下图所示:

640.png

3. 对比下方案 rdbmsreader/rdbmswriter 和 方案 oceanbasev10writer/oceanbasev10reader 的同步效率

一般来讲,专用的插件会比通用的插件性能要高,我们基于我们的场景,对120W左右的数据的插入速度进行了测试,从结果来看,使用oceanbase 定制的 oceanbasev10writer 插件之后,插入性能比通用插件 rdbmswriter 提升了12倍左右:

640.png

说明:

  • 我们这里没有对读取插件进行详细的性能测试对比,但有理由相信,其性能应该也是有不少提升的;
  • 当然大家的场景不一样,数据库表的结构有差异(有无索引,表字段多少,字段类型等有差异),测试结果可能不尽相同,但结论应该是类似的:定制插件比通用插件性能要高!

4. 深入剖析下 oceanbasev10writer/oceanbasev10reader 插件

  • 开源的魅力就在于,你是可以看到源码的!只要你想,通过查看源码,即可分析其方案原理和细节差异;
  • 通过查看 datax 的源码,笔者发现,以下两个类的如下三个方法中,显示地对 oceanbasev10writer/oceanbasev10reader 的 jdbc url 添加了链接参数 rewriteBatchedStatements=true:
  • com.alibaba.datax.plugin.writer.oceanbasev10writer.ext.OBDataSourceV10#buildJdbcProperty
  • com.alibaba.datax.plugin.rdbms.util.DataBaseType#appendJDBCSuffixForWriter
  • com.alibaba.datax.plugin.rdbms.util.DataBaseType#appendJDBCSuffixForReader

640.png

640.png

640.png

看到这里,熟悉 Mysql 的 JDBC 连接参数 rewriteBatchedStatements 的小伙伴们,大概就猜到了:datax 的 OceanBase 专用插件 oceanbasev10writer/oceanbasev10reader,由于底层使用了 jdbc 的 batched Update 功能,所以性能比没有使用 jdbc batched update 功能时,速度有了数十倍的提升!

答案确实如此!

事实上,出于好奇,我们切换使用了 datax 的 RDBMS 通用插件 rdbmsreader/rdbmswriter,但在 jdbc url 中显示添加了参数 rewriteBatchedStatements=true,经测试,其数据写入速度跟上述专用插件的写入速度并无明显差异!

通过查看源码,我们还发现,datax 对mysql的写入操作做了类似处理,所以概括下:

  • 使用datax 读写各种关系型数据库 rdbms 时,推荐使用其专用读写插件,此时不用做特殊配置好,即能做到最优的读写性能;
  • 当使用 datax 写入到 mysql 和 oceanbase 时,如果使用其 专用写插件(MysqlWriter和oceanbasev10writer),此时底层使用到了特性 jdbc batched update, 所以性能比较好!
  • 当使用 datax 写入到 mysql 和 oceanbase 时,如果使用 datax 的 rdbms通用插件(RdbmsWriter),此时需要显示在 jdbc url 中指定参数 rewriteBatchedStatements=true, 才能使用到特性 jdbc batched update,才能做到较好的性能!
  • 640.png
相关文章
|
8月前
|
存储 关系型数据库 MySQL
【赵渝强老师】OceanBase数据库从零开始:MySQL模式
《OceanBase数据库从零开始:MySQL模式》是一门包含11章的课程,涵盖OceanBase分布式数据库的核心内容。从体系架构、安装部署到租户管理、用户安全,再到数据库对象操作、事务与锁机制,以及应用程序开发、备份恢复、数据迁移等方面进行详细讲解。此外,还涉及连接路由管理和监控诊断等高级主题,帮助学员全面掌握OceanBase数据库的使用与管理。
460 5
|
DataWorks API 数据库
DataWorks操作报错合集之在使用 OceanBase (OB) 作为数据源进行数据集成时遇到报错,该如何排查
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
存储 关系型数据库 MySQL
MySQL 字段类型深度解析:VARCHAR(50) 与 VARCHAR(500) 的差异
在MySQL数据库中,`VARCHAR`类型是一种非常灵活的字符串存储类型,它允许存储可变长度的字符串。然而,`VARCHAR(50)`和`VARCHAR(500)`之间的差异不仅仅是长度的不同,它们在存储效率、性能和使用场景上也有所不同。本文将深入探讨这两种字段类型的区别及其对数据库设计的影响。
535 2
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版产品使用问题之使用CTAS同步MySQL到Hologres时出现的时区差异,该如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
存储 SQL 关系型数据库
OceanBase与MySQL有何区别?
【8月更文挑战第12天】OceanBase与MySQL有何区别?
3899 3
|
SQL 关系型数据库 MySQL
SQL Server、MySQL、PostgreSQL:主流数据库SQL语法异同比较——深入探讨数据类型、分页查询、表创建与数据插入、函数和索引等关键语法差异,为跨数据库开发提供实用指导
【8月更文挑战第31天】SQL Server、MySQL和PostgreSQL是当今最流行的关系型数据库管理系统,均使用SQL作为查询语言,但在语法和功能实现上存在差异。本文将比较它们在数据类型、分页查询、创建和插入数据以及函数和索引等方面的异同,帮助开发者更好地理解和使用这些数据库。尽管它们共用SQL语言,但每个系统都有独特的语法规则,了解这些差异有助于提升开发效率和项目成功率。
1748 0
|
SQL 关系型数据库 MySQL
mysqldiff - Golang 针对 MySQL 数据库表结构的差异 SQL 工具
Golang 针对 MySQL 数据库表结构的差异 SQL 工具。https://github.com/camry/mysqldiff
301 7
|
存储 缓存 算法
OceanBase历史数据归档方案技术原理解读
OceanBase历史数据归档方案技术原理解读
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之数据源同步时,使用脚本模式采集mysql数据到odps中,使用querySql方式采集数据,在脚本中删除了Reader中的column,但是datax还是报错OriginalConfPretreatmentUtil - 您的配置有误。如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
NoSQL MongoDB 数据安全/隐私保护
实时计算 Flink版产品使用合集之与OceanBase进行数据同步时遇到用户名和密码失败的问题,该如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

推荐镜像

更多