【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。

本文内容来自YashanDB官网,原文内容请见https://www.yashandb.com/newsinfo/7773554.html?templateId=1718516

注意:迁移需要使用崖山适配过的DataX工具包,下载链接:DataX: 阿里云DataWorks数据集成的开源版本

DataX单表迁移

使用DataX工具主要是配置好对应的json文件,使DataX工具可以根据json文件进行对应数据库表的迁移操作

json文件配置模板如下:template.json

配置完成后,执行下面命令即可执行DataX的同步操作(路径根据实际情况修改)

python bin/datax.py test_json/test.json

DataX批量表迁移(以迁移一个用户下所有表为例)

1、根据实际情况填写json模板文件与源库目标库相关的连接信息,并放在下面脚本工具同一个目录下:

2、获取需要同步的表清单table.list

sql命令:select table_name from dba_tables where owner='*'; (*填写实际情况下崖山数据库的用户名)

将输出导出到一个table.list文件中,每行记录一个表名

3、针对各个表生成对应的json配置文件(脚本中的[schema]根据实际情况更改为崖山数据库的用户名)

使用yas_dataxmove_auto_create_json.sh工具,为每张表生成对应的json文件

shell命令:./yas_dataxmove_auto_create_json.sh table.list username/password@ip:port

运行结果:运行结束后会在当前目录生成一个json目录,里面包含了table.list所有以表名命名的json配置文件

4、执行数据迁移操作(脚本中的[schema]根据实际情况更改为崖山数据库的用户名,注意根据实际情况对齐脚本工具中的路径)

使用yas_dataxmove_exists_json.sh工具,根据上一步骤生成的json文件用dataX执行迁移操作

shell命令:./yas_dataxmove_exists_json.sh table.list username/password@ip:port

运行结果:运行结束后会在当前目录下生成log目录,里面包含table.list所有以表名命名的.log迁移日志文件,以及有_temp.log后缀的临时视图创建及删除结果的日志文件。

5、简单的数据比对(脚本中的[schema]根据实际情况更改为崖山数据库的用户名,需要安装maxcompute客户端并可以连接上maxcompute)

运行check_out.sh脚本,比对源库与目标库数据每张表的行数是否⼀致。

shell命令:./check_out.sh table.list username/password/@ip:port [maxcompute的bin目录路径]

运行结果:如果目标库与源库表行数一致,则输出:Proofread successfully;若有表行数比对不一致则输出Proofread fail,并分别输出源库和目标库对应表的行数

相关文章
|
23天前
|
关系型数据库 Java 数据库连接
【YashanDB知识库】Kettle迁移PostgreSQL到YashanDB
本文介绍了在Windows环境下使用开源工具Kettle将PostgreSQL数据迁移到YashanDB的方法,适用于YMP不支持PostgreSQL的场景。环境配置包括Kettle 8.3、JAVA 1.8、PostgreSQL 12和YashanDB 23.2.1.100。通过设置JAVA环境变量、解压作业包、启动Kettle图形界面,配置数据库连接(PostgreSQLInput与YashanOutput)以及修改表清单文件等步骤,最终执行总任务完成数据迁移。若迁移失败,可通过日志定位问题并重试,目标表会在每次同步前被truncate以避免数据冲突。
【YashanDB知识库】Kettle迁移PostgreSQL到YashanDB
|
23天前
|
SQL DataX HIVE
【YashanDB知识库】DataX迁移Hive到崖山分布式
本文来自YashanDB官网,介绍通过DataX将Hive数据迁移到YashanDB的实现方法。源环境为Hive 3.1.3,目标为YashanDB 23.2.3.100。文章提供了Hive与YashanDB的建表脚本、数据类型映射及DataX配置示例,包含reader和writer插件参数设置,并通过`datax.py`执行同步任务。内容详尽展示了数据迁移的全流程。
【YashanDB知识库】DataX迁移Hive到崖山分布式
|
21天前
|
SQL 关系型数据库 PostgreSQL
【YashanDB 知识库】从 PostgreSQL 迁移到 YashanDB 如何进行数据行数比对
【YashanDB 知识库】从 PostgreSQL 迁移到 YashanDB 如何进行数据行数比对
|
23天前
|
SQL Oracle 关系型数据库
【YashanDB知识库】从PostgreSQL迁移到YashanDB如何进行数据行数比对
本文介绍了通过Oracle视图`v$sql`和`v$sql_plan`分析SQL性能的方法。首先,可通过`plan_hash_value`从`v$sql_plan`获取SQL执行计划,结合示例展示了具体查询方式。文章还创建了一个UDF函数`REPEAT`用于格式化输出,便于阅读复杂执行计划。最后,通过实例展示了如何根据`plan_hash_value`获取SQL文本及其内存中的执行计划,帮助优化性能问题。
|
1月前
|
SQL 分布式计算 数据挖掘
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
川航选择引入 SelectDB 建设湖仓一体大数据分析引擎,取得了数据导入效率提升 3-6 倍,查询分析性能提升 10-18 倍、实时性提升至 5 秒内等收益。
从湖仓分离到湖仓一体,四川航空基于 SelectDB 的多源数据联邦分析实践
|
3月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
301 92
|
5月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
1362 7
|
5月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
169 2
|
29天前
|
传感器 机器学习/深度学习 人工智能
数据让农业更聪明——用大数据激活田间地头
数据让农业更聪明——用大数据激活田间地头
48 2
|
2月前
|
人工智能 算法 大数据
数据的“潘多拉魔盒”:大数据伦理的深度思考
数据的“潘多拉魔盒”:大数据伦理的深度思考
129 25

热门文章

最新文章