【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute

简介: 本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。

本文内容来自YashanDB官网,原文内容请见https://www.yashandb.com/newsinfo/7773554.html?templateId=1718516

注意:迁移需要使用崖山适配过的DataX工具包,下载链接:DataX: 阿里云DataWorks数据集成的开源版本

DataX单表迁移

使用DataX工具主要是配置好对应的json文件,使DataX工具可以根据json文件进行对应数据库表的迁移操作

json文件配置模板如下:template.json

配置完成后,执行下面命令即可执行DataX的同步操作(路径根据实际情况修改)

python bin/datax.py test_json/test.json

DataX批量表迁移(以迁移一个用户下所有表为例)

1、根据实际情况填写json模板文件与源库目标库相关的连接信息,并放在下面脚本工具同一个目录下:

2、获取需要同步的表清单table.list

sql命令:select table_name from dba_tables where owner='*'; (*填写实际情况下崖山数据库的用户名)

将输出导出到一个table.list文件中,每行记录一个表名

3、针对各个表生成对应的json配置文件(脚本中的[schema]根据实际情况更改为崖山数据库的用户名)

使用yas_dataxmove_auto_create_json.sh工具,为每张表生成对应的json文件

shell命令:./yas_dataxmove_auto_create_json.sh table.list username/password@ip:port

运行结果:运行结束后会在当前目录生成一个json目录,里面包含了table.list所有以表名命名的json配置文件

4、执行数据迁移操作(脚本中的[schema]根据实际情况更改为崖山数据库的用户名,注意根据实际情况对齐脚本工具中的路径)

使用yas_dataxmove_exists_json.sh工具,根据上一步骤生成的json文件用dataX执行迁移操作

shell命令:./yas_dataxmove_exists_json.sh table.list username/password@ip:port

运行结果:运行结束后会在当前目录下生成log目录,里面包含table.list所有以表名命名的.log迁移日志文件,以及有_temp.log后缀的临时视图创建及删除结果的日志文件。

5、简单的数据比对(脚本中的[schema]根据实际情况更改为崖山数据库的用户名,需要安装maxcompute客户端并可以连接上maxcompute)

运行check_out.sh脚本,比对源库与目标库数据每张表的行数是否⼀致。

shell命令:./check_out.sh table.list username/password/@ip:port [maxcompute的bin目录路径]

运行结果:如果目标库与源库表行数一致,则输出:Proofread successfully;若有表行数比对不一致则输出Proofread fail,并分别输出源库和目标库对应表的行数

相关文章
|
4月前
|
机器学习/深度学习 SQL 大数据
什么是数据集成?和数据融合有什么区别?
在大数据领域,“数据集成”与“数据融合”常被混淆。数据集成关注数据的物理集中,解决“数据从哪来”的问题;数据融合则侧重逻辑协同,解决“数据怎么用”的问题。两者相辅相成,集成是基础,融合是价值提升的关键。理解其差异,有助于企业释放数据潜力,避免“数据堆积”或“盲目融合”的误区,实现数据从成本到生产力的转变。
什么是数据集成?和数据融合有什么区别?
|
8月前
|
SQL 测试技术 数据库
【YashanDB知识库】IMP跨网络导入慢问题
问题现象:290M数据,本地导入2分钟,跨机导入耗时显著增加(最高30分钟)。 原因分析:`imp`逐条SQL通过网络传输至yashanDB执行,交互频繁导致性能下降。 影响版本:客户测试环境22.2.8.3。 解决方法:将导入文件上传至与yashanDB同机后使用`imp`,减少网络延迟。 经验总结:优化`imp`工具,支持直接上传文件至服务器端执行,降低网络依赖。
|
8月前
|
监控 数据库
【YashanDB 知识库】ycm 托管数据库时报错 OM host ip:127.0.0.1 is not support join to YCM
在托管数据库时,若 OM 的 IP 被设置为 127.0.0.1,将导致无法托管至 YCM,并使数据库失去监控。此问题源于安装时修改了 OM 的监听 IP。解决方法包括:将 OM 的 IP 修改为本机实际 IP 或 0.0.0.0,同时更新 env 文件及 yasom 后台数据库中的相关配置。经验总结指出,应避免非必要的后台 IP 修改,且数据库安装需遵循规范,不使用仅限本机访问的 IP(如 127.0.0.1)。
|
8月前
|
监控 网络安全 数据库
YashanDB 知识库:ycm 纳管主机安装 YCM-AGENT 时报错 “任务提交失败,无法连接主机”
在安装 ycm-agent 纳管主机时,可能出现因端口未开放导致的报错问题。此问题会阻止 YCM 对主机和数据库的监控功能,影响版本为 `yashandb-cloud-manager-23.2.1.100-linux-aarch64.tar`。原因是目标主机(如 10.149.223.121)未开放 9070 或 9071 端口。解决方法包括关闭防火墙、添加白名单或开放指定端口,需与管理员确认操作。处理过程涉及网络检查、端口测试等步骤。端口问题解决后,若再次安装报唯一键错误,需先移除失败主机再重试。
|
8月前
|
监控 Java Shell
【YashanDB 知识库】ycm 托管数据库时,数据库非 OM 安装无法托管
本文主要介绍了因数据库未按规范使用 yasboot 安装导致的问题及解决方法。问题表现为无 yasom 和 yasagent 进程,且目录结构缺失,致使 ycm 无法托管与监控。分析发现可能是数据库版本旧或安装不规范引起。解决方法为先生成配置文件,安装 yasom 和 yasagent,再生成并修改托管配置模板,最终通过命令完成托管至 yasom 和 ycm。总结强调了按规范安装数据库的重要性以避免类似问题。
|
9月前
|
SQL 关系型数据库 MySQL
【YashanDB知识库】MySQL field 函数的改写方法
【YashanDB知识库】MySQL field 函数的改写方法
|
9月前
|
数据库
【YashanDB知识库】服务器重启后启动yasom和yasagent进程时有告警
【YashanDB知识库】服务器重启后启动yasom和yasagent进程时有告警
|
3月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
323 14
|
5月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
215 4
|
4月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
186 0