【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute

简介: 本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。

本文内容来自YashanDB官网,原文内容请见https://www.yashandb.com/newsinfo/7773554.html?templateId=1718516

注意:迁移需要使用崖山适配过的DataX工具包,下载链接:DataX: 阿里云DataWorks数据集成的开源版本

DataX单表迁移

使用DataX工具主要是配置好对应的json文件,使DataX工具可以根据json文件进行对应数据库表的迁移操作

json文件配置模板如下:template.json

配置完成后,执行下面命令即可执行DataX的同步操作(路径根据实际情况修改)

python bin/datax.py test_json/test.json

DataX批量表迁移(以迁移一个用户下所有表为例)

1、根据实际情况填写json模板文件与源库目标库相关的连接信息,并放在下面脚本工具同一个目录下:

2、获取需要同步的表清单table.list

sql命令:select table_name from dba_tables where owner='*'; (*填写实际情况下崖山数据库的用户名)

将输出导出到一个table.list文件中,每行记录一个表名

3、针对各个表生成对应的json配置文件(脚本中的[schema]根据实际情况更改为崖山数据库的用户名)

使用yas_dataxmove_auto_create_json.sh工具,为每张表生成对应的json文件

shell命令:./yas_dataxmove_auto_create_json.sh table.list username/password@ip:port

运行结果:运行结束后会在当前目录生成一个json目录,里面包含了table.list所有以表名命名的json配置文件

4、执行数据迁移操作(脚本中的[schema]根据实际情况更改为崖山数据库的用户名,注意根据实际情况对齐脚本工具中的路径)

使用yas_dataxmove_exists_json.sh工具,根据上一步骤生成的json文件用dataX执行迁移操作

shell命令:./yas_dataxmove_exists_json.sh table.list username/password@ip:port

运行结果:运行结束后会在当前目录下生成log目录,里面包含table.list所有以表名命名的.log迁移日志文件,以及有_temp.log后缀的临时视图创建及删除结果的日志文件。

5、简单的数据比对(脚本中的[schema]根据实际情况更改为崖山数据库的用户名,需要安装maxcompute客户端并可以连接上maxcompute)

运行check_out.sh脚本,比对源库与目标库数据每张表的行数是否⼀致。

shell命令:./check_out.sh table.list username/password/@ip:port [maxcompute的bin目录路径]

运行结果:如果目标库与源库表行数一致,则输出:Proofread successfully;若有表行数比对不一致则输出Proofread fail,并分别输出源库和目标库对应表的行数

相关文章
|
6月前
|
SQL 缓存 分布式计算
【跨国数仓迁移最佳实践5】MaxCompute近线查询解决方案助力物流电商等实时场景实现高效查询
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第5篇,解析跨国数仓迁移背后的性能优化技术。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
304 8
|
7月前
|
SQL 分布式计算 运维
【跨国数仓迁移最佳实践3】资源消耗减少50%!解析跨国数仓迁移至MaxCompute背后的性能优化技术
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第3篇,解析跨国数仓迁移背后的性能优化技术。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
362 0
|
7月前
|
机器学习/深度学习 SQL 大数据
什么是数据集成?和数据融合有什么区别?
在大数据领域,“数据集成”与“数据融合”常被混淆。数据集成关注数据的物理集中,解决“数据从哪来”的问题;数据融合则侧重逻辑协同,解决“数据怎么用”的问题。两者相辅相成,集成是基础,融合是价值提升的关键。理解其差异,有助于企业释放数据潜力,避免“数据堆积”或“盲目融合”的误区,实现数据从成本到生产力的转变。
什么是数据集成?和数据融合有什么区别?
|
8月前
|
SQL 人工智能 分布式计算
拥抱数据洪流:ODPS,从工具到智能基石的认知跃迁
ODPS正从计算工具进化为智能基石,重塑数据价值链条。它不仅是效率引擎,更是决策资产、信任桥梁与预见系统。其创新架构支持存算分离、AI融合计算与隐私保护,助力企业迎接AI革命。未来,ODPS将推动绿色智能,成为组织数字化转型的核心支撑平台。
231 3
|
10月前
|
人工智能 算法 自动驾驶
AI和大数据:是工具,还是操控人心的“隐形之手”?
AI和大数据:是工具,还是操控人心的“隐形之手”?
224 1
|
11月前
|
SQL 测试技术 数据库
【YashanDB知识库】IMP跨网络导入慢问题
问题现象:290M数据,本地导入2分钟,跨机导入耗时显著增加(最高30分钟)。 原因分析:`imp`逐条SQL通过网络传输至yashanDB执行,交互频繁导致性能下降。 影响版本:客户测试环境22.2.8.3。 解决方法:将导入文件上传至与yashanDB同机后使用`imp`,减少网络延迟。 经验总结:优化`imp`工具,支持直接上传文件至服务器端执行,降低网络依赖。
|
11月前
|
监控 数据库
【YashanDB 知识库】ycm 托管数据库时报错 OM host ip:127.0.0.1 is not support join to YCM
在托管数据库时,若 OM 的 IP 被设置为 127.0.0.1,将导致无法托管至 YCM,并使数据库失去监控。此问题源于安装时修改了 OM 的监听 IP。解决方法包括:将 OM 的 IP 修改为本机实际 IP 或 0.0.0.0,同时更新 env 文件及 yasom 后台数据库中的相关配置。经验总结指出,应避免非必要的后台 IP 修改,且数据库安装需遵循规范,不使用仅限本机访问的 IP(如 127.0.0.1)。
|
11月前
|
监控 网络安全 数据库
YashanDB 知识库:ycm 纳管主机安装 YCM-AGENT 时报错 “任务提交失败,无法连接主机”
在安装 ycm-agent 纳管主机时,可能出现因端口未开放导致的报错问题。此问题会阻止 YCM 对主机和数据库的监控功能,影响版本为 `yashandb-cloud-manager-23.2.1.100-linux-aarch64.tar`。原因是目标主机(如 10.149.223.121)未开放 9070 或 9071 端口。解决方法包括关闭防火墙、添加白名单或开放指定端口,需与管理员确认操作。处理过程涉及网络检查、端口测试等步骤。端口问题解决后,若再次安装报唯一键错误,需先移除失败主机再重试。

热门文章

最新文章