数据同步工具DataX的安装

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,5000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 数据同步工具DataX的安装

0-介绍

DataX 是一个异构数据源离线同步工具,可以实现关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

1-安装环境

jdk

1.首先执行以下命令查看可安装的jdk版本:
yum -y list java*
2.选择自己需要的jdk版本进行安装,比如这里安装1.8,执行以下命令:
yum install -y java-1.8.0-openjdk-devel.x86_64
3.安装完成之后,查看安装的jdk版本,输入以下指令:
java -version

python

安装python
yum install -y python27
查看python版本号
python --version

2.datax安装

  • 将dataX.zip上传到服务器目录,命令unzip dataX.zip进行文件解压
  • mv dataX ../software/   ,将解压后的文件夹复制到某个目录下
  • 运行测试脚本,测试datax是否安装成功
[root@instance-co02m7eu package]# unzip dataX.zip 
[root@instance-co02m7eu package]# mv dataX ../software/
[root@instance-co02m7eu bin]# python datax.py  /root/software/dataX/job/job.json

3.安装datax-web

3.1解压安装包及还原库文件

#datax-web-2.1.2.zip上传到服务器后进行解压
[root@node-1 pacakge]# unzip datax-web-2.1.2.zip
#移动解压后的文件夹到挪个路径下
[root@node-1 pacakge]# mv datax-web-2.1.2/ ../software/
#文件夹赋予权限
[root@node-1 datax-web-2.1.2]# chmod -R 777 *
[root@instance-co02m7eu bin]# pwd
/root/software/datax-web-2.1.2/bin
# 执行安装命令,执行之前赋权限
[root@instance-co02m7eu bin]# ./install.sh

命令执行后,按y继续,然后输入数据库相关信息

.sql文件如果未成功导入,需要到文件夹下手工导入

image.png

手动导入库文件

[root@instance-co02m7eu db]# pwd
/root/software/datax-web-2.1.2/bin/db
进入mysql
注意:需要预先创建好dataxweb数据库
mysql> use dataxweb;
mysql> source datax_web.sql;

3.2修改配置文件

# 修改datax-web-2.1.2/modules/datax-admin/conf路径下的application.yml文件:
[root@instance-co02m7eu conf]# pwd
/root/software/datax-web-2.1.2/modules/datax-admin/conf
#修改为dataxweb库所在mysql的账号密码
[root@instance-co02m7eu conf]# vi application.yml    第一张图
#修改dataxweb库所在mysql数据库相关信息
[root@instance-co02m7eu conf]# vi bootstrap.properties  第二张图
#修改datax.py路径 ,datax-web-2.1.2/modules/datax-executor/bin下
[root@instance-co02m7eu bin]# pwd
/root/software/datax-web-2.1.2/modules/datax-executor/bin
[root@instance-co02m7eu bin]# vi env.properties           第三张图

image.png

4.启动服务和访问

  • 进入datax-web-2.1.2/bin目录下,./start-all.sh
[root@instance-co02m7eu bin]# ./start-all.sh
# 执行完后输入jps回车,出现以上两个服务证明datax-web已经启动
[root@lx01 bin]# jps
4741 DataXExecutorApplication
4478 DataXAdminApplication
4783 Jps
  • 部署完成后,在浏览器中输入 http://服务器IP:9527/index.html 就可以访问对应的主界面(ip为datax-admin部署所在服务器ip,port为为datax-admin 指定的运行端口,默认端口号为9527)
  • 输入用户名 admin 密码 123456 就可以直接访问系统


相关文章
|
1天前
|
JSON 分布式计算 DataX
【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute
本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。
|
6月前
|
canal 消息中间件 关系型数据库
Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
【9月更文挑战第1天】Canal作为一款高效、可靠的数据同步工具,凭借其基于MySQL binlog的增量同步机制,在数据同步领域展现了强大的应用价值
1156 4
|
7月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute 生态系统中的数据集成工具
【8月更文第31天】在大数据时代,数据集成对于构建高效的数据处理流水线至关重要。阿里云的 MaxCompute 是一个用于处理大规模数据集的服务平台,它提供了强大的计算能力和丰富的生态系统工具来帮助用户管理和处理数据。本文将详细介绍如何使用 DataWorks 这样的工具将 MaxCompute 整合到整个数据处理流程中,以便更有效地管理数据生命周期。
236 0
|
7月前
|
运维 监控 Unix
运维必看,Linux 远程数据同步工具详解。
运维必看,Linux 远程数据同步工具详解。
|
7月前
|
关系型数据库 MySQL 大数据
DataX:数据同步的超音速英雄!阿里开源工具带你飞越数据传输的银河系,告别等待和故障的恐惧!快来见证这一数据工程的奇迹!
【8月更文挑战第13天】DataX是由阿里巴巴开源的一款专为大规模数据同步设计的工具,在数据工程领域展现强大竞争力。它采用插件化架构,支持多种数据源间的高效迁移。相较于Apache Sqoop和Flume,DataX通过并发写入和流处理实现了高性能同步,并简化了配置流程。DataX还支持故障恢复,能够在同步中断后继续执行,节省时间和资源。这些特性使其成为构建高效可靠数据同步方案的理想选择。
525 2
|
7月前
|
Java 关系型数据库 DataX
DATAX数据同步
DATAX数据同步
802 0
|
8月前
|
分布式计算 关系型数据库 MySQL
MySQL超时参数优化与DataX高效数据同步实践
通过合理设置MySQL的超时参数,可以有效地提升数据库的稳定性和性能。而DataX作为一种高效的数据同步工具,可以帮助企业轻松实现不同数据源之间的数据迁移。无论是优化MySQL参数还是使用DataX进行数据同步,都需要根据具体的应用场景来进行细致的配置和测试,以达到最佳效果。
|
7月前
|
SQL DataWorks 关系型数据库
DataWorks操作报错合集之如何处理数据同步时(mysql->hive)报:Render instance failed
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
126 0
|
5月前
|
监控 关系型数据库 MySQL
深入了解MySQL主从复制:构建高效稳定的数据同步架构
深入了解MySQL主从复制:构建高效稳定的数据同步架构
206 1
|
7月前
|
关系型数据库 MySQL 数据库
【MySQL】手把手教你MySQL数据同步
【MySQL】手把手教你MySQL数据同步