datax
datax 需要python2.+ 版本,一般centos自带。
如果是python3,会造成报错
1、进入目录,下载datax
cd /opt/software wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
2、解压
tar -zxvf datax.tar.gz -C /opt/module
3、设置
vim /opt/module/datax/conf/core.json
将第28行改为 2000000,表示单个channel的大小改为2MB:
4、测试
cd /opt/module/datax bin/datax.py job/job.json
但是会报错
2022-08-01 15:07:26.051 [main] WARN ConfigParser - 插件[streamreader,streamwriter]加载失败,1s后重试... Exception:Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,您提供的配置文件[/opt/module/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件. 2022-08-01 15:07:27.064 [main] ERROR Engine - 经DataX智能分析,该任务最可能的错误原因是: com.alibaba.datax.common.exception.DataXException: Code:[Common-00], Describe:[您提供的配置文件存在错误信息,请检查您的作业配置 .] - 配置信息错误,您提供的配置文件[/opt/module/datax/plugin/reader/._drdsreader/plugin.json]不存在. 请检查您的配置文件. at com.alibaba.datax.common.exception.DataXException.asDataXException(DataXException.java:26) at com.alibaba.datax.common.util.Configuration.from(Configuration.java:95) at com.alibaba.datax.core.util.ConfigParser.parseOnePluginConfig(ConfigParser.java:153) at com.alibaba.datax.core.util.ConfigParser.parsePluginConfig(ConfigParser.java:125) at com.alibaba.datax.core.util.ConfigParser.parse(ConfigParser.java:63) at com.alibaba.datax.core.Engine.entry(Engine.java:137) at com.alibaba.datax.core.Engine.main(Engine.java:204)
怎么处理呢,执行以下命令
cd /opt/module/datax/plugin/reader rm -rf ./._* cd /opt/module/datax/plugin/writer rm -rf ./._*
再次启动
cd /opt/module/datax bin/datax.py job/job.json
看到以下界面 代表执行成功
datax连接mysql8
默认的datax连接mysql驱动为5,所以当需要连接mysql8的时候会报错
可以通过下载源码,修改mysql驱动包版本
可以参考:https://blog.csdn.net/Carson073/article/details/126037927
源码下载地址:https://github.com/alibaba/DataX
当然在源码编译过程中会出现各种少包情况,需要自行百度手动下载,也可以联系我提供jar包
最省事的就是使用现成编译好的mysql包,替换即可
链接: https://pan.baidu.com/s/1Uj15QriC9rilySKNUkEguw 提取码: q6uc
下载下来之后,删除原本的插件,然后解压到对应目录就可以了
datax-web
源码地址:https://github.com/WeiYe-Jing/datax-web
https://github.com/WeiYe-Jing/datax-web/blob/master/doc/datax-web/datax-web-deploy.md
下载完成后进行解压
tar -zxvf datax-web-2.1.2.tar.gz -C /opt/module
进入解压后的目录,找到bin目录下面的install.sh文件,如果选择交互式的安装,则直接执行
./bin/install.sh
前面选yes,根据提示录入数据库信息,自动初始化数据库脚本
配置datax-web
在项目目录下/modules/datax-execute/bin/env.properties 指定PYTHON_PATH的路径
# 进入到安装目录 cd /opt/module/datax/data-web-2.1.2 # 编辑配置 vim modules/datax-executor/bin/env.properties ### 执行datax的python脚本地址 PYTHON_PATH=/opt/datax/datax/bin/datax.py
启动服务
cd /opt/module/datax/data-web-2.1.2 ./bin/start-all.sh
访问(换成自己的ip地址) http://q1:9527/index.html
账号admin 密码123456
运行日志
部署完成之后,在modules/对应的项目/data/applogs下(用户也可以自己指定日志,修改application.yml中的logpath地址即可),用户可以根据此日志跟踪项目实际启动情况。
如果执行器启动比admin快,执行器会连接失败,日志报"拒绝连接"的错误,一般是先启动admin,再启动executor,30秒之后会重连,如果成功请忽略这个异常。