Datax 环境搭建

简介: datax、环境搭建、数据同步

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。

环境搭建:

下载datax数据包

cd /opt/
wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

将下载好的压缩包解压

tar zxvf datax.tar.gz

删除隐藏文件

rm -rf /opt/datax/plugin/*/._*

不删除因为文件执行任务会报错

验证是否安装成功

cd /opt/datax/bin/
python datax.py ../job/job.json

问题:

底层采用select * 扫描全表方式,可能会对数据库产生较大影响,风险较高

示例脚本:oracle->hdfs

{
  "job": {
    "content": [
      {
        "reader": {
          "name": "oraclereader",
          "parameter": {
            "column": ["*"],
            "connection": [
              {
                "jdbcUrl": ["jdbc:oracle:thin:@//ip:port/database"],
                "table": ["table"]
              }
            ],
            "password": "password",
            "username": "username"
          }
        },
        "writer": {
          "name": "hdfswriter",
          "parameter": {
            "column": [
                "*"
                    ],
            "defaultFS": "hdfs://ip:port",
            "fieldDelimiter": " ",
            "fileName": "oracle.txt",
            "fileType": "text",
            "path": "path",
            "writeMode": "append"
          }
        }
      }
    ],
    "setting": {
      "speed": {
        "channel": "1"
      }
    }
  }
}


目录
相关文章
|
6月前
|
存储 NoSQL 关系型数据库
阿里DataX极简教程
【5月更文挑战第1天】DataX是一个高效的数据同步工具,用于在各种数据源之间迁移数据,如MySQL到另一个MySQL或MongoDB。它的工作流程包括read、write和setting步骤,通过Framework协调多线程处理。其核心架构包括Job、Task和TaskGroup,支持并发执行。DataX支持多种数据源,如RDBMS、阿里云数仓、NoSQL和无结构化数据存储。例如,从MySQL读取数据并同步到ClickHouse的实践操作包括下载DataX、配置任务文件和执行同步任务。
717 1
阿里DataX极简教程
|
6月前
|
消息中间件 SQL 分布式计算
DataX插件开发-KafkaWriter
DataX插件开发-KafkaWriter
206 0
|
6月前
|
Java Linux DataX
DataX入门指南:快速部署和安装指南
DataX入门指南:快速部署和安装指南
1704 2
DataX入门指南:快速部署和安装指南
|
6月前
|
关系型数据库 MySQL 分布式数据库
DataX下载安装
DataX下载安装
390 0
|
6月前
|
分布式计算 Hadoop 关系型数据库
Sqoop入门指南:安装和配置
Sqoop入门指南:安装和配置
|
12月前
|
Java DataX Maven
DataX教程(02)- IDEA运行DataX完整流程(填完所有的坑)
DataX教程(02)- IDEA运行DataX完整流程(填完所有的坑)
637 0
|
存储 安全 中间件
ClickHouse环境搭建
ClickHouse环境搭建
108 0
|
数据采集 Oracle 关系型数据库
Kettle入门(一)
Kettle入门(一)
417 0
Kettle入门(一)
|
Oracle 关系型数据库 大数据
|
SQL 分布式计算 资源调度
Sqoop1的安装配置及入门案例
Sqoop1的安装配置及入门案例
185 0
Sqoop1的安装配置及入门案例