Datax 环境搭建

简介: datax、环境搭建、数据同步

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。

环境搭建:

下载datax数据包

cd /opt/
wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

将下载好的压缩包解压

tar zxvf datax.tar.gz

删除隐藏文件

rm -rf /opt/datax/plugin/*/._*

不删除因为文件执行任务会报错

验证是否安装成功

cd /opt/datax/bin/
python datax.py ../job/job.json

问题:

底层采用select * 扫描全表方式,可能会对数据库产生较大影响,风险较高

示例脚本:oracle->hdfs

{
  "job": {
    "content": [
      {
        "reader": {
          "name": "oraclereader",
          "parameter": {
            "column": ["*"],
            "connection": [
              {
                "jdbcUrl": ["jdbc:oracle:thin:@//ip:port/database"],
                "table": ["table"]
              }
            ],
            "password": "password",
            "username": "username"
          }
        },
        "writer": {
          "name": "hdfswriter",
          "parameter": {
            "column": [
                "*"
                    ],
            "defaultFS": "hdfs://ip:port",
            "fieldDelimiter": " ",
            "fileName": "oracle.txt",
            "fileType": "text",
            "path": "path",
            "writeMode": "append"
          }
        }
      }
    ],
    "setting": {
      "speed": {
        "channel": "1"
      }
    }
  }
}


目录
相关文章
|
存储 关系型数据库 MySQL
DataX: 阿里开源的又一款高效数据同步工具
DataX 是由阿里巴巴集团开源的一款大数据同步工具,旨在解决不同数据存储之间的数据迁移、同步和实时交换的问题。它支持多种数据源和数据存储系统,包括关系型数据库、NoSQL 数据库、Hadoop 等。 DataX 提供了丰富的数据读写插件,可以轻松地将数据从一个数据源抽取出来,并将其加载到另一个数据存储中。它还提供了灵活的配置选项和高度可扩展的架构,以适应各种复杂的数据同步需求。
|
SQL 数据可视化 关系型数据库
DataX教程(05)- DataX Web项目实践
DataX教程(05)- DataX Web项目实践
5422 0
DataX教程(05)- DataX Web项目实践
|
SQL 分布式计算 Oracle
数据同步工具DataX的安装
数据同步工具DataX的安装
4577 0
|
JSON 关系型数据库 MySQL
Windows本地安装dataX教程及读写demo
DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。
3982 0
Windows本地安装dataX教程及读写demo
|
数据采集 SQL 分布式计算
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
3098 0
|
安全 Java 数据库连接
基于dataX实现多种数据源数据汇聚(二)
上一篇文章提到在数据中台项目实践过程中,基于dataX实现数据汇聚的一些使用心得,在众多项目中,发现一个趋势,国产数据库的发展趋势,越来越多的企业要求国产化保障核心资产的安全。本章节主要介绍国产数据的安装、连接、与归集的知识。涉及场景的国产数据库如下: 1、达梦 2、人大金仓(后续补充) 3、南大通用(后续补充)
2988 0
基于dataX实现多种数据源数据汇聚(二)
|
SQL 存储 关系型数据库
DataX - 全量数据同步工具(2)
DataX - 全量数据同步工具