datax:总结

简介: datax:总结

一、写在前面
从接触datax到现在已经有一段时间,期间经历了以下几个阶段

1、能够把datax使用起来:能够利用脚本将datax调用起来,并用于生产环境
2、根据datax实现自己的插件:根据业务需求,实现自己的插件,如kafka、es等
3、按照需求更新相关模块&修复相关bug:将datax最终的统计信息落入DB用于数据分析&修复hdfs reader读orc丢数据的bug等
4、基于datax实现自己的传输工具:完全抛弃datax,实现自己分布式工具

二、对于datax的总结主要分为以下几个部分

1、如何使用datax
2、如何根据datax实现自己的插件
3、datax源码阅读
  1)代码主流程
  2)job切分
  3)task执行

三、相关问题

目录
相关文章
|
SQL 分布式计算 Oracle
数据同步工具DataX的安装
数据同步工具DataX的安装
2481 0
|
数据采集 SQL 分布式计算
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
2223 0
|
SQL 数据可视化 关系型数据库
DataX教程(05)- DataX Web项目实践
DataX教程(05)- DataX Web项目实践
4803 0
DataX教程(05)- DataX Web项目实践
|
SQL 存储 关系型数据库
DataX - 全量数据同步工具(2)
DataX - 全量数据同步工具
|
Java 关系型数据库 DataX
DATAX数据同步
DATAX数据同步
2592 0
|
监控 数据挖掘 大数据
阿里云开源利器:DataX3.0——高效稳定的离线数据同步解决方案
对于需要集成多个数据源进行大数据分析的场景,DataX3.0同样提供了有力的支持。企业可以使用DataX将多个数据源的数据集成到一个统一的数据存储系统中,以便进行后续的数据分析和挖掘工作。这种集成能力有助于提升数据分析的效率和准确性,为企业决策提供有力支持。
|
SQL 分布式计算 Oracle
Datax 环境搭建
datax、环境搭建、数据同步
488 1
|
SQL Oracle 关系型数据库
Flink SQL 问题之看不到数据如何解决
Flink SQL报错通常指在使用Apache Flink的SQL接口执行数据处理任务时遇到的问题;本合集将收集常见的Flink SQL报错情况及其解决方法,帮助用户迅速恢复数据处理流程。
568 3
|
存储 监控 关系型数据库
DataX 概述、部署、数据同步运用示例
DataX是阿里巴巴开源的离线数据同步工具,支持多种数据源之间的高效传输。其特点是多数据源支持、可扩展性、灵活配置、高效传输、任务调度监控和活跃的开源社区支持。DataX通过Reader和Writer插件实现数据源的读取和写入,采用Framework+plugin架构。部署简单,解压即可用。示例展示了如何配置DataX同步MySQL到HDFS,并提供了速度和内存优化建议。此外,还解决了NULL值同步问题及配置文件变量传参的方法。
8283 5
|
关系型数据库 MySQL 分布式数据库
DataX下载安装
DataX下载安装
1775 0

热门文章

最新文章