DataX教程(05)- DataX Web项目实践

简介: DataX教程(05)- DataX Web项目实践

01 引言

通过前面的博文,我们大概把DataX的用法、源码以及配置全部理清了:

那么,我们最终还是要把DataX应用到我们的项目中的,那么该如何使用呢?

在这里,我要推荐下DataX-Web,主要它对于项目使用者来说,提供了一个很清晰的swagger接口文档,以及可视化界面,方便理解流程,本文讲解下。

02 DataX Web概述

Github地址:https://github.com/WeiYe-Jing/datax-web

从下图,可以看到还是挺多星星的。

官方是这样描述的DataX Web的:

DataX Web是在DataX之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用DataX的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,支持RDBMSHiveHBaseClickHouseMongoDB等数据源,RDBMS数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发xxl-job可根据时间、自增主键增量同步数据。

顺便看看它的架构图:

总结:该项目主要的就是两个核心服务,通过调度中心服务(DataXAdminApplication)来构建任务,然后rpc远程调用调用执行器(DataXExcutor)去执行。

03 DataX Web本地运行

具体的操作步骤本文不再描述,按照官方的文档来一步步操作即可,文档地址:

https://github.com/WeiYe-Jing/datax-web/blob/master/userGuid.md

其实主要分为几个步骤:

  1. 编译DataX源码,并导出编译后的文件夹,前面已经讲过了(可以参考:《DataX教程(02)- IDEA运行DataX完整流程(填完所有的坑)》
  2. 执行bin/db下面的datax_web.sql文件
  3. 修改项目配置,有两个,一是datax_adminresources/application.yml文件,另外一个是datax_executorresources/application.yml文件。

然后需要运行两个服务,分别为:

  • DataXAdminApplication调度中心服务
    -DataXExecutorApplication执行器服务,可做集群

04 DataX Web简单使用

启动成功后打开页面(默认管理员用户名:admin 密码:123456) http://localhost:8080/index.html#/dashboard

ok,现在我想把本地MySQL数据库(bm_wxcp)里表(t_sync_log)的所有内容同步到本地SQLServer数据库(datax_web)里的表(t_sync_log_target),该如何操作呢?下面来说说。

4.1 step1: 新增数据源

首先需要新增本地的MySQL和SQLServer数据源:

新增完成后:

4.2 step2: 新增任务模板

新增DataX任务模板,我这里新增了一个每30秒执行一次的任务:

新增完成:

4.3 step3: 任务构建

新增完任务了,那么现在就到了核心的事情了,就是任务的构建,即可以简单理解为配置DataX能识别的json配置。

从下图可以看到有4个步骤来构建任务,按照提示一步一步来:

①构建reader:

②构建writer:

③ 字段映射:

④ 构建任务(构建->选择模板->下一步)

⑤ 启动任务

4.4 step4: 查看任务

启动完成后,在日志管理模块,可以看到任务的执行结果:

在SQLServer目标源,可以看到同步成功结果:

05 文末

本文主要讲了DataX Web的概念以及基本使用,具体的源码需要去Debug并应用到实际的项目中去,本文完!

目录
相关文章
|
2月前
|
机器学习/深度学习 人工智能 前端开发
机器学习PAI常见问题之web ui 项目启动后页面打不开如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
6天前
|
开发框架 前端开发 数据库
Python从入门到精通:3.3.2 深入学习Python库和框架:Web开发框架的探索与实践
Python从入门到精通:3.3.2 深入学习Python库和框架:Web开发框架的探索与实践
|
2月前
|
前端开发 JavaScript 数据管理
描述一个使用Python开发Web应用程序的实际项目经验,包括所使用的框架和技术栈。
使用Flask开发Web应用,结合SQLite、Flask-SQLAlchemy进行数据管理,HTML/CSS/JS(Bootstrap和jQuery)构建前端。通过Flask路由处理用户请求,模块化代码提高可维护性。unittest进行测试,开发阶段用内置服务器,生产环境可选WSGI服务器或容器化部署。实现了用户注册登录和数据管理功能,展示Python Web开发的灵活性和效率。
15 4
|
2月前
|
机器学习/深度学习 前端开发 算法
利用机器学习优化Web前端性能的探索与实践
本文将介绍如何利用机器学习技术来优化Web前端性能,探讨机器学习在前端开发中的应用,以及通过实际案例展示机器学习算法对前端性能优化的效果。通过结合前端技术和机器学习,提升Web应用的用户体验和性能表现。
|
2月前
|
API
2024常用Web支付开发讲解教程
本教程为web支付开发,讲解了最常用的两钟支付:支付宝支付和微信支付,服务器配置和API对接,学完本课程可以学会微信支付、和支付宝支付开发。
18 2
2024常用Web支付开发讲解教程
|
2月前
|
架构师 前端开发
web全栈架构师第16期教程
互联网时代已进入后半场,行业环境发生了显著变化。互联网人,尤其是技术人员,如何在加速更迭的技术浪潮中持续充电,提升自身价值,是当下必须面对的挑战。课程涉及了现下前端实际开发时所需要的各块内容,并深度对标 阿里 P6+级别所具备的知识储备及开发技能,奠定源码阅读基础和全栈开发能力。
19 3
web全栈架构师第16期教程
|
2月前
|
运维 JavaScript 前端开发
发现了一款宝藏学习项目,包含了Web全栈的知识体系,JS、Vue、React知识就靠它了!
发现了一款宝藏学习项目,包含了Web全栈的知识体系,JS、Vue、React知识就靠它了!
|
2月前
|
缓存 移动开发 监控
Star 1.3K!推荐一款可以远程调试任意Web项目的开源工具!
Star 1.3K!推荐一款可以远程调试任意Web项目的开源工具!
|
2月前
|
监控 前端开发 JavaScript
构建高性能Web应用:前端性能优化的关键策略与实践
本文将深入探讨前端性能优化的关键策略与实践,从资源加载、渲染优化、代码压缩等多个方面提供实用的优化建议。通过对前端性能优化的深入剖析,帮助开发者全面提升Web应用的用户体验和性能表现。
|
2月前
|
Java Maven Android开发
JAVA Web项目开发创建Web项目(第一天)
JAVA Web项目开发创建Web项目(第一天)