DataWorks搬站方案:Azkaban作业迁移至DataWorks

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: DataWorks迁移助手提供任务搬站功能,支持将开源调度引擎Oozie、Azkaban、Airflow的任务快速迁移至DataWorks。本文主要介绍如何将开源Azkaban工作流调度引擎中的作业迁移至DataWorks上。

DataWorks迁移助手提供任务搬站功能,支持将开源调度引擎Oozie、Azkaban、Airflow的任务快速迁移至DataWorks。本文主要介绍如何将开源Azkaban工作流调度引擎中的作业迁移至DataWorks上。


支持迁移的Azkaban版本

支持全部版本的Azkaban迁移。


整体迁移流程

迁移助手支持开源工作流调度引擎到DataWorks体系的大数据开发任务迁移的基本流程如下图所示。

azk1.png

针对不同的开源调度引擎,DataWorks迁移助手会出一个相关的任务导出方案。

整体迁移流程为:通过迁移助手调度引擎作业导出能力,将开源调度引擎中的作业导出;再将作业导出包上传至迁移助手中,通过任务类型映射,将映射后的作业导入至DataWorks中。作业导入时可设置将任务转换为MaxCompute类型作业、EMR类型作业、CDH类型作业等。


Azkaban作业导出

Azkaban工具本身具备导出工作流的能力,有自己的Web控制台,如下图所示:

azk2.png

Azkaban界面支持直接Download某个Flow。Flow的导出流程:

azk3.png

操作步骤:

1.进入Project页面

2.点击Flows,会列出Project下面所有的工作流(Flow)

3.点击Download即可下载Project的导出文件

Azkaban导出包格式原生Azkaban即可,导出包Zip文件内部为Azakaban的某个Project的所有任务(Job)和关系信息。


Azkaban作业导入

拿到了开源调度引擎的导出任务包后,用户可以拿这个zip包到迁移助手的迁移助手->任务上云->调度引擎作业导入页面上传导入包进行包分析。

azk4.png

导入包分析成功后点击确认,进入导入任务设置页面,页面中会展示分析出来的调度任务信息。

开源调度导入设置

用户可以点击高级设置,设置Azkaban任务与DataWorks任务的转换关系。不同的开源调度引擎,在高级设置里面的设置界面基本一致,如下图:

azk5.png

高级设置项介绍:

  • sparkt-submit转换为:导入过程会去分析用户的任务是不是sparkt-submit任务,如果是的话,会将spark-submit任务转换为对应的DataWorks任务类型,比如说:ODPS_SPARK/EMR_SPARK/CDH_SPARK等
  • 命令行 SQL任务转换为:开源引擎很多任务类型是命令行运行SQL,比如说hive -e, beeline -e, impala-shell等等,迁移助手会根据用户选择的目标类型做对应的转换。比如可以转换成ODPS_SQL, EMR_HIVE, EMR_IMPALA, EMR_PRESTO, CDH_HIVE, CDH_PRESTO, CDH_IMPALA等等
  • 目标计算引擎类型:这个主要是影响的是Sqoop同步的目的端的数据写入配置。我们会默认将sqoop命令转换为数据集成任务。计算引擎类型决定了数据集成任务的目的端数据源使用哪个计算引擎的project。
  • Shell类型转换为:SHELL类型的节点在Dataworks根据不同计算引擎会有很多种,比如EMR_SHELL,CDH_SHELL,DataWorks自己的Shell节点等等。
  • 未知任务转换为:对目前迁移助手无法处理的任务,我们默认用一个任务类型去对应,用户可以选择SHELL或者虚节点VIRTUAL
  • SQL节点转换为:DataWorks上的SQL节点类型也因为绑定的计算引擎的不同也有很多种。比如 EMR_HIVE,EMR_IMPALA、EMR_PRESTO,CDH_HIVE,CDH_IMPALA,CDH_PRESTO,ODPS_SQL,EMR_SPARK_SQL,CDH_SPARK_SQL等,用户可以选择转换为哪种任务类型。

注意:这些导入映射的转换值是动态变化的,和当前项目空间绑定的计算引擎有关,转换关系如下。

导入至DataWorks + MaxCompute

设置项

可选值

sparkt-submit转换为

ODPS_SPARK

命令行 SQL任务转换为

ODPS_SQL、ODPS_SPARK_SQL

目标计算引擎类型

ODPS

Shell类型转换为

DIDE_SHELL

未知任务转换为

DIDE_SHELL、VIRTUAL

SQL节点转换为

ODPS_SQL、ODPS_SPARK_SQL

导入至DataWorks + EMR

设置项

可选值

sparkt-submit转换为

EMR_SPARK

命令行 SQL任务转换为

EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL

目标计算引擎类型

EMR

Shell类型转换为

DIDE_SHELL, EMR_SHELL

未知任务转换为

DIDE_SHELL、VIRTUAL

SQL节点转换为

EMR_HIVE, EMR_IMPALA, EMR_PRESTO, EMR_SPARK_SQL

导入至DataWorks + CDH

设置项

可选值

sparkt-submit转换为

CDH_SPARK

命令行 SQL任务转换为

CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL

目标计算引擎类型

CDH

Shell类型转换为

DIDE_SHELL

未知任务转换为

DIDE_SHELL、VIRTUAL

SQL节点转换为

CDH_HIVE, CDH_IMPALA, CDH_PRESTO, CDH_SPARK_SQL

执行导入

设置完映射关系后,点击开始导入即可。导入完成后,请进入数据开发中查看导入结果。


数据迁移

大数据集群上的数据迁移,可参考:DataWorks数据集成MMA


任务上云详细文档:https://help.aliyun.com/document_detail/181296.html

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
5天前
|
SQL DataWorks NoSQL
DataWorks报错问题之datax mongodb全量迁移报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
10天前
|
存储 资源调度 DataWorks
DataWorks问题作业失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
27 6
|
10天前
|
SQL 存储 运维
dataworks问题之作业运行超过10天报timeout如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
28 5
|
8天前
|
DataWorks Oracle 关系型数据库
DataWorks问题之迪拜region迁移孟买如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
20 1
|
10天前
|
分布式计算 DataWorks 安全
DataWorks问题之迁移业务流程到其他项目如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
18 0
|
3月前
|
数据采集 DataWorks 数据安全/隐私保护
有没有方式可以实现dataworks数据迁移(从阿里云一个账号迁移到另外一个账号)?
有没有方式可以实现dataworks数据迁移(从阿里云一个账号迁移到另外一个账号)?
69 0
|
3月前
|
数据采集 DataWorks 数据安全/隐私保护
有没有方式可以实现dataworks数据迁移(从阿里云一个账号迁移到另外一个账号)?
有没有方式可以实现dataworks数据迁移(从阿里云一个账号迁移到另外一个账号)?
30 2
|
4月前
|
DataWorks
DataWorks的迁移功能可以将一个空间下的业务流程迁移到另一个空间
DataWorks的迁移功能可以将一个空间下的业务流程迁移到另一个空间
63 1
|
分布式计算 MaxCompute
《大批量处理excel文件到ODPS中方案》电子版地址
大批量处理excel文件到ODPS中方案
81 0
《大批量处理excel文件到ODPS中方案》电子版地址
|
DataWorks 大数据 调度
《DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季》电子版地址
DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季
91 0
《DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季》电子版地址

相关产品

  • 大数据开发治理平台 DataWorks