DataWorks迁移助手介绍及最佳实践 | 《一站式大数据开发治理DataWorks使用宝典》

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 迁移助手是DataWorks上开发成果快速复制的利器,通过迁移助手可以将DataWorks上的开发成果在不同的环境快速复制。迁移助手是DataWorks的一个全新模块,它的核心能力主要分为两部分,一是任务上云,二是DataWorks迁移。

作者:DataWorks产品经理 彭敏


一、迁移助手产品能力

迁移助手是DataWorks上开发成果快速复制的利器,通过迁移助手可以将DataWorks上的开发成果在不同的环境快速复制。迁移助手是DataWorks的一个全新模块,它的核心能力主要分为两部分,一是任务上云,二是DataWorks迁移。

幻灯片4.PNG

上图中,左侧界面是任务上云>开源调度引擎导出方案的选择界面,它会帮助用户导出开源调度引擎上的调度任务。右侧是DataWorks的迁移页面,这是自选导出对象的操作页。下面介绍迁移助手两大核心能力。


任务上云,是指将自建的开源调度引擎上面的作业快速搬站上云,主要支持的调度引擎为Oozie、Azkaban、Airflow等。目前能够迁移的节点类型主要是Sqoop节点、Shell节点和Hive节点,可以将这些节点转化成为DataWorks上的MaxCompute任务,或者是EMR任务。比如一个Hive作业,导入到DataWorks上的时候,其实可以选择将这个Hive作业转化为MaxCompute SQL作业,或者是转化为EMR的Hive作业。

幻灯片5.PNG

DataWorks迁移主要是将DataWorks上的开发成果进行迁移,主要用于跨租户、跨region、跨云、跨版本等多种复杂场景下的迁移。支持迁移的对象主要有周期任务、手动任务、资源、函数、SQL组件、临时查询、数据源、和表元数据(DDL)。

幻灯片6.PNG

迁移助手支持多种导出方式,早期DataWorks有一个备份恢复功能,能够支持周期任务、手动任务进行全量备份和增量备份,但很多时候大家需要自定义备份内容,这时备份恢复能力就无法满足需求,且备份恢复能支持的对象较少,无法有效的支持迁移需求。故DataWorks对迁移这个需求做了全新的产品设计,从而诞生出迁移助手模块。


在迁移的过程中还支持一些高级设置,比如支持用户设置一些导出的黑名单,用来保护那些敏感的任务;支持用户去设置资源组、作业依赖关系的映射,来减少导入到新工作空间后的作业修改。且DataWorks迁移助手支持详细的迁移报告,让用户快速了解整个迁移过程中发生了什么,有哪些任务导出成功,哪些任务导出失败,失败的原因是什么。最后,迁移的过程中会兼容DataWorks私有化部署的历史版本,支持将公共云开发的作业迁移至私有化部署的DataWorks中。


二、迁移助手使用场景

迁移助手主要使用场景有六个:任务上云、跨Region迁移、测试环境快速搭建、跨云发布、灾备和开发成果快速复制。以下是几个核心场景介绍。


(一)任务上云

如上文所说,能够将Oozie, Azkaban等开源调度引擎上面的作业转换成为MaxCompute或EMR作业。


(二)跨Region迁移

跨Region迁移,比如能够将上海Region的开发成果迁移到其他的Region。曾有用户提出过这样的需求:最开始用DataWorks的时候只有上海Region,其他Region尚未部署,但是服务器又在北京Region,如果想要把大数据平台也迁移到北京Region上,应该怎么办呢?

幻灯片10.PNG

把DataWorks整体从一个Region搬到另一个Region,这个场景其实用迁移助手也不能完全满足用户的需求,因为整体的迁移涉及到的风险和细节点都非常多,比如:数据如何迁移,任务如何迁移,作业运行环境如何迁移、成员和权限如何迁移等。


由此可见,整个跨Region的搬迁涉及到的细节点非常的多。如果您一定要做这种跨Region的整体搬迁的话,那么可以在搬迁前通过工单或在钉钉群与DataWorks团队联系,一起来评估整体搬迁的风险。如果您只是想要把部分的业务迁移到其它的Region,那么您可以尽情地使用迁移助手来做尝试。


(三)跨云发布

跨云发布是金融行业的一个通用需求,因为银行、保险等行业受监管要求,它的开发和生产环境必须要物理隔离,导致会有两个集群,两套环境,一套开发环境,一套生产环境。日常的数据开发都会在开发环境进行,目前任务的发布是通过迁移助手将其“发布”至生产环境。


开发到生产的发布为什么一定要由迁移助手来完成?其背后主要有三个问题:第一,开发和生产之间的物理隔离导致系统间无法进行通信。第二,因为整体的任务发布的时间窗口非常小,无法通过手动的方式创建任务。第三,由于需要对发布的对象进行版本的管理,所以也无法通过手动的方式来进行创建任务,手动迁移等。因此,目前的解决方案是开发人员通过迁移助手来导出待发布的任务,由运维的人员将导出包导入至生产环境,并且将迁移报告进行留档,用来做后续的版本管理。


(四)开发成果快速复制

迁移助手最核心的场景是能够将开发成果快速地进行复制。这个功能主要面向于DataWorks的合作伙伴,合作伙伴只需要开发一次代码,就可以快速地把这些开发成果复制出来,快速地交付给客户。


合作伙伴使用迁移助手来完成开发成果快速复制会有两点优势。第一,客户DataWorks的版本可能是不一致的,不同的版本之间会有一些数据兼容性的问题,迁移助手可以解决数据兼容性的问题,使任务代码能够快速地在不同版本、不同环境间快速复制。第二,专业的数据开发厂商,会同时面临非常多的客户,研发中心会同时开发多套任务代码,为了能灵活地给客户做交付,必须能够灵活地去选择需要迁移的任务对象,迁移助手可以满足自定义导出需求。


迁移助手介绍及实践请参考:https://developer.aliyun.com/learning/course/81/detail/1236


DataWorks官网:https://www.aliyun.com/product/bigdata/ide

大数据&AI体验馆:https://workbench.data.aliyun.com/experience.htm


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
12天前
|
分布式计算 DataWorks Java
DataWorks操作报错合集之在使用MaxCompute的Java SDK创建函数时,出现找不到文件资源的情况,是BUG吗
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
26 0
|
12天前
|
分布式计算 DataWorks Oracle
DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
26 0
|
12天前
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
25 0
|
12天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
24 0
|
12天前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之在DataWorks数据集成中,但是预览ODPS源数据库为空,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
23 0
|
12天前
|
SQL 分布式计算 DataWorks
DataWorks操作报错合集之在DataWorks中使用ODPS SQL时遇到"该文件对应引擎实例已失效,请重新选择可用的引擎实例"的错误提示”,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
34 0
|
12天前
|
SQL JSON 分布式计算
DataWorks产品使用合集之DataWorks一键maxcompute数据同步的操作步骤是什么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
21 0
|
12天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在 DataWorks 中,使用Oracle作为数据源进行数据映射和查询,如何更改数据源为MaxCompute或其他类型
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
27 1
|
12天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之在 MaxCompute 中,有LEAST 的内置函数如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
17 0
|
12天前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之DataWorks maxcompute的自定义资源增加如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
22 0

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    30
  • 2
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    24
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    31
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    26
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    25
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    25
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    32
  • 8
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    27
  • 9
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    30
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    24
  • 相关产品

  • 大数据开发治理平台 DataWorks