DatatWorks 数据集成介绍及实践 | 学习笔记

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习 DatatWorks 数据集成介绍及实践,介绍了 DatatWorks 数据集成介绍及实践系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【一站式大数据开发治理平台 DataWorks 初级课程DatatWorks 数据集成介绍及实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/763/detail/13355


DatatWorks 数据集成介绍及实践


内容介绍:

一、课堂内容介绍

二、基础简介

三、技术架构

四、资源组和网络能力

五、离线同步

六、实时同步

七、同步解决方案

八、收费方式


一、课堂内容介绍

本节课主要讲解内容,分为七个部分,第一部分介绍数据结成的基础简介,第二部分介绍基础,第三介绍资源组和对应的网络能力,然后是离线和实时同步对应的功能与特点,然后讲解同步解决方案,最后最关键的是收费模式是什么样的。

image.png


二、基础简介

(1)数据集成简介

主要介绍产品的价值,核心能力作为大数据枢纽,主要功能可以将不同的数据相互打通,实现数据的自由的、离线,实时的流动。拥有丰富的网络解决方案,无论数据在什么地方,均可拉过来进行上下云操作。

历史较为悠久,整个数据集成从2011年发布,2014年进入阿里云,进行正式的服务,2018年进行三版合一,针对阿里内部进行统一,效率提升,成本下降,2019年数据集成正式进行了商业化,以及同年独享资源的发布,2020年,实现实时同步的发布,可以进行全增量的解决方案,产品定位,包括资源组进行单独的资源测试。

image.png

数据集成产品的两大定位:

第一产品枢纽的作用,如在云上进行数据流转核心的打通

第二进行跨网的,所有的数据实现一站式的进出,在数据集成所有的数据的产出均可提供方案。

image.png

(2)业务场景

image.png

搬站上云:针对客户现有的线下的业务数据库,将数据快速地搬到云上,如放到阿里云的数据库中,把用户手上传统的数据库,将数据从传统数据仓,通过数据上云,或者整库搬移进行传入 DatatWorks 中的数据库中,可以进行一次性的全量或者持续性的增量,包括离线或实时均可。

实时数仓:将流数据或者批数据结合放入实时军仓,进行 IOT 数据的分析,各种 log数据流收集

容灾备份:将数据转移存储系统储存,或者将数据进行压缩,对数据写入 OSS 文件,实现文件存储空间的节约

平台融合:将云上各个平台(淘宝,华为等)的数据进行数据拉平与同步

(3)业务价值

客户数公有云2500+专有云180+

日同步数据量605TB+数据字节量3万亿+条数,任务资源组24万+任务1700+资源组,资源组为独享资源组,占全体任务的80%,地域部署覆盖8+国内11+国际,对应的行业分布:政府 金融 保险 能源 电力等。

image.png

(4)核心能力概括

离线实时全覆盖:支持离线同步,支持实时动态的数据传输,进行被动传输变更动态同步

繁多异构数据源:离线支持50+数据源,实时支持10+数据源,可交叉组合,涵盖关系数据库,支持各大常见数据源类型。

支持复杂网络:在复杂网络中进行数据传输,又非常丰富经验

同步解决方案:整库上移,批量上云等可提供数据源连接多种方案,实现商品化等多个需求。

安全控制:开发生产环境隔离,数据源的权限进行安全控制,指定人员制定项目最小的安全防卫,独享资源组提高数据的高效保障

运维监控:对流量监控、脏数据控制,资源组使用的水位的监控使用

等相关配置处理,支持电话、钉钉、邮件等运维配置,通过配置及时发现任务处理存在的问题。

image.png


三、技术架构

(1)DatatWorks 深度融合

image.png

技术架构与 DatatWorks 技术体系深度融合

包括计算引擎与插件中心,管控层对作业的管理调度与资源组的管理

接入层通过 DatatWorks 可视化的环境进行可视化的开发,直接将数据包装在产品的功能里。之后可进行 DatatWorks 的上下游的数据整合等,同时配合着 DatatWorks进行相关数据的开发,进行数据源的开发,租户项目的管理。

(2)引擎架构

星行架构:任何两组数据源可以组合成一条同步链路

为数据链路的扩充性提供很好的支持


四、资源组和网络能力

(1)数据集成资源组介绍

image.png

三大资源组

公共

独享

自定义

计算资源的独属

所有用户竞争使用

自己独享使用

客户自己维护

网络支持

公网,阿里云内网,阿里云经典网络

公网,阿里云内网,阿里云VPC

公网,阿里云内网,阿里云 VPC

DatatWorks 版本

 

所有版本

所有版本

专业版以上

支持数据源

部分数据源

全部数据源

部分数据源

安全性可靠性

极高

客户自身环境而定

任务执行效率

极高

客户自身环境而定

适合场景

适用于非重要的、紧急的,少量零散任务,或者测试型任务

大量重要的生产级别任务

自身已有资源,或者同步资源在 IDC 内

收费方式

按量收费

按计算规则收费,包年包月

只收取版本费用

综合来看,推荐用户使用独享资源组

(2)网络能力解决方案介绍

不同的资源组针对不同的网络格式所生成的解决方案不同

image.png

数据源方面讲:具备公网的访问能力,三种均可连接

在 vpc 内分为两种情况,

同地域下公共资源组无法连接,独享资源组存在方案,进行绑定,创建连接 vpc 与idc,添加路由。

不同地域下公共资源组无法连接,独享采用高速通道进行打通,创建连接 vpc 与 idc,进行绑定,根据需要进行连接,数据源在 idc 内

公共资源组无法联通,独享根据所在地域进行创建连接 vpc 与 idc 进行绑定,在根据需求进行添加路由,连接到对应的目标上面。

数据源如果在经典网络内,可进行迁移到独享网络内,或者建议使用公共资源组进行连接。自定义资源组比较灵活,无论在那种资源网络,均有对应的解决方案,如vpc idc 可直接进行,或通过高速通道进行联通

推荐使用独享资源组,操作方便

(3)网络能力解决方案演示

资源组方案演示

以下为数据集成资源组的配置界面,可进行查看网络连接的子方案

image.png

资源组路由演示

以下为进行 vpc 路由链接的配置,根据vpc所选择的网络,可进行 vpc 和 idc 的网络打通,进行产品化的实现。

五、离线同步

(1)离线同步核心亮点

四大要点

1.数据源种类多

2.解决方案

3.精细化权限管理:流程的控制等

4.支持复杂调度:达到千万级调动规则

image.png

(2)同步原理

首先进行源库数据的拉锯,分割任务,进行并发的读取数据

每一个 task 都存在读取程序。通过向源库的数据调度,进行数据运输,实现数据的读写

image.png

(3)同步引擎支持的数据源

支持50+关系数据库、非结构化存储、大数据存储等

每个不同的数据源均可结合成各种各样的同步链路,解决实际应用中的不同需求

image.png

(4)数据源演示

以下是数据源连通性的展示

包括数据集成连结性的展示

image.png

(5)离线同步任务的展示

通过可视化的方式创建离线同步任务,通过数据化的创建,数据的来源等,做一个对应的表,自动进行资源映射,即可自动进行离线建设。

如下展示界面:

image.png

 

六、实时同步

(1)实时同步特性

image.png

丰富多样的数据源 支持星型链路组合

数据处理 简单的数据处理,过滤 函数

实时库存监控 支持分库分表 单表等操作

监控运维告警 可监控业务的处理 Failover 脏数据 通过邮件电话 钉钉 进行通知。

解决方案系统 将实时与离线进行整合。

(2)实时同步架构

通过输入数据源,进行实时的数据抽取,或直接进行数据的对接,进行数据处,支持多路输出,目前有能力进行一读多写,读取一个数据源进行多个数据的写入,最后通过数据的配合进行整库全增量的解决方案。

image.png

(3)实时同步技术-脏数据收集机制

目前,将数据进行统一的收集,进行不同地方的写入 

image.png 

(4)实时同步界面展示

选择单调任务展示,输入任务名称

image.png

在界面进行节点的拖拽操作

image.png

完成后,完成远端到目标端的输出

通过选择节点配置完成远端到目标端的映射

最后则完成实时任务的配置

同时在实时节点的配置通过完成节点的选择,即可完成简单的实时数据处理

image.png

 

七、同步解决方案

(1)整库迁移同步

对关联数据库的所有表进行一次性全部通入 max compute

在过程中进行检表

操作界面如下

image.png

(2)批量上云

可以支持选定的多个数据源进行上云

同步任务的启动、表的建立,数据的传输操作均是自动化的

操作界面如下

image.png

(3)解决方案系统-全增量实时同步解决方案

去一键成立解决方案

选择原表与目标库

将对应原表所选择的进行建表

建立完成后,自动进行表中任务的建立

点击具体任务即可查看详情

image.png


八、收费模式

image.png

1. 按实例数收费 前提为使用公共资源组按实例数进行阶梯收费

可运用未支付的的资源包来节约费用

2. 包年包月:使用独享资源组 按规格与时长收费,与运行实例无关

3. 版本费:使用在自定义资源组

4. 网络费:使用公网,对阿里云进行数据的拉锯,目前为国内1gb8毛钱

相关文章
|
2月前
|
存储 缓存 NoSQL
深入理解Django与Redis的集成实践
深入理解Django与Redis的集成实践
60 0
|
13天前
|
机器学习/深度学习 人工智能 jenkins
软件测试中的自动化与持续集成实践
在快速迭代的软件开发过程中,自动化测试和持续集成(CI)是确保代码质量和加速产品上市的关键。本文探讨了自动化测试的重要性、常见的自动化测试工具以及如何将自动化测试整合到持续集成流程中,以提高软件测试的效率和可靠性。通过案例分析,展示了自动化测试和持续集成在实际项目中的应用效果,并提供了实施建议。
|
26天前
|
jenkins Devops Java
DevOps实践:Jenkins在持续集成与持续部署中的价值
【10月更文挑战第27天】在快速发展的软件开发领域,DevOps实践日益重要。Jenkins作为一款流行的开源自动化服务器,在持续集成(CI)和持续部署(CD)中扮演关键角色。本文通过案例分析,探讨Jenkins在Java项目中的应用,展示其自动化构建、测试和部署的能力,提高开发效率和软件质量。
46 2
|
2月前
|
运维 Devops jenkins
DevOps实践:自动化部署与持续集成的实现之旅
本文旨在通过一个实际案例,向读者展示如何将DevOps理念融入日常工作中,实现自动化部署和持续集成。我们将从DevOps的基础概念出发,逐步深入到工具的选择、环境的搭建,以及流程的优化,最终实现一个简单而高效的自动化部署流程。文章不仅提供代码示例,更注重于实践中的思考和问题解决,帮助团队提高软件开发和运维的效率。
|
2月前
|
运维 监控 Devops
DevOps实践:自动化部署与持续集成的融合之旅
【10月更文挑战第7天】在软件开发领域,DevOps已成为一种文化和实践,它倡导开发(Dev)与运维(Ops)之间的协作与整合。本文将引导读者了解如何通过自动化部署和持续集成(CI)的实践来提升软件交付的速度和质量。我们将探讨一些实用的工具和技术,以及它们是如何帮助团队高效地管理代码变更、测试和部署的。文章将不包含代码示例,但会详细解释概念和流程,确保内容的通俗易懂和条理性。
134 62
|
12天前
|
Devops jenkins 测试技术
DevOps实践:自动化部署与持续集成的融合之旅
【10月更文挑战第41天】在软件开发的世界中,快速迭代和高效交付是企业竞争力的关键。本文将带你走进DevOps的核心实践——自动化部署与持续集成,揭示如何通过它们提升开发流程的效率与质量。我们将从DevOps的基本理念出发,逐步深入到具体的技术实现,最终展示一个实际的代码示例,让理论与实践相结合,为你的开发旅程提供清晰的指引。
23 4
|
18天前
|
存储 监控 Devops
DevOps实践:持续集成/持续部署(CI/CD)的实战指南
DevOps实践:持续集成/持续部署(CI/CD)的实战指南
|
27天前
|
jenkins Devops 测试技术
DevOps实践:Jenkins在持续集成与持续部署中的价值
【10月更文挑战第26天】随着DevOps理念的普及,Jenkins作为一款开源自动化服务器,在持续集成(CI)与持续部署(CD)中发挥重要作用。本文通过某中型互联网企业的实际案例,展示了Jenkins如何通过自动化构建、持续集成和持续部署,显著提升开发效率、代码质量和软件交付速度,帮助企业解决传统手工操作带来的低效和错误问题。
54 4
|
2月前
|
运维 监控 Devops
DevOps实践:持续集成与部署的自动化之旅
【10月更文挑战第7天】在软件开发领域,DevOps已成为提升效率、加速交付和确保质量的关键策略。本文将深入探讨如何通过实施持续集成(CI)和持续部署(CD)来自动化开发流程,从而优化运维工作。我们将从基础概念入手,逐步过渡到实际操作,包括工具选择、流程设计以及监控和反馈机制的建立。最终,我们不仅会展示如何实现这一自动化流程,还会讨论如何克服常见的挑战,以确保成功实施。
66 9
|
21天前
|
运维 Devops jenkins
DevOps实践之持续集成与持续交付
【10月更文挑战第32天】在软件开发的快节奏世界中,DevOps已经成为提升效率和质量的关键策略。通过将开发(Development)和运维(Operations)紧密结合,DevOps促进了更快速的软件发布和更高的可靠性。本文将深入探讨DevOps的核心组成部分——持续集成(CI)和持续交付(CD),并展示如何通过实际代码示例实现它们,以帮助团队构建更加高效和稳定的软件发布流程。