DatatWorks 数据集成介绍及实践 | 学习笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习 DatatWorks 数据集成介绍及实践,介绍了 DatatWorks 数据集成介绍及实践系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【一站式大数据开发治理平台 DataWorks 初级课程DatatWorks 数据集成介绍及实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/763/detail/13355


DatatWorks 数据集成介绍及实践


内容介绍:

一、课堂内容介绍

二、基础简介

三、技术架构

四、资源组和网络能力

五、离线同步

六、实时同步

七、同步解决方案

八、收费方式


一、课堂内容介绍

本节课主要讲解内容,分为七个部分,第一部分介绍数据结成的基础简介,第二部分介绍基础,第三介绍资源组和对应的网络能力,然后是离线和实时同步对应的功能与特点,然后讲解同步解决方案,最后最关键的是收费模式是什么样的。

image.png


二、基础简介

(1)数据集成简介

主要介绍产品的价值,核心能力作为大数据枢纽,主要功能可以将不同的数据相互打通,实现数据的自由的、离线,实时的流动。拥有丰富的网络解决方案,无论数据在什么地方,均可拉过来进行上下云操作。

历史较为悠久,整个数据集成从2011年发布,2014年进入阿里云,进行正式的服务,2018年进行三版合一,针对阿里内部进行统一,效率提升,成本下降,2019年数据集成正式进行了商业化,以及同年独享资源的发布,2020年,实现实时同步的发布,可以进行全增量的解决方案,产品定位,包括资源组进行单独的资源测试。

image.png

数据集成产品的两大定位:

第一产品枢纽的作用,如在云上进行数据流转核心的打通

第二进行跨网的,所有的数据实现一站式的进出,在数据集成所有的数据的产出均可提供方案。

image.png

(2)业务场景

image.png

搬站上云:针对客户现有的线下的业务数据库,将数据快速地搬到云上,如放到阿里云的数据库中,把用户手上传统的数据库,将数据从传统数据仓,通过数据上云,或者整库搬移进行传入 DatatWorks 中的数据库中,可以进行一次性的全量或者持续性的增量,包括离线或实时均可。

实时数仓:将流数据或者批数据结合放入实时军仓,进行 IOT 数据的分析,各种 log数据流收集

容灾备份:将数据转移存储系统储存,或者将数据进行压缩,对数据写入 OSS 文件,实现文件存储空间的节约

平台融合:将云上各个平台(淘宝,华为等)的数据进行数据拉平与同步

(3)业务价值

客户数公有云2500+专有云180+

日同步数据量605TB+数据字节量3万亿+条数,任务资源组24万+任务1700+资源组,资源组为独享资源组,占全体任务的80%,地域部署覆盖8+国内11+国际,对应的行业分布:政府 金融 保险 能源 电力等。

image.png

(4)核心能力概括

离线实时全覆盖:支持离线同步,支持实时动态的数据传输,进行被动传输变更动态同步

繁多异构数据源:离线支持50+数据源,实时支持10+数据源,可交叉组合,涵盖关系数据库,支持各大常见数据源类型。

支持复杂网络:在复杂网络中进行数据传输,又非常丰富经验

同步解决方案:整库上移,批量上云等可提供数据源连接多种方案,实现商品化等多个需求。

安全控制:开发生产环境隔离,数据源的权限进行安全控制,指定人员制定项目最小的安全防卫,独享资源组提高数据的高效保障

运维监控:对流量监控、脏数据控制,资源组使用的水位的监控使用

等相关配置处理,支持电话、钉钉、邮件等运维配置,通过配置及时发现任务处理存在的问题。

image.png


三、技术架构

(1)DatatWorks 深度融合

image.png

技术架构与 DatatWorks 技术体系深度融合

包括计算引擎与插件中心,管控层对作业的管理调度与资源组的管理

接入层通过 DatatWorks 可视化的环境进行可视化的开发,直接将数据包装在产品的功能里。之后可进行 DatatWorks 的上下游的数据整合等,同时配合着 DatatWorks进行相关数据的开发,进行数据源的开发,租户项目的管理。

(2)引擎架构

星行架构:任何两组数据源可以组合成一条同步链路

为数据链路的扩充性提供很好的支持


四、资源组和网络能力

(1)数据集成资源组介绍

image.png

三大资源组

公共

独享

自定义

计算资源的独属

所有用户竞争使用

自己独享使用

客户自己维护

网络支持

公网,阿里云内网,阿里云经典网络

公网,阿里云内网,阿里云VPC

公网,阿里云内网,阿里云 VPC

DatatWorks 版本

 

所有版本

所有版本

专业版以上

支持数据源

部分数据源

全部数据源

部分数据源

安全性可靠性

极高

客户自身环境而定

任务执行效率

极高

客户自身环境而定

适合场景

适用于非重要的、紧急的,少量零散任务,或者测试型任务

大量重要的生产级别任务

自身已有资源,或者同步资源在 IDC 内

收费方式

按量收费

按计算规则收费,包年包月

只收取版本费用

综合来看,推荐用户使用独享资源组

(2)网络能力解决方案介绍

不同的资源组针对不同的网络格式所生成的解决方案不同

image.png

数据源方面讲:具备公网的访问能力,三种均可连接

在 vpc 内分为两种情况,

同地域下公共资源组无法连接,独享资源组存在方案,进行绑定,创建连接 vpc 与idc,添加路由。

不同地域下公共资源组无法连接,独享采用高速通道进行打通,创建连接 vpc 与 idc,进行绑定,根据需要进行连接,数据源在 idc 内

公共资源组无法联通,独享根据所在地域进行创建连接 vpc 与 idc 进行绑定,在根据需求进行添加路由,连接到对应的目标上面。

数据源如果在经典网络内,可进行迁移到独享网络内,或者建议使用公共资源组进行连接。自定义资源组比较灵活,无论在那种资源网络,均有对应的解决方案,如vpc idc 可直接进行,或通过高速通道进行联通

推荐使用独享资源组,操作方便

(3)网络能力解决方案演示

资源组方案演示

以下为数据集成资源组的配置界面,可进行查看网络连接的子方案

image.png

资源组路由演示

以下为进行 vpc 路由链接的配置,根据vpc所选择的网络,可进行 vpc 和 idc 的网络打通,进行产品化的实现。

五、离线同步

(1)离线同步核心亮点

四大要点

1.数据源种类多

2.解决方案

3.精细化权限管理:流程的控制等

4.支持复杂调度:达到千万级调动规则

image.png

(2)同步原理

首先进行源库数据的拉锯,分割任务,进行并发的读取数据

每一个 task 都存在读取程序。通过向源库的数据调度,进行数据运输,实现数据的读写

image.png

(3)同步引擎支持的数据源

支持50+关系数据库、非结构化存储、大数据存储等

每个不同的数据源均可结合成各种各样的同步链路,解决实际应用中的不同需求

image.png

(4)数据源演示

以下是数据源连通性的展示

包括数据集成连结性的展示

image.png

(5)离线同步任务的展示

通过可视化的方式创建离线同步任务,通过数据化的创建,数据的来源等,做一个对应的表,自动进行资源映射,即可自动进行离线建设。

如下展示界面:

image.png

 

六、实时同步

(1)实时同步特性

image.png

丰富多样的数据源 支持星型链路组合

数据处理 简单的数据处理,过滤 函数

实时库存监控 支持分库分表 单表等操作

监控运维告警 可监控业务的处理 Failover 脏数据 通过邮件电话 钉钉 进行通知。

解决方案系统 将实时与离线进行整合。

(2)实时同步架构

通过输入数据源,进行实时的数据抽取,或直接进行数据的对接,进行数据处,支持多路输出,目前有能力进行一读多写,读取一个数据源进行多个数据的写入,最后通过数据的配合进行整库全增量的解决方案。

image.png

(3)实时同步技术-脏数据收集机制

目前,将数据进行统一的收集,进行不同地方的写入 

image.png 

(4)实时同步界面展示

选择单调任务展示,输入任务名称

image.png

在界面进行节点的拖拽操作

image.png

完成后,完成远端到目标端的输出

通过选择节点配置完成远端到目标端的映射

最后则完成实时任务的配置

同时在实时节点的配置通过完成节点的选择,即可完成简单的实时数据处理

image.png

 

七、同步解决方案

(1)整库迁移同步

对关联数据库的所有表进行一次性全部通入 max compute

在过程中进行检表

操作界面如下

image.png

(2)批量上云

可以支持选定的多个数据源进行上云

同步任务的启动、表的建立,数据的传输操作均是自动化的

操作界面如下

image.png

(3)解决方案系统-全增量实时同步解决方案

去一键成立解决方案

选择原表与目标库

将对应原表所选择的进行建表

建立完成后,自动进行表中任务的建立

点击具体任务即可查看详情

image.png


八、收费模式

image.png

1. 按实例数收费 前提为使用公共资源组按实例数进行阶梯收费

可运用未支付的的资源包来节约费用

2. 包年包月:使用独享资源组 按规格与时长收费,与运行实例无关

3. 版本费:使用在自定义资源组

4. 网络费:使用公网,对阿里云进行数据的拉锯,目前为国内1gb8毛钱

相关文章
|
11月前
|
存储 缓存 NoSQL
深入理解Django与Redis的集成实践
深入理解Django与Redis的集成实践
332 0
|
22天前
|
人工智能 自然语言处理 安全
Python构建MCP服务器:从工具封装到AI集成的全流程实践
MCP协议为AI提供标准化工具调用接口,助力模型高效操作现实世界。
261 1
|
1月前
|
供应链 监控 搜索推荐
35页PPT|零售行业自助数据分析方法论:指标体系构建平台集成、会员与商品精细化运营实践
在零售行业环境剧变的背景下,传统“人找货”模式正被“货找人”取代。消费者需求日益个性化,购买路径多元化,企业亟需构建统一的指标体系,借助BI平台实现数据驱动的精细化运营。本文从指标体系构建、平台集成到会员与商品运营实践,系统梳理零售经营分析的方法论,助力企业实现敏捷决策与业务闭环。
35页PPT|零售行业自助数据分析方法论:指标体系构建平台集成、会员与商品精细化运营实践
|
2月前
|
Cloud Native 中间件 调度
云原生信息提取系统:容器化流程与CI/CD集成实践
本文介绍如何通过工程化手段解决数据提取任务中的稳定性与部署难题。结合 Scrapy、Docker、代理中间件与 CI/CD 工具,构建可自动运行、持续迭代的云原生信息提取系统,实现结构化数据采集与标准化交付。
云原生信息提取系统:容器化流程与CI/CD集成实践
|
3月前
|
机器学习/深度学习 数据采集 存储
朴素贝叶斯处理混合数据类型,基于投票与堆叠集成的系统化方法理论基础与实践应用
本文探讨了朴素贝叶斯算法在处理混合数据类型中的应用,通过投票和堆叠集成方法构建分类框架。实验基于电信客户流失数据集,验证了该方法的有效性。文章详细分析了算法的数学理论基础、条件独立性假设及参数估计方法,并针对二元、类别、多项式和高斯分布特征设计专门化流水线。实验结果表明,集成学习显著提升了分类性能,但也存在特征分类自动化程度低和计算开销大的局限性。作者还探讨了特征工程、深度学习等替代方案,为未来研究提供了方向。(239字)
138 5
朴素贝叶斯处理混合数据类型,基于投票与堆叠集成的系统化方法理论基础与实践应用
|
4月前
|
JSON 前端开发 算法
掌握Multi-Agent实践(三):ReAct Agent集成Bing和Google搜索功能,采用推理与执行交替策略,增强处理复杂任务能力
掌握Multi-Agent实践(三):ReAct Agent集成Bing和Google搜索功能,采用推理与执行交替策略,增强处理复杂任务能力
268 23
|
10月前
|
机器学习/深度学习 人工智能 jenkins
软件测试中的自动化与持续集成实践
在快速迭代的软件开发过程中,自动化测试和持续集成(CI)是确保代码质量和加速产品上市的关键。本文探讨了自动化测试的重要性、常见的自动化测试工具以及如何将自动化测试整合到持续集成流程中,以提高软件测试的效率和可靠性。通过案例分析,展示了自动化测试和持续集成在实际项目中的应用效果,并提供了实施建议。
|
10月前
|
jenkins Devops Java
DevOps实践:Jenkins在持续集成与持续部署中的价值
【10月更文挑战第27天】在快速发展的软件开发领域,DevOps实践日益重要。Jenkins作为一款流行的开源自动化服务器,在持续集成(CI)和持续部署(CD)中扮演关键角色。本文通过案例分析,探讨Jenkins在Java项目中的应用,展示其自动化构建、测试和部署的能力,提高开发效率和软件质量。
273 2
|
10月前
|
存储 监控 Devops
DevOps实践:持续集成/持续部署(CI/CD)的实战指南
DevOps实践:持续集成/持续部署(CI/CD)的实战指南
|
6月前
|
SQL 弹性计算 DataWorks
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
250 6

热门文章

最新文章