开发者学堂课程【一站式大数据开发治理平台 DataWorks 初级课程:DatatWorks 数据集成介绍及实践】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/763/detail/13355
DatatWorks 数据集成介绍及实践
内容介绍:
一、课堂内容介绍
二、基础简介
三、技术架构
四、资源组和网络能力
五、离线同步
六、实时同步
七、同步解决方案
八、收费方式
一、课堂内容介绍
本节课主要讲解内容,分为七个部分,第一部分介绍数据结成的基础简介,第二部分介绍基础,第三介绍资源组和对应的网络能力,然后是离线和实时同步对应的功能与特点,然后讲解同步解决方案,最后最关键的是收费模式是什么样的。
二、基础简介
(1)数据集成简介
主要介绍产品的价值,核心能力作为大数据枢纽,主要功能可以将不同的数据相互打通,实现数据的自由的、离线,实时的流动。拥有丰富的网络解决方案,无论数据在什么地方,均可拉过来进行上下云操作。
历史较为悠久,整个数据集成从2011年发布,2014年进入阿里云,进行正式的服务,2018年进行三版合一,针对阿里内部进行统一,效率提升,成本下降,2019年数据集成正式进行了商业化,以及同年独享资源的发布,2020年,实现实时同步的发布,可以进行全增量的解决方案,产品定位,包括资源组进行单独的资源测试。
数据集成产品的两大定位:
第一产品枢纽的作用,如在云上进行数据流转核心的打通
第二进行跨网的,所有的数据实现一站式的进出,在数据集成所有的数据的产出均可提供方案。
(2)业务场景
搬站上云:针对客户现有的线下的业务数据库,将数据快速地搬到云上,如放到阿里云的数据库中,把用户手上传统的数据库,将数据从传统数据仓,通过数据上云,或者整库搬移进行传入 DatatWorks 中的数据库中,可以进行一次性的全量或者持续性的增量,包括离线或实时均可。
实时数仓:将流数据或者批数据结合放入实时军仓,进行 IOT 数据的分析,各种 log数据流收集
容灾备份:将数据转移存储系统储存,或者将数据进行压缩,对数据写入 OSS 文件,实现文件存储空间的节约
平台融合:将云上各个平台(淘宝,华为等)的数据进行数据拉平与同步
(3)业务价值
客户数公有云2500+专有云180+
日同步数据量605TB+数据字节量3万亿+条数,任务资源组24万+任务1700+资源组,资源组为独享资源组,占全体任务的80%,地域部署覆盖8+国内11+国际,对应的行业分布:政府 金融 保险 能源 电力等。
(4)核心能力概括
离线实时全覆盖:支持离线同步,支持实时动态的数据传输,进行被动传输变更动态同步
繁多异构数据源:离线支持50+数据源,实时支持10+数据源,可交叉组合,涵盖关系数据库,支持各大常见数据源类型。
支持复杂网络:在复杂网络中进行数据传输,又非常丰富经验
同步解决方案:整库上移,批量上云等可提供数据源连接多种方案,实现商品化等多个需求。
安全控制:开发生产环境隔离,数据源的权限进行安全控制,指定人员制定项目最小的安全防卫,独享资源组提高数据的高效保障
运维监控:对流量监控、脏数据控制,资源组使用的水位的监控使用
等相关配置处理,支持电话、钉钉、邮件等运维配置,通过配置及时发现任务处理存在的问题。
三、技术架构
(1)DatatWorks 深度融合
技术架构与 DatatWorks 技术体系深度融合
包括计算引擎与插件中心,管控层对作业的管理调度与资源组的管理
接入层通过 DatatWorks 可视化的环境进行可视化的开发,直接将数据包装在产品的功能里。之后可进行 DatatWorks 的上下游的数据整合等,同时配合着 DatatWorks进行相关数据的开发,进行数据源的开发,租户项目的管理。
(2)引擎架构
星行架构:任何两组数据源可以组合成一条同步链路
为数据链路的扩充性提供很好的支持
四、资源组和网络能力
(1)数据集成资源组介绍
三大资源组 |
公共 |
独享 |
自定义 |
计算资源的独属 |
所有用户竞争使用 |
自己独享使用 |
客户自己维护 |
网络支持 |
公网,阿里云内网,阿里云经典网络 |
公网,阿里云内网,阿里云VPC |
公网,阿里云内网,阿里云 VPC |
DatatWorks 版本
|
所有版本 |
所有版本 |
专业版以上 |
支持数据源 |
部分数据源 |
全部数据源 |
部分数据源 |
安全性可靠性 |
中 |
极高 |
客户自身环境而定 |
任务执行效率 |
低 |
极高 |
客户自身环境而定 |
适合场景 |
适用于非重要的、紧急的,少量零散任务,或者测试型任务 |
大量重要的生产级别任务 |
自身已有资源,或者同步资源在 IDC 内 |
收费方式 |
按量收费 |
按计算规则收费,包年包月 |
只收取版本费用 |
综合来看,推荐用户使用独享资源组
(2)网络能力解决方案介绍
不同的资源组针对不同的网络格式所生成的解决方案不同
数据源方面讲:具备公网的访问能力,三种均可连接
在 vpc 内分为两种情况,
同地域下公共资源组无法连接,独享资源组存在方案,进行绑定,创建连接 vpc 与idc,添加路由。
不同地域下公共资源组无法连接,独享采用高速通道进行打通,创建连接 vpc 与 idc,进行绑定,根据需要进行连接,数据源在 idc 内
公共资源组无法联通,独享根据所在地域进行创建连接 vpc 与 idc 进行绑定,在根据需求进行添加路由,连接到对应的目标上面。
数据源如果在经典网络内,可进行迁移到独享网络内,或者建议使用公共资源组进行连接。自定义资源组比较灵活,无论在那种资源网络,均有对应的解决方案,如vpc idc 可直接进行,或通过高速通道进行联通
推荐使用独享资源组,操作方便
(3)网络能力解决方案演示
资源组方案演示
以下为数据集成资源组的配置界面,可进行查看网络连接的子方案
资源组路由演示
以下为进行 vpc 路由链接的配置,根据vpc所选择的网络,可进行 vpc 和 idc 的网络打通,进行产品化的实现。
五、离线同步
(1)离线同步核心亮点
四大要点
1.数据源种类多
2.解决方案
3.精细化权限管理:流程的控制等
4.支持复杂调度:达到千万级调动规则
(2)同步原理
首先进行源库数据的拉锯,分割任务,进行并发的读取数据
每一个 task 都存在读取程序。通过向源库的数据调度,进行数据运输,实现数据的读写
(3)同步引擎支持的数据源
支持50+关系数据库、非结构化存储、大数据存储等
每个不同的数据源均可结合成各种各样的同步链路,解决实际应用中的不同需求
(4)数据源演示
以下是数据源连通性的展示
包括数据集成连结性的展示
(5)离线同步任务的展示
通过可视化的方式创建离线同步任务,通过数据化的创建,数据的来源等,做一个对应的表,自动进行资源映射,即可自动进行离线建设。
如下展示界面:
六、实时同步
(1)实时同步特性
丰富多样的数据源 支持星型链路组合
数据处理 简单的数据处理,过滤 函数
实时库存监控 支持分库分表 单表等操作
监控运维告警 可监控业务的处理 Failover 脏数据 通过邮件电话 钉钉 进行通知。
解决方案系统 将实时与离线进行整合。
(2)实时同步架构
通过输入数据源,进行实时的数据抽取,或直接进行数据的对接,进行数据处,支持多路输出,目前有能力进行一读多写,读取一个数据源进行多个数据的写入,最后通过数据的配合进行整库全增量的解决方案。
(3)实时同步技术-脏数据收集机制
目前,将数据进行统一的收集,进行不同地方的写入
(4)实时同步界面展示
选择单调任务展示,输入任务名称
在界面进行节点的拖拽操作
完成后,完成远端到目标端的输出
通过选择节点配置完成远端到目标端的映射
最后则完成实时任务的配置
同时在实时节点的配置通过完成节点的选择,即可完成简单的实时数据处理
七、同步解决方案
(1)整库迁移同步
对关联数据库的所有表进行一次性全部通入 max compute
在过程中进行检表
操作界面如下
(2)批量上云
可以支持选定的多个数据源进行上云
同步任务的启动、表的建立,数据的传输操作均是自动化的
操作界面如下
(3)解决方案系统-全增量实时同步解决方案
去一键成立解决方案
选择原表与目标库
将对应原表所选择的进行建表
建立完成后,自动进行表中任务的建立
点击具体任务即可查看详情
八、收费模式
1. 按实例数收费 前提为使用公共资源组按实例数进行阶梯收费
可运用未支付的的资源包来节约费用
2. 包年包月:使用独享资源组 按规格与时长收费,与运行实例无关
3. 版本费:使用在自定义资源组
4. 网络费:使用公网,对阿里云进行数据的拉锯,目前为国内1gb8毛钱