开发者学堂课程【全链路数据治理-全域数据集成:数据同步场景下的技术选型】学习笔记,与课程紧密连接,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1082/detail/16058
数据同步场景下的技术选型
内容介绍
一、dataworks 介绍
二、区分不同的同步业务场景和技术方案的选择
三、数据集成和 dataworks 各个模块的融合能力
一、dataworks 介绍
数据同步的技术选择可以说是非常多的样的,比如开源的、datax 等技术都能实现同步的能力,本篇主要讲通过 dataworks 在多表到多表,多表到单表的场景下进行离线或实施同步的技术选型。
dataworks 数据集成是开源 datax 的商业化技术团队,作为大数据平台上下云的核心枢纽可以将不同的系统数据相互打通,实现数据自由的流动,提供复杂网络环境下,丰富的异构数据源之间高速稳定的数据同步能力,并且提供复杂业务背景下的数据同步解决方案。
dataworks 数据集成目前已经有五十多种数据源,包含主流数据库以及各类的大数据相关的存储。支持的数据源的读写类型可以参考帮助文档。
二、区分不同的同步业务场景和技术方案的选择
这里有一张对照表,大家可以基于自己的技术或者业务的场景是按实时还是离线同步以及对应的不同的业务场景同步的细节方式会有不同,然后选择对应的同步方案以及在 dataworks 当中会有不同的入口。
在这里特别说明一下一些注释的注意点,比如有一些入口是 datastudio,它是 dataworks 当中的数据开发模块,然后提到的数据集成主占是指 dataworks 当中数据集成的模块,这两个模块在 dataworks 当中是并列的,但是由于部分历史的原因,有一些数据集成相关的任务还是在数据开发中 datastudio 当中操作的,随着后续产品的演进,在 datastudio 当中的各个跟数据集成同步相关的能力都会合并转移到数据集成当中。
所以在选择场景时要看一下选择的场景是不是对应在 dataworks 当中的入口,同时刚才提到有支持五十多种数据源,但是这些数据源当中能实现的离线还是实时的能力是不同的,所以大家可以分别看一下实时同步支持哪些数据源,离线同步可以支持哪些数据源。第三点是实时全增量同步,对于目标端引擎不支持 update 的,比如 mysanpute ,一般是拿着实时的增量数据与全量数据的周期性进行一个 merge,这有可能会产生引擎上的一些计算任务,比如 mysanpute 上的计算任务会由 mysanpute 进行计算时收费带来一定的费用。
第四点是在同步读取云数据库的场景下,本文中库的定义是当前云实际下数据源配置的有权限的所有库,以及场景整库同步是当前数据源配置账号所有的库,需要分清楚。
刚才只列举了一些同步场景和同步数据源的区别帮助大家区分,其实无论完成数据源到端的同步的话,dataworks 数据集成还有非常多的增值能力给大家选择。比如 dataworks 的数据集成是跟整个开发平台 dataworks 是相融合的,可以支持数据源开发与成产环境的隔离。也能支持对这些任务数据集成任务进行良好的运行,也支持数据质量监控,数据源审批策略管控,以及资源组等多种能力,接下来简单介绍一下这几种能力。
首先是支持数据源开发和生产隔离,数据同步是基于数据源进行配置的,配置数据源的时候为开发与生产环境分别配置不同的数据源。从而来实现开发与生产环境的隔离。数据源的开发与生产隔离以及数据源的管理可以参考具体的帮助文档。
第二点会支持数据集成的资源组,是 dataworks 的一个计费项,因为资源是独享的,所以可以保证数据同步任务特别是一些相当耗资源的实时同步任务,可以稳定、安全、可靠的执行。为独享数据集成资源组提供了各类不同的解决方案和增值能力。帮助大家快速的完成上云的第一步,更多独享资源的介绍大家可以参考帮助文档。
三、数据集成和 dataworks 各个模块的融合能力
比如在 dataworks 的运维中心当中可以实现对数据集成任务的监控,可以支持对同步任务进行比如包括任务未完成,任务出错,任务完成等场景的监控和报警,并且报警方式支持邮件、短信、电话、钉钉群机器人等各种各样的方式, webhoke 可以对接到企业自己的比如其他的像飞书、微博等不同的通信工具的进行报警,把报警发送到接收人。
数据集成同时还可以跟 dataworks 数据质量模块融合进行数据质量的监控,部分数据源会支持同步后的数据源进行数据质量的监控,目前部分表示支持配置数据质量校验的规则,具体的规则大家可以参考数据质量模块的概述。最后数据集成是可以跟 dataworks 中心融合的,在 dataworks 的审批中心当中会基于用户源端到目的端的组合定义到保存或者运行数据集成任务时,必须触发审批,针对数据同步的过程客户进行更灵活的管控,保证数据传输的安全,有可能会直接拒绝某一些数据同步的操纵,具体可以参考数据集成审批策略的产品详情与文档。