2.1实时同步能力介绍 | 学习笔记

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 快速学习2.1实时同步能力介绍

开发者学堂课程【全链路数据治理-全域数据集成2.1实时同步能力介绍学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1082/detail/16059


2.1实时同步能力介绍


DataWorks 实时与同步能力介绍

首先介绍目前非常火热的实时同步,DataWorks的数据集成会为您提供数据同步的能力,方便使用单表同步或整库同步的方式将源端数据库中部分或全部的表数据变化实时同步到目标库中。它支持复杂网络下的数据同步,比如云数据库、本地或者ECS自建的数据库,或者非阿里云等数据库的环境下。

在配置前需要保证独享数据集成资源组与你的数据库进行网络连通,网络连通在后续会详细讲到。实时同步目前支持十种数据源,新型的链路组合并且支持单表实时同步至单表,整库数据至多表实时数据至多表,详细的数据源支持可以看目录。

第二点是注意实时同步使用的权限,实时同步目前是仅支持DataWo

rks独享数据集成资源组,就是上节课所介绍的。那么对于数据库类的数据源大家需要先开通数据库的实时认证能力,才能够获取数据库,实时获取数据库相关的数据。

第三点是实时的场景与配置,首先是单表ETL的实时同步,可以先将单个表或者talkpick的数据表当中,整个流程已经支持了图形化的数据开发,无需用户编写代码。那单表数据库至单表时支持使用拖拽的方式实时任务开发,很多业务的新手也能非常快的上手。

那单表增量实时同步可以根据业务需求对数据源进行数据过滤、字符串替换和数据脱敏处理后,再将数据输出至目标资源库。具体方案可以参考配置实施任务的方案。

第二点就是整库实时同步,这种实时方案一般是将整个数据库的变化日志同步到目标库当中,一般用做纯实时日志的收集。我们可以一次性配置一个实例下多个库的多个表任务库中最多支持三个目标,具体配置可以参考配置文档。

第三个是整库全增量实时同步,这个是在实时同步中使用比较频繁的业务场景,一般用作源端库持续同步到不同的目标端当中,以实现目标端对于源端的镜像效果。我们可以支持一次配置下一个实例中多个库的多个表,一个任务中最多支持三千个目标表,除了使用已有表作为目标表也支持自动生成目标,并且可以自动生成表名制定的规则。支持目标表增加附加字段,实时同步默认是按照同名映射源端同名字段到目标端的同名字段,会映射成功的字段将不参与同步。但我们支持制定目标表的字段与值。

数据集成实施同步在同步的目标端添加五个附加地以进行源数据管理排序去重等操作。同时我们支持自定义DDL、DML的消息处理策略,为保持数据符合预期实时同步任务支持对不同类型的DDL和DML的消息定义不同的处理策略,刚才是一些基础的实时能力与说明。

接下来就是实时能力的附加说明。第一点监控报警,在刚才我们讲到的DataWorks已经做了详细的描述。第二点就是断点续传的叙述,支持断点续传从指定位置起始位置开始同步,就是当你重启实时同步任务时我们可以进行断点续传,无需人工指定的一个点位,任务将自动从失败的点位开始读取数据。

第三点是脏数据对任务影响的定义。例如说源端的一些类型写到int类型的目标列中会导致因为转变不合理无法写入数据,脏数据不会成功写入目的端,我们在同步用配置时控制同步过程中是否允许出现脏数据,并且支持控制脏数据的条数,就是当脏数据超过指定条数时,那我们的任务会自动失败和退出。

以上就是在实时同步上的一些业务和能力,实时同步支持的数据源和对应的能力相对而言是不同的然后入口也不同。大家可以基于我们的表作参考。

相关文章
|
8天前
|
存储 SQL 分布式计算
MaxCompute 近实时增全量处理一体化新架构和使用场景介绍
本文主要介绍基于 MaxCompute 的离线近实时一体化新架构如何来支持这些综合的业务场景,提供近实时增全量一体的数据存储和计算(Transaction Table2.0)解决方案。
495 1
MaxCompute 近实时增全量处理一体化新架构和使用场景介绍
|
1月前
|
消息中间件 存储 数据采集
在线房产公司Zillow数据迁移至数据湖实践
在线房产公司Zillow数据迁移至数据湖实践
40 0
|
7月前
|
canal SQL 弹性计算
实时数据及离线数据上云方案
本实验通过使用CANAL、DataHub、DataWorks、MaxCompute服务,实现数据上云,解决了数据孤岛问题,同时把数据迁移到云计算平台,对后续数据的计算和应用提供了第一步开山之路。
144 0
|
11月前
|
弹性计算 DataWorks 数据库
带你读《全链路数据治理-全域数据集成》之4:1. 实时同步功能概述
带你读《全链路数据治理-全域数据集成》之4:1. 实时同步功能概述
197 0
|
11月前
|
数据采集 弹性计算 数据库
带你读《全链路数据治理-全域数据集成》之9:6. 离线同步功能概述
带你读《全链路数据治理-全域数据集成》之9:6. 离线同步功能概述
147 0
|
11月前
|
数据采集 运维 监控
带你读《全链路数据治理-全域数据集成》之3:3.数据同步增值能力
带你读《全链路数据治理-全域数据集成》之3:3.数据同步增值能力
218 0
|
数据采集 弹性计算 JSON
2.2离线同步能力介绍 | 学习笔记
快速学习2.2离线同步能力介绍
125 0
|
机器学习/深度学习 人工智能 分布式计算
离线实时一体化新能力解读| 学习笔记
快速学习离线实时一体化新能力解读
353 0
离线实时一体化新能力解读| 学习笔记
|
SQL 数据采集 存储
电商项目之数据同步采集总结|学习笔记
快速学习电商项目之数据同步采集总结
184 0
电商项目之数据同步采集总结|学习笔记
|
分布式计算 资源调度 关系型数据库
数据实时同步平台搭建
数据实时同步平台搭建