带你读《全链路数据治理-全域数据集成》之6:3. 实时同步场景与配置

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 带你读《全链路数据治理-全域数据集成》之6:3. 实时同步场景与配置

3. 实时同步场景与配置


1) 单表 ETL 实时同步


l 将单个表或者 topic 内的数据同步到另外一个表中,整个流程支持图形化开

发无需编写代码,单表实时同步至单表时,支持使用托拽的方式实现任务开

发,业务新手也能够轻松上手。


l 单表增量数据实时同步场景下,您可以根据业务需求,对输入数据源进行数

据过滤、字符串替换和数据脱敏处理后,再将数据输出至目标数据库。


Ø 数据过滤:可以对数据进行规则过滤,例如过滤字段的大小等,符合规

则的数据才会被保留。

Ø 字符串替换:可以通过字符串替换节点替换字符串类型的字段。

Ø 数据脱敏:可以对实时同步的单表数据进行脱敏,将脱敏后的数据输出

至目标数据库。


l 具体配置方案请参考配置实时同步任务


2) 整库实时同步


l 将整个数据库的变化日志同步到目标端中,一般用作纯实时日志的收集。

l 可以一次性配置一个实例下多个库的多个表,一个任务中最多支持 3000 个

目标表。

l 具体配置方案请参考配置实时同步任务


3) 整库全增量实时同步


l 是实时同步使用最频繁的业务场景,一般用作将源端库持续不停地同步到

目标端中,以期实现目标端对于源端的镜像效果。

l 可以一次性配置一个实例下多个库的多个表,一个任务中最多支持 3000 个

目标表。

l 除了直接使用已有表作为目标表,也支持自动生成目标 schema/表,并且

可以自定义目标 schema/表名生成规则。

l 支持目标表添加附加字段,实时同步默认按照默认按照同名映射,源端同名

字段写入目标端同名字段,未映射成功的字段将不参与同步,但支持您定义

目标表字段与值。

l 数据集成实时同步在同步 MySQL、Oracle、Loghub 和 PolarDB 类型的数

据至 DataHub 或 Kafka 时,会在同步的目标端添加 5 个附加列,以进行元

数据管理、排序去重等操作。详情请参见实时同步字段格式

l 支持定义 DDL/DML 消息处理策略,为保障数据符合预期,实时同步任务支

持对不同类型的 DDL/DML 消息定义不同的处理策略。

l 具体配置方案请参考配置同步任务解决方案

相关文章
|
3月前
|
机器学习/深度学习 SQL 大数据
什么是数据集成?和数据融合有什么区别?
在大数据领域,“数据集成”与“数据融合”常被混淆。数据集成关注数据的物理集中,解决“数据从哪来”的问题;数据融合则侧重逻辑协同,解决“数据怎么用”的问题。两者相辅相成,集成是基础,融合是价值提升的关键。理解其差异,有助于企业释放数据潜力,避免“数据堆积”或“盲目融合”的误区,实现数据从成本到生产力的转变。
什么是数据集成?和数据融合有什么区别?
|
8月前
|
SQL 弹性计算 DataWorks
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
Flink CDC 在阿里云 DataWorks 数据集成入湖场景的应用实践
401 6
|
8月前
|
JSON 分布式计算 DataX
【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute
本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。
|
11月前
|
人工智能 安全 DataX
【瓴羊数据荟】 Data x AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期
第三期瓴羊数据Meetup 将于2025年1月3日在线上与大家见面,共同探讨AI时代的数据治理实践。
956 10
【瓴羊数据荟】 Data x  AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期
|
数据采集 DataWorks 安全
DataWorks产品使用合集之选择独享调度,数据集成里可以使用,但是数据地图里面测试无法通过,是什么原因导致的
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
175 0
DataWorks产品使用合集之选择独享调度,数据集成里可以使用,但是数据地图里面测试无法通过,是什么原因导致的
|
SQL DataWorks 关系型数据库
DataWorks产品使用合集之数据集成时源头提供数据库自定义函数调用返回数据,数据源端是否可以写自定义SQL实现
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
DataWorks 安全 API
DataWorks产品使用合集之是否可以不使用DataWorks进行EMR的调度和DataX数据导入
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
分布式计算 DataWorks 数据挖掘
DataWorks操作报错合集之上传数据时报错com.alibaba.datax.common.exception.DataXException: Code:[UnstructuredStorageReader-11],该如何排查
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
数据采集 分布式计算 大数据
MaxCompute产品使用合集之数据集成中进行数据抽取时,是否可以定义使用和源数据库一样的字符集进行抽取
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
163 1
|
SQL 存储 JSON
DataWorks产品使用合集之没有dev环境的project,如何创建数据集成任务时完成网络与资源配置
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
下一篇
oss云网关配置