带你读《全链路数据治理-全域数据集成》之6:3. 实时同步场景与配置

本文涉及的产品
DataWorks Serverless资源组免费试用套餐,300CU*H 3个月
简介: 带你读《全链路数据治理-全域数据集成》之6:3. 实时同步场景与配置

3. 实时同步场景与配置


1) 单表 ETL 实时同步


l 将单个表或者 topic 内的数据同步到另外一个表中,整个流程支持图形化开

发无需编写代码,单表实时同步至单表时,支持使用托拽的方式实现任务开

发,业务新手也能够轻松上手。


l 单表增量数据实时同步场景下,您可以根据业务需求,对输入数据源进行数

据过滤、字符串替换和数据脱敏处理后,再将数据输出至目标数据库。


Ø 数据过滤:可以对数据进行规则过滤,例如过滤字段的大小等,符合规

则的数据才会被保留。

Ø 字符串替换:可以通过字符串替换节点替换字符串类型的字段。

Ø 数据脱敏:可以对实时同步的单表数据进行脱敏,将脱敏后的数据输出

至目标数据库。


l 具体配置方案请参考配置实时同步任务


2) 整库实时同步


l 将整个数据库的变化日志同步到目标端中,一般用作纯实时日志的收集。

l 可以一次性配置一个实例下多个库的多个表,一个任务中最多支持 3000 个

目标表。

l 具体配置方案请参考配置实时同步任务


3) 整库全增量实时同步


l 是实时同步使用最频繁的业务场景,一般用作将源端库持续不停地同步到

目标端中,以期实现目标端对于源端的镜像效果。

l 可以一次性配置一个实例下多个库的多个表,一个任务中最多支持 3000 个

目标表。

l 除了直接使用已有表作为目标表,也支持自动生成目标 schema/表,并且

可以自定义目标 schema/表名生成规则。

l 支持目标表添加附加字段,实时同步默认按照默认按照同名映射,源端同名

字段写入目标端同名字段,未映射成功的字段将不参与同步,但支持您定义

目标表字段与值。

l 数据集成实时同步在同步 MySQL、Oracle、Loghub 和 PolarDB 类型的数

据至 DataHub 或 Kafka 时,会在同步的目标端添加 5 个附加列,以进行元

数据管理、排序去重等操作。详情请参见实时同步字段格式

l 支持定义 DDL/DML 消息处理策略,为保障数据符合预期,实时同步任务支

持对不同类型的 DDL/DML 消息定义不同的处理策略。

l 具体配置方案请参考配置同步任务解决方案

相关文章
|
4月前
|
数据采集 DataWorks 安全
DataWorks产品使用合集之选择独享调度,数据集成里可以使用,但是数据地图里面测试无法通过,是什么原因导致的
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
41 0
DataWorks产品使用合集之选择独享调度,数据集成里可以使用,但是数据地图里面测试无法通过,是什么原因导致的
|
3月前
|
SQL DataWorks 关系型数据库
DataWorks产品使用合集之数据集成时源头提供数据库自定义函数调用返回数据,数据源端是否可以写自定义SQL实现
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
DataWorks 安全 API
DataWorks产品使用合集之是否可以不使用DataWorks进行EMR的调度和DataX数据导入
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
数据采集 分布式计算 大数据
MaxCompute产品使用合集之数据集成中进行数据抽取时,是否可以定义使用和源数据库一样的字符集进行抽取
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
3月前
|
分布式计算 DataWorks 数据挖掘
DataWorks操作报错合集之上传数据时报错com.alibaba.datax.common.exception.DataXException: Code:[UnstructuredStorageReader-11],该如何排查
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
3月前
|
SQL 存储 JSON
DataWorks产品使用合集之没有dev环境的project,如何创建数据集成任务时完成网络与资源配置
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
数据采集 SQL DataWorks
【颠覆想象的数据巨匠】DataWorks——远超Excel的全能数据集成与管理平台:一场电商数据蜕变之旅的大揭秘!
【8月更文挑战第7天】随着大数据技术的发展,企业对数据处理的需求日益增长。DataWorks作为阿里云提供的数据集成与管理平台,为企业提供从数据采集、清洗、加工到应用的一站式解决方案。不同于桌面级工具如Excel,DataWorks具备强大的数据处理能力和丰富的功能集,支持大规模数据处理任务。本文通过电商平台案例,展示了如何使用DataWorks构建数据处理流程,包括多源数据接入、SQL任务实现数据采集、数据清洗加工以提高质量,以及利用分析工具挖掘数据价值的过程。这不仅凸显了DataWorks在大数据处理中的核心功能与优势,还展示了其相较于传统工具的高扩展性和灵活性。
98 0
|
4月前
|
DataWorks Java 调度
DataWorks产品使用合集之进行离线同步时,如何使用DataX的Reader插件来实现源端过滤
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
58 0
DataWorks产品使用合集之进行离线同步时,如何使用DataX的Reader插件来实现源端过滤
|
4月前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之数据源同步时,使用脚本模式采集mysql数据到odps中,使用querySql方式采集数据,在脚本中删除了Reader中的column,但是datax还是报错OriginalConfPretreatmentUtil - 您的配置有误。如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
4月前
|
SQL DataWorks 安全
DataWorks产品使用合集之在进行测试数据集成时,目标库的数据是源库数据的3倍量,是什么导致的
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
DataWorks产品使用合集之在进行测试数据集成时,目标库的数据是源库数据的3倍量,是什么导致的

热门文章

最新文章

下一篇
无影云桌面