带你读《全链路数据治理-全域数据集成》之13:10. 离线同步附加能力

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 带你读《全链路数据治理-全域数据集成》之13:10. 离线同步附加能力

10. 离线同步附加能力


1) 字段映射关系与赋值


在同步任务配置过程中,您可通过字段映射,来定义源端字段与目标端字段的读取和写入关系,源端某字段数据将会根据字段映射关系写入目标端对应类型的字段中。


支持多种字段映射方式:向导模式默认同名映射、脚本模式默认脚标映射;向导模式支持同行映射;并支持自定义所有字段或部分字段的字段关系。


目标表字段赋值:支持赋值常量,赋值变量(支持使用调度参数,关系型数据库支持使用函数),支持编辑源端字段,例如通过 max(id)控制获取到的字段返回值。


2) 作业速率上限控制


您可通过界面通道配置,控制数据同步过程相关属性。


l 支持通过并发控制来限制数据集成读取和写入数据库的最大并发数。

l 支持通过限流控制来保护数据库读写压力。在不限流的情况下,任务将在所

配置的并发数的限制基础上,提供现有硬件环境下最大的传输性能。


3) 分布式模式执行任务


部分数据源支持分布式模式执行任务,分布式执行模式可以将您的任务切片分散到多台执行节点上并发执行,进而做到同步速度随执行集群规模做水平扩展,突破单机执行瓶颈。如果您对于同步性能有比较高的诉求可以使用分布式模式。 另外分布式模式也可以使用机器的碎片资源,对资源利用率友好。


说明具体数据源是否支持分布式执行详情请参见各插件文档。


4) 脏数据个数控制及定义其对任务影响(脏数据检查规则)


数据集成默认允许脏数据产生,支持您对同步过程产出的脏数据个数设置阈值,定义其影响,即当脏数据产生或产生多少条时,任务失败退出。


l 脏数据认定标准:脏数据是对于业务没有意义,格式非法或者同步过程中出

现问题的数据。单条数据写入目标数据源过程中发生了异常,则此条数据为

脏数据。因此只要是写入失败的数据均被归类于脏数据。大部分场景为格式

非法的数据。


例如源端是 VARCHAR 类型的数据写到 INT 类型的目标列中,导致因为转换不合理而无法写入的数据。脏数据不会成功写入目的端。您可以在同步任务配置时,控制同步过程中是否允许脏数据产生,并且支持控制脏数据条数,即当脏数据超过指定条数时,任务失败退出。

相关文章
|
14天前
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
14天前
|
DataWorks 安全 关系型数据库
DataWorks常见问题之使用公共数据集成资源组进行同步失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
14天前
|
分布式计算 DataWorks 数据库
DataWorks操作报错合集之DataWorks使用数据集成整库全增量同步oceanbase数据到odps的时候,遇到报错,该怎么处理
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
27 0
|
14天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之在DataWorks中,查看ODPS表的OSS对象如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
31 1
|
14天前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
38 0
|
14天前
|
DataWorks 安全 关系型数据库
DataWorks产品使用合集之在 DataWorks 中使用数据集成从 MySQL 导入数据到 GDB 执行同步任务脚本的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
32 0
|
14天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在使用 DataWorks 数据集成同步 PostgreSQL 数据库中的 Geometry 类型数据如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
31 0
|
14天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之DataWorks 数据集成在同步任务中实现数据转换如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
28 1
|
14天前
|
DataWorks NoSQL MongoDB
DataWorks常见问题之如何集成离线数据
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
14天前
|
分布式计算 DataWorks Java
DataWorks常见问题之数据集成导出分区表的全量数据如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。

热门文章

最新文章