带你读《全链路数据治理-全域数据集成》之25:4. 配置任务

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 带你读《全链路数据治理-全域数据集成》之25:4. 配置任务

4. 配置任务


1) 创建同步任务


l 新建业务流程:进入 DataWorks DataStudio(数据开发)页面,选中已存

在业务流程或新建业务流程。

image.png

l 创建离线同步节点:选中离线任务所属的业务流程,单击右键,新建“离线

同步”节点。

image.png

l 设置数据来源:设置数据源类型、数据源名称、待同步源表、数据过滤规则

和切分键。数据过滤规则支持数据源 SQL 的 where 过滤语句和 DataWorks

的调度系统参数。切分键用于并发同步时数据分片使用,为提升效率建议使

用主键或索引键,支持类型为数值型。设置完毕后可以点击“数据预览”键

查看预览数据。

image.png

l 设置数据去向:设置数据源类型、数据源名称(MaxCompute 数据类型可

以使用绑定引擎时默认建立的 odps_first 数据源)和目标表等参数。

Ø 目标表支持从下拉列表中选择,也支持使用“一键生成目标表”根据源

表 schema 新建目标表(注:一键生成目标表功能自动生成的 SQL 仅为基

础 SQL,用户如果有高级需求可以手动修改 SQL 或拷贝 SQL 到建表语句窗

口)。

Ø 数据写入支持 Insert Overwrite(清理写入前数据)和 Insert Into(保留

写入前数据)两种模式。

Ø 源表数据为空字符串时,支持两种处理模式。

image.png

l 配置字段的映射关系:选择数据来源和数据去向后,需要指定读取端和写入

端列的映射关系。您可以选择同名映射、同行映射、取消映射或自动排版。

image.png

image.png


l 配置通道控制:配置完成上述操作后,请进行通道控制。

image.png

image.png


2) 配置数据集成资源组

点击右侧“数据集成资源组配置”按钮设置同步任务运行的同步资源组。对于生产任务建议运行在独享同步资源组上,可以更好的保证任务的稳定运行和产出。可以选择已有的独享资源组或使用“新建独享数据集成资源组”按钮快速购买。如果是新建的独享数据集成资源组,需要保证源端和目标端数据源,和新建的数数据集成资源组连通性测试正常。

image.png


3) 配置调度属性

离线同步节点中,经常需要使用调度参数进行数据过滤和周期执行。可以点击右侧“调度配置”按钮设置同步任务运行所需的调度配置。重跑操作可根据业务需求设置不同的重跑策略,设置失败可重跑策略可以有效降低因为网络抖动等偶发问题导致的任务失败。其他设置可以根据业务需求选择是否修改。

image.png

相关文章
|
2天前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之如何查看数据离线同步每天从MySQL抽取的数据量
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
消息中间件 Java Kafka
集成Kafka到Spring Boot项目中的步骤和配置
集成Kafka到Spring Boot项目中的步骤和配置
33 7
|
1天前
|
数据采集 分布式计算 监控
MaxCompute产品使用问题之如何配置数据质量监控
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2天前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用问题之ods层离线同步任务,数据源的一张表新增了字段。如何更改可以不影响当前节点和下游任务的运行
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
druid Java 关系型数据库
在Spring Boot中集成Druid实现多数据源有两种常用的方式:使用Spring Boot的自动配置和手动配置。
在Spring Boot中集成Druid实现多数据源有两种常用的方式:使用Spring Boot的自动配置和手动配置。
45 5
|
2天前
|
分布式计算 DataWorks 数据可视化
MaxCompute产品使用问题之mongo离线同步导致null的字段不显示该怎么办
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
9天前
|
jenkins Java 持续交付
蓝易云 - 从零开始配置Jenkins与GitLab集成:一步步实现持续集成
以上就是从零开始配置Jenkins与GitLab集成的步骤,希望对你有所帮助。
29 2
|
15天前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之数据源同步时,使用脚本模式采集mysql数据到odps中,使用querySql方式采集数据,在脚本中删除了Reader中的column,但是datax还是报错OriginalConfPretreatmentUtil - 您的配置有误。如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
15天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之如何在本地IDE(如IntelliJ IDEA)中配置MaxCompute (mc) 的任务和调试SQL
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2天前
|
分布式计算 运维 大数据
MaxCompute产品使用问题之数据集成任务有脏数据,如何快速定位哪些字段有问题
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

热门文章

最新文章