带你读《全链路数据治理-全域数据集成》之25:4. 配置任务

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 带你读《全链路数据治理-全域数据集成》之25:4. 配置任务

4. 配置任务


1) 创建同步任务


l 新建业务流程:进入 DataWorks DataStudio(数据开发)页面,选中已存

在业务流程或新建业务流程。

image.png

l 创建离线同步节点:选中离线任务所属的业务流程,单击右键,新建“离线

同步”节点。

image.png

l 设置数据来源:设置数据源类型、数据源名称、待同步源表、数据过滤规则

和切分键。数据过滤规则支持数据源 SQL 的 where 过滤语句和 DataWorks

的调度系统参数。切分键用于并发同步时数据分片使用,为提升效率建议使

用主键或索引键,支持类型为数值型。设置完毕后可以点击“数据预览”键

查看预览数据。

image.png

l 设置数据去向:设置数据源类型、数据源名称(MaxCompute 数据类型可

以使用绑定引擎时默认建立的 odps_first 数据源)和目标表等参数。

Ø 目标表支持从下拉列表中选择,也支持使用“一键生成目标表”根据源

表 schema 新建目标表(注:一键生成目标表功能自动生成的 SQL 仅为基

础 SQL,用户如果有高级需求可以手动修改 SQL 或拷贝 SQL 到建表语句窗

口)。

Ø 数据写入支持 Insert Overwrite(清理写入前数据)和 Insert Into(保留

写入前数据)两种模式。

Ø 源表数据为空字符串时,支持两种处理模式。

image.png

l 配置字段的映射关系:选择数据来源和数据去向后,需要指定读取端和写入

端列的映射关系。您可以选择同名映射、同行映射、取消映射或自动排版。

image.png

image.png


l 配置通道控制:配置完成上述操作后,请进行通道控制。

image.png

image.png


2) 配置数据集成资源组

点击右侧“数据集成资源组配置”按钮设置同步任务运行的同步资源组。对于生产任务建议运行在独享同步资源组上,可以更好的保证任务的稳定运行和产出。可以选择已有的独享资源组或使用“新建独享数据集成资源组”按钮快速购买。如果是新建的独享数据集成资源组,需要保证源端和目标端数据源,和新建的数数据集成资源组连通性测试正常。

image.png


3) 配置调度属性

离线同步节点中,经常需要使用调度参数进行数据过滤和周期执行。可以点击右侧“调度配置”按钮设置同步任务运行所需的调度配置。重跑操作可根据业务需求设置不同的重跑策略,设置失败可重跑策略可以有效降低因为网络抖动等偶发问题导致的任务失败。其他设置可以根据业务需求选择是否修改。

image.png

相关文章
|
4月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
152 0
|
4月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
122 0
|
1月前
|
DataWorks 关系型数据库 Serverless
DataWorks数据集成同步至Hologres能力介绍
本次分享的主题是DataWorks数据集成同步至Hologres能力,由计算平台的产品经理喆别(王喆)分享。介绍DataWorks将数据集成并同步到Hologres的能力。DataWorks数据集成是一款低成本、高效率、全场景覆盖的产品。当我们面向数据库级别,向Hologres进行同步时,能够实现简单且快速的同步设置。目前仅需配置一个任务,就能迅速地将一个数据库实例内的所有库表一并传输到Hologres中。
60 12
|
6月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute 生态系统中的数据集成工具
【8月更文第31天】在大数据时代,数据集成对于构建高效的数据处理流水线至关重要。阿里云的 MaxCompute 是一个用于处理大规模数据集的服务平台,它提供了强大的计算能力和丰富的生态系统工具来帮助用户管理和处理数据。本文将详细介绍如何使用 DataWorks 这样的工具将 MaxCompute 整合到整个数据处理流程中,以便更有效地管理数据生命周期。
205 0
|
4月前
|
消息中间件 监控 Ubuntu
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
144 3
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
|
4月前
|
存储 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
66 1
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
|
4月前
|
算法 大数据 数据库
云计算与大数据平台的数据库迁移与同步
本文详细介绍了云计算与大数据平台的数据库迁移与同步的核心概念、算法原理、具体操作步骤、数学模型公式、代码实例及未来发展趋势与挑战。涵盖全量与增量迁移、一致性与异步复制等内容,旨在帮助读者全面了解并应对相关技术挑战。
82 3
|
4月前
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
234 5
|
4月前
|
运维 监控 数据可视化
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
215 1
|
4月前
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
235 4

热门文章

最新文章