带你读《全链路数据治理-全域数据集成》之35:4.任务配置(上)

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
简介: 带你读《全链路数据治理-全域数据集成》之35:4.任务配置(上)

4. 任务配置

1) 创建同步任务

在 DataWorks 管控台进入数据集成主站,点击同步任务,新建任务。

image.png

选择分库分表实时同步至 MaxCompute 解决方案。

image.png

2) 配置同步网络连接

在数据来源中选择多个数据源,作为分库分表解决方案的数据来源,点击各个数据来源可以收缩、展开。其中多个数据源必须保持类型一致,比如都是 MySQL 数据源。


本步骤要求所选用的数据源和资源组具有网络连通性。

image.png

3) 设置任务名称

方案名称需要仅限输入英文数字下划线,描述信息填写限制相对宽泛。

image.png

4) 分库源表配置

分库分表解决方案同步的最小单位是逻辑表,一个逻辑表对应一套物理库表规则、一个目标 base 表。


自动生成逻辑表的功能,可以大大简化逻辑表的配置步骤,一般情况下,我们都可以使用自动生成逻辑表来扫描源端数据源,简化大部分配置操作。


如果自动扫描的结果不符合预期,只需要对自动扫描的结果做简单修正即可。

复杂的物理库表规则可以使用手动配置逻辑表功能实现。


5) 自动生成逻辑表

单击该步骤中的“自动生成逻辑表”按钮。

image.png

在数据源列表中选择部分数据源,用作生成逻辑表的扫描数据源。

image.png

假设我使用 2 个预设规则生成逻辑表:


l 将来源表名仅后缀数字不同的表合并为目标表。

l 直接将来源表名相同的表合并为目标表。


在一个有这些表的数据源执行自动生成:


l order_0

l order_1

l order_2

l user

l address


运行上述规则,可以算出 3 个目标表,其名称和正则分别是:

image.png
image.png



《全链路数据治理-全域数据集成》——六、分库表至 MaxCompute 实践——4.任务配置(中):https://developer.aliyun.com/article/1222934


相关文章
|
13天前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
36 0
|
13天前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
50 0
|
14天前
|
消息中间件 监控 Ubuntu
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
47 3
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
|
13天前
|
存储 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
31 1
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
|
15天前
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
82 5
|
12天前
|
运维 监控 数据可视化
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
30 1
|
13天前
|
消息中间件 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
34 2
|
13天前
|
消息中间件 分布式计算 Java
大数据-73 Kafka 高级特性 稳定性-事务 相关配置 事务操作Java 幂等性 仅一次发送
大数据-73 Kafka 高级特性 稳定性-事务 相关配置 事务操作Java 幂等性 仅一次发送
21 2
|
15天前
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
38 4
|
15天前
|
分布式计算 资源调度 Hadoop
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
45 4

热门文章

最新文章