带你读《全链路数据治理-全域数据集成》之35:4.任务配置(上)

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 带你读《全链路数据治理-全域数据集成》之35:4.任务配置(上)

4. 任务配置

1) 创建同步任务

在 DataWorks 管控台进入数据集成主站,点击同步任务,新建任务。

image.png

选择分库分表实时同步至 MaxCompute 解决方案。

image.png

2) 配置同步网络连接

在数据来源中选择多个数据源,作为分库分表解决方案的数据来源,点击各个数据来源可以收缩、展开。其中多个数据源必须保持类型一致,比如都是 MySQL 数据源。


本步骤要求所选用的数据源和资源组具有网络连通性。

image.png

3) 设置任务名称

方案名称需要仅限输入英文数字下划线,描述信息填写限制相对宽泛。

image.png

4) 分库源表配置

分库分表解决方案同步的最小单位是逻辑表,一个逻辑表对应一套物理库表规则、一个目标 base 表。


自动生成逻辑表的功能,可以大大简化逻辑表的配置步骤,一般情况下,我们都可以使用自动生成逻辑表来扫描源端数据源,简化大部分配置操作。


如果自动扫描的结果不符合预期,只需要对自动扫描的结果做简单修正即可。

复杂的物理库表规则可以使用手动配置逻辑表功能实现。


5) 自动生成逻辑表

单击该步骤中的“自动生成逻辑表”按钮。

image.png

在数据源列表中选择部分数据源,用作生成逻辑表的扫描数据源。

image.png

假设我使用 2 个预设规则生成逻辑表:


l 将来源表名仅后缀数字不同的表合并为目标表。

l 直接将来源表名相同的表合并为目标表。


在一个有这些表的数据源执行自动生成:


l order_0

l order_1

l order_2

l user

l address


运行上述规则,可以算出 3 个目标表,其名称和正则分别是:

image.png
image.png



《全链路数据治理-全域数据集成》——六、分库表至 MaxCompute 实践——4.任务配置(中):https://developer.aliyun.com/article/1222934


相关文章
|
4天前
|
SQL 关系型数据库 MySQL
基于Hive的天气情况大数据分析系统(通过hive进行大数据分析将分析的数据通过sqoop导入到mysql,通过Django基于mysql的数据做可视化)
基于Hive的天气情况大数据分析系统(通过hive进行大数据分析将分析的数据通过sqoop导入到mysql,通过Django基于mysql的数据做可视化)
|
5天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
人工智能平台PAI产品使用合集之如何在odps上启动独立的任务
|
5天前
|
分布式计算 DataWorks 关系型数据库
DataWorks操作报错合集之数据源同步时,使用脚本模式采集mysql数据到odps中,使用querySql方式采集数据,在脚本中删除了Reader中的column,但是datax还是报错OriginalConfPretreatmentUtil - 您的配置有误。如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
5天前
|
机器学习/深度学习 分布式计算 运维
MaxCompute产品使用合集之任务执行时间不规律是什么导致的
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
存储 分布式计算 大数据
MaxCompute产品使用合集之读取OSS数据出现重复的情况是什么导致的
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
SQL 存储 分布式计算
MaxCompute产品使用合集之如何设置自动运行多次某个区间的任务
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之如何增加Reduce任务的个数
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之如何在本地IDE(如IntelliJ IDEA)中配置MaxCompute (mc) 的任务和调试SQL
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
存储 分布式计算 Java
MaxCompute产品使用合集之元仓包含哪些内容什么数据算是元仓表
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5天前
|
存储 分布式计算 大数据
MaxCompute产品使用合集之是否支持创建OSS外部表为分区表,并访问OSS上以分区方式存储的数据
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

热门文章

最新文章