DataWorks熟能生巧系列直播第五期:数据集成批量生成同步任务

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 本文介绍了数据集成的整库迁移,批量上云和分库分表的操作,并进行了实操演示,对各种规则进行了解释,提出了需要注意的问题和解决方案。

分享人:DataWorks技术支持团队


我们在开发者社区学习路线里有发布一个DataWorks的学习路线,里面包含了入门讲解和熟能生巧系列的直播内容,大家可以去学习一下,需要主账号登陆学习哦:https://developer.aliyun.com/learning/course/81

本期视频地址:https://developer.aliyun.com/learning/course/81/detail/1242


数据集成的整库迁移、批量上云和分库分表功能,能够批量生成同步任务。

假设数据库内有100张表,原本可能需要配置100次数据同步任务,但通过整库迁移或批量上云可以一次性完成配置。


添加数据源

配置上面三种任务之前,要先添加数据源。

image.png

数据集成页面数据源菜单里有数据源配置页面的入口,点进去后可以配置数据源。

我们到数据源管理界面,这里可以选择添加单个的数据源,也可以批量添加数据源。我们选择添加单个的数据源,选择MySQL,再选择阿里云实例模式。

image.png


image.png


补充完信息之后,进行连通性测试,测试通过之后在配置整库迁移和批量上云的时候就能选择到相应的数据源。建议开发环境和生产环境都要添加数据源,否则看不到整库迁移的路口。

image.png


整库迁移

整库迁移的列表里我们点击对应数据源的整库迁移入口,一般在开发环境。示例以MySQL数据源同步到MaxCompute为例。

image.png

然后可以选择目标MaxCompute数据源以及同步任务的独享数据集成资源组进行数据同步。


批量上云

点击左侧批量上云菜单可以进入批量上云页,点击右上角“新建批量快速上云”来配置一个批量上云任务。

首先我们选择来源侧和目标端的数据源以及任务运行的资源组:

image.png


然后我们可以配置同步任务的一些转换规则。

image.png

其中表名转换规则和目标表名规则会影响目标端的表名,图片内配置效果如下:

目标表分区字段规则:按bizdate日期分区

表名转换规则:正则匹配,给目标表添加ods_$1前缀

字段名转换规则:pv字段改成pv_test

字段类型转换规则:int改成string

目标表新增字段规则:新增一个hello字段,string类型

目标表字段赋值规则:给hello字段赋值“ninhao”

数据过滤规则:pv要大于1

目标表明规则:目标表名为 来源表名+下划线+来源表类型(比如MySQL)


配置完规则后我们选择需要同步的表:

image.png


然后提交任务即可


分库分表

分库分表需要需要满足一些条件:

image.png


以上就是本次“数据集成批量生成同步任务”讲解的全部内容,有问题需要解答的同学可以扫码加一下我们的钉钉大群,群里有直播回放可以观看,技术支持的同学们也会回答大家的问题。

感谢大家的关注!

DataWorks部门主群二维码.JPG

















相关文章
|
1天前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用问题之DataWorks整库全增量同步任务的源库如果新增了表,如何能将这个表快速同步进maxcompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
JSON DataWorks 关系型数据库
DataWorks操作报错合集之同步Elasticsearch数据报错:Cat response did not contain a JSON Array,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
14天前
|
DataWorks NoSQL Java
DataWorks操作报错合集之数据集成使用公共数据集成资源组写入到redis数据源(使用的是VPC连接),提示以下错误:request action:[InnerVpcGrantVpcInstanceAccessToApp], message:[InvalidInstanceId.怎么解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
1天前
|
分布式计算 运维 大数据
MaxCompute产品使用问题之数据集成任务有脏数据,如何快速定位哪些字段有问题
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
14天前
|
分布式计算 DataWorks 数据库连接
DataWorks操作报错合集之同步脚本报错This error often occurs when a lot dirty data exists in the source data. 是什么原因
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
14天前
|
SQL 运维 DataWorks
DataWorks操作报错合集之同步任务同步到OSS,报错:Caused by: com.aliyun.oss.ClientException: The target server failed to respond,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
14天前
|
数据采集 SQL 分布式计算
DataWorks操作报错合集之在执行离线同步时,如果测试连接突然报错并出现类似于“exception occurs:path=[/di/testDetailConnectivity]”,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
14天前
|
分布式计算 DataWorks API
DataWorks操作报错合集之数据集成同步到本地数据库时,出现报错,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
1月前
|
Java 数据处理 调度
Dataphin常见问题之离线管道同步数据datax就报连接超时如何解决
Dataphin是阿里云提供的一站式数据处理服务,旨在帮助企业构建一体化的智能数据处理平台。Dataphin整合了数据建模、数据处理、数据开发、数据服务等多个功能,支持企业更高效地进行数据治理和分析。
|
21天前
|
数据采集 供应链 搜索推荐
数据集成:融合不同来源的数据
【6月更文挑战第4天】数据集成在企业中发挥关键作用,连接数据孤岛,促进信息流动,提升决策能力。通过抽取、清洗、转换和加载(ETL)不同来源、格式的数据,整合到统一框架,进行深度分析。以零售商为例,集成销售、客户和供应链数据可优化库存管理。数据清洗确保质量,转换满足分析需求,最终加载到数据仓库。Python和pandas库是实现这一过程的工具之一。随着技术进步,数据集成将推动企业向智能化和个性化发展。
42 2

热门文章

最新文章

相关产品

  • 大数据开发治理平台 DataWorks