2.DataWorks 数据集成介绍及实践(二)|学习笔记

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习2.DataWorks 数据集成介绍及实践

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:2.DataWorks 数据集成介绍及实践】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1228


2.DataWorks 数据集成介绍及实践(二)

四、离线同步

1、核心亮点

(1)数据源种类多

支持50多种常见数据源,涵盖各种关系型数据库、文件系统、大数据系统、消息系统。

(2)解决方案

支持全量和增量同步支持整库、批量数据同步支持分库分表

精细化权限管控

数据源权限安全控制开发生产环境隔离方便开发流程管控,权限清晰同步流量控制

支持复杂调度

与 DataWorks 深度融和支持定时、条件调度千万级调度规模基线设定报警管理

2、同步原理

基于数据库 JDBC 协议或数据源 SDK 进行读写

源端到目标端之间任务是通过 datax 的引擎同步的,首先datax引擎通过jdb协议或者数据源的idc进行源库数据的统筹的拉取和分割任务,虽然是一个job,但是会分成多个task,这样可以并发的去读取数据,加快数据的同步,每一个task中,都有对应到读写的相当于子线程在里面,读可以去根据分割好的区域去源库里抽取数据,同时把数据塞到对应的缓存中,最后由写入端 writer,通过调用这样的gdbc或者idk的接口,把数据灌入到目标中,实现数据的读写。

3、同步引擎支持的数据源

支持50+关系型数据库、非结构化存储、大数据存储、消息队列之间的数据同步这些数据源合在一起,读写是交叉的,基本上都能够进行读写,可以组合成各种各样的同步链路,匹配实际中的生产需要。

4、数据源演示

数据连通性包含数据集成,包括做的任务。

5、离线同步任务演示

如何通过格式化的方式建立一个任务,在 datastudio 中新建一个任务,通过配置数据的来源,可以选择来源种类和对应的表,数据源的种类和对应的表,就自动的把表进行了字段映射,这就完成了离线同步任务的建立。


五、实时同步

1、特性

(1)数据处理

支持数据过滤、Groovy函数字符串替换

(2)丰富多样的数据源

支持星型链路组合,任何种输入源都可以和任何一种输出源搭配组成同步链路。支持一个任务读多写多路输出

读取MySQL、Oracle、sQLSeverOceanBase、Kafka、 LogHub

DataHub、PolarDB

写入MaxComputeHologres (支持动态增加列)Datahub、Kafka

(3)实时库监控抽取

支持分库分表、单表、整库多表、DDL消息

(4)监控运维告警可以监控业务延迟、Failover. 脏数据心跳检查、失败信息支持邮件、电话、钉钉通知

(5)解决方案系统

把实时和离线有机的做了一个整合,支持常见数据库的整库全增量到MaxCompute、Hologres (自 动先全量再持续增量)

2、架构

输入数据源经过实时库的抽取,分库分表,在或者实时消息流的对接,这些对接的数据可以进行数据的处理,包括数据过滤,groovy 函数,字符串替换,打星号的意思是在上线您的产品中 groovy 还处于波动,但是近期就会把它增值在项目,如果有需要的用户可以进行联系,进行点对点单独开通,包括后面的多路输出也是一样,是有能力进行一读多写的能力,就是读一个数据源,可以同时写入到多个不同的数据源中,最终把数据出去,下面与之支撑是运维的系统,包括的告警系统,上面可以更加抽象组成整库全增量解决方案,可以实现整库增量同步,可以把数据做自动增量的融合,这些解决方案只需要做一个简单配置即可。

image.png

3、核心技术点

脏数据收集机制

image.png

把脏数据进行统一的收集,收集后通过收集接口写入到收集的地方,包括写入到本地, loghub 中或者写入到 maxcompute

4、界面演示

(1)支持MysqI、Oracle、Datahub、Loghub、Kafka实时同步到Datahub、Kafka等目的端,通过拖拽即可完成开发。同步新建任务的展示,包括可以看到新建任务时,有几种任务,这里选择的单表进行展示。输入任务的名字,在界面中拖拽输入跟输出节点即可,进行连线完成源端到目标端的输出,配置来源数据,具体的表,可以看到字段是自动拉取出来的,目标端也一样,目标端可以把数据源选择一下,选择目标端表,可以针对表做字符串做字段的映射这就完成了实时同步的任务的配置。

(2)支持简单的数据过滤、替换及 Groovy 自定义处理能力。刚才任务中加数据节点,通过编辑数据处理的属性,就可以实现简单的数据处理,整个操作在探讨。


六、同步解决方案

不是面向一个任务进行单独的做任务的配置或者同步,还是面向一系列的使用场景,在场景中它会自动的去帮用户去建立,包括从建表,建立任务或者启动任务这些流程做统一的整合

1、整库迁移

帮助提升用户效率、降低用户使用成本的一种快捷工具,它可以快速

把一个关系型数据库(MySQL/Oracle/Sqlserver/DRDS等)内所有表一并上传到MaxCompute 的工作。把关系数据库里面所有的表进行一次性同步到MaxCompute中,选择目标后,可以把原选择库中所有的表进行逐一的同步,在这过程中会自动的进行建表,可以设置同步的时间点,是整批还是分批,都是可以。

2、批量上云

支持将多个数据库同时上传至 MaxCompute,选择三个数据源,把数据源上所有的表都同步到 MaxCompute 中,指定同步的间隔,提交任务,支持配置表名转换、字段名转换、字段类型转换、目标表新增字段、目标表字段赋值、数据过滤、目标表名前缀等规则,来满足多种业务场景需求。

3、解决方案系统

全增量实时同步

以非常方便的将现有数据库通过简单的配置后完成存量的全量迁移以及后续增量的实时同步。

这是全增量实时同步的解决方案,一键同步到 MaxCompute 的解决方案,操作都是一样的,选择源表,源库,选择目标库,hologress 选择完之后就可以把对应到的源表上所有对应的表,在hologress中进行建表,建立任务,指定对应的资源组,目前只能用独享资源组,建立好后,就有对应的解决任务,可以看到都是解决方案自动排放用户进行建立任务建立表等等,可以点击每个任务中查看详情

支持:

(1)自动在目标库建表

(2)自动建立离线同步任务

(3)自动建立实时任务

(4)自动启动离线任务

(5)自动启动实时任务

(6)自动建立和启动增量和全量的融和任务

(7)全流程分布监控和展示支持分步重试


七、收费模式

公有云收费模式

公有云中是分为4收费点进行收费,跟使用到的资源组相关的。

1、按实例数收费

前提:使用公共资源组按实例并发数阶梯计费可以使用预付费的资源包来节省费用

2、包年包月

前提:使用独享资源组只按照机器规格和年月时长计费,与运行实例数无关

3、版本费

前提:使用自定义资源组只在专业版及以上版本才提供支持自定义资源组

4、网络费

前提:使用了公网与阿里云进行数据传输。按照流量收取,阿里云统一标准国内: 0.8元/GB

相关文章
|
19天前
|
存储 缓存 NoSQL
深入理解Django与Redis的集成实践
深入理解Django与Redis的集成实践
42 0
|
26天前
|
运维 Devops jenkins
DevOps实践:自动化部署与持续集成的实现之旅
本文旨在通过一个实际案例,向读者展示如何将DevOps理念融入日常工作中,实现自动化部署和持续集成。我们将从DevOps的基础概念出发,逐步深入到工具的选择、环境的搭建,以及流程的优化,最终实现一个简单而高效的自动化部署流程。文章不仅提供代码示例,更注重于实践中的思考和问题解决,帮助团队提高软件开发和运维的效率。
|
19天前
|
运维 监控 Devops
DevOps实践:自动化部署与持续集成的融合之旅
【10月更文挑战第7天】在软件开发领域,DevOps已成为一种文化和实践,它倡导开发(Dev)与运维(Ops)之间的协作与整合。本文将引导读者了解如何通过自动化部署和持续集成(CI)的实践来提升软件交付的速度和质量。我们将探讨一些实用的工具和技术,以及它们是如何帮助团队高效地管理代码变更、测试和部署的。文章将不包含代码示例,但会详细解释概念和流程,确保内容的通俗易懂和条理性。
125 62
|
19天前
|
运维 监控 Devops
DevOps实践:持续集成与部署的自动化之旅
【10月更文挑战第7天】在软件开发领域,DevOps已成为提升效率、加速交付和确保质量的关键策略。本文将深入探讨如何通过实施持续集成(CI)和持续部署(CD)来自动化开发流程,从而优化运维工作。我们将从基础概念入手,逐步过渡到实际操作,包括工具选择、流程设计以及监控和反馈机制的建立。最终,我们不仅会展示如何实现这一自动化流程,还会讨论如何克服常见的挑战,以确保成功实施。
55 9
|
16天前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
59 1
|
21天前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
66 3
|
4天前
|
运维 安全 Devops
DevOps实践:持续集成与持续部署(CI/CD)的自动化之路
【10月更文挑战第22天】在软件交付的快速迭代中,DevOps文化和实践成为企业加速产品上市、保证质量和提升客户满意度的关键。本文将通过一个实际案例,深入探讨如何利用持续集成(Continuous Integration, CI)和持续部署(Continuous Deployment, CD)实现软件开发流程的高效自动化,包括工具选择、流程设计以及问题解决策略。我们将一起探索代码从编写到部署的全自动化旅程,揭示其对企业运维效率和产品质量所带来的深远影响。
|
29天前
|
运维 Devops jenkins
DevOps实践:自动化部署与持续集成的实现
【9月更文挑战第36天】本文通过深入浅出的方式,向读者展示了在现代软件开发中,DevOps如何通过自动化部署和持续集成提高开发效率和软件质量。文章不仅介绍了相关概念,还提供了实用的代码示例,帮助读者理解如何在实际工作中应用这些技术。
|
1月前
|
Devops jenkins 测试技术
DevOps实践:持续集成与持续部署(CI/CD)的实现之路
【9月更文挑战第33天】在软件开发的海洋中,DevOps是一艘能够加速航行、提升航程质量的巨轮。本文将作为你的航海图,指引你理解并实现DevOps文化中的核心环节——持续集成(CI)与持续部署(CD)。我们将从基础概念出发,逐步深入到实际操作,带你领略代码到部署的全过程。准备好扬帆起航,让我们共同探索如何通过自动化工具和流程优化,让软件交付变得既高效又可靠。
|
1月前
|
监控 Devops 测试技术
DevOps实践:持续集成与部署的自动化之路
【9月更文挑战第30天】在软件工程的世界中,DevOps已成为提升开发效率、确保软件质量和加快交付速度的关键策略。本文将深入探讨如何通过自动化工具和流程实现持续集成(CI)与持续部署(CD),从而优化软件开发周期。我们将从基础概念出发,逐步深入到实际操作,最终展示如何构建一个高效的自动化流水线,以支持快速迭代和高质量发布。
54 7

热门文章

最新文章