带你读《全链路数据治理-全域数据集成》之1:1. 数据集成简介

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 带你读《全链路数据治理-全域数据集成》之1:1. 数据集成简介

image.png

image.png

1元开通与体验

DataWorksMaxComputeHologres

三款云原生一体化数仓产品


image.png



卷首语


云原生一体化数仓是阿里云整合自研大数据产品 MaxCompute、DataWorks、

Hologres 和实时计算 Flink 版推出的一站式大数据处理平台,具备流批一体、实时离线一体、湖仓一体、全链路数据治理四大核心能力,可以满足企业在建设大数据平台中对时效性、准确性、性价比、非结构化数据处理的需求,基于精简的架构,支撑全域数据分析需求和决策。


image.png


全链路数据治理包含智能数据建模全域数据集成高效数据开发主动数据

治理全面数据安全快速分析服务六大产品能力,覆盖数据的全生命周期。本篇全域数据集成向开发者介绍通过 DataWorks 数据集成在多表>>多表、多表>>单表、单 表>>单表等场景下,进行实时或离线同步的技术选型与核心能力,并以MaxCompute 与 Hologres 引擎为例,演示云上数据同步操作步骤最佳实践。


后续系列电子书更新请关注 DataWorks 官网或阿里云开发者社区。


l 云原生一体化数仓新能力电子书-8 月

l 智能数据建模电子书-9 月

l 全面数据安全电子书-10 月

l 离线实时一体化电子书-10 月

l 主动数据治理电子书-11 月中


DataWorks 官网:https://www.aliyun.com/product/bigdata/ide


一、数据同步场景下的技术选型


概述:数据同步的技术选择非常多样,开源的 DataX、canal 等技术都能实现数据同步的能力。本篇主要介绍通过 DataWorks 数据集成在多表>>多表、多表>>单表、单表>>单表等场景下,进行实时或离线同步的技术选型。


1. 数据集成简介


DataWorks 数据集成是开源 DataX 的商业化技术团队,作为大数据平台上下云的核心枢纽,将不同系统的数据相互打通,实现数据自由离线或实时流动,并致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动能力,繁杂业务背景下的数据同步解决方案。


DataWorks 数据集成目前已经支持 50+种数据源的读写能力。支持的数据源与读写能力


image.png

相关文章
|
1月前
|
API 数据库 流计算
有大佬知道在使用flink cdc实现数据同步,如何实现如果服务停止了对数据源表的某个数据进行删除操作,重启服务之后目标表能进行对源表删除的数据进行删除吗?
【2月更文挑战第27天】有大佬知道在使用flink cdc实现数据同步,如何实现如果服务停止了对数据源表的某个数据进行删除操作,重启服务之后目标表能进行对源表删除的数据进行删除吗?
47 3
|
6月前
|
消息中间件 大数据 Kafka
多云与混合云场景下的数据同步方案-KAFKA
多云与混合云场景下的数据同步方案-KAFKA
|
2月前
|
SQL Oracle 关系型数据库
Flink CDC数据同步问题之同步数据减少如何解决
Flink CDC数据同步是指利用Flink CDC实现不同数据源之间的实时数据同步任务;本合集旨在提供Flink CDC数据同步的操作指南、性能优化建议和常见问题处理,助力用户高效实施数据同步。
|
2月前
|
存储 SQL canal
Flink CDC数据同步问题之同步数据到checkpoint失败如何解决
Flink CDC数据同步是指利用Flink CDC实现不同数据源之间的实时数据同步任务;本合集旨在提供Flink CDC数据同步的操作指南、性能优化建议和常见问题处理,助力用户高效实施数据同步。
|
2月前
|
SQL 消息中间件 关系型数据库
Flink CDC数据同步问题之向kafka同步数据报错如何解决
Flink CDC数据同步是指利用Flink CDC实现不同数据源之间的实时数据同步任务;本合集旨在提供Flink CDC数据同步的操作指南、性能优化建议和常见问题处理,助力用户高效实施数据同步。
|
3月前
|
SQL 关系型数据库 MySQL
Apache Flink 和 Paimon 在自如数据集成场景中的使用
Apache Flink 和 Paimon 在自如数据集成场景中的使用
312 0
|
3月前
|
流计算
在使用FlinkSQL进行数据同步时,创建了一个新的任务,但发现无法删除旧任务同步的历史数据
在使用FlinkSQL进行数据同步时,创建了一个新的任务,但发现无法删除旧任务同步的历史数据
|
3月前
|
SQL 存储 关系型数据库
Apache Flink 和 Paimon 在自如数据集成场景中的使用
自如目前线上有基于 Hive 的离线数仓和基于 Flink、Kafka 的实时数仓,随着业务发展,我们也在探索引入湖仓一体的架构更好的支持业务,我们对比了 Iceberg、Hudi、Paimon 后,最终选择 Paimon 作为我们湖仓一体的存储引擎,本文分享下自如在引入 Paimon 做数据集成的一些探索实践。
691 1
Apache Flink 和 Paimon 在自如数据集成场景中的使用
|
5月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute
MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute
35 1
|
5月前
|
存储 监控 大数据
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第八章数据集成和互操作篇
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第八章数据集成和互操作篇

热门文章

最新文章