阿里云
为了无法计算的价值
打开APP
阿里云APP内打开
学习中心> 阿里云数据集成平台使用教程> 正文

阿里云数据集成平台使用教程

6课时 |
330人已学 |
免费
课程介绍

数据集成(Data Integration)是阿里集团对外提供的可跨异构数据存储系统的、可靠、安全、低成本、可弹性扩展的数据同步平台,为20+种数据源提供不同网络环境下的离线(全量/增量)数据进出通道。

产品详情:https://www.aliyun.com/product/cdp

 

-------------------------------------------------------------------------

阿里云数据库体验:数据库上云实战

开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。

点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl

数据集成—产品简介

 

内容介绍

  • 数据集成是什么
  • 数据集成出现的背景
  • 挑战与机遇
  • 小结

 

 

 

一、数据集成是什么

数据集成是一站式解决异构数据存储互通消除数据孤岛的数据同步平台。

 

二、背景

1、在大数据时代,只有实现所有业务数据的汇聚,程序的数据才能产生价值。

在实际场景中,我们的业务数据会存放在各种数据存储中。

 

举例:将用户信息存储在 MYSQL 中;将用户经常访问的信息存储在缓存 Redis 中;将图片信息存储在云存储 OSS 中。

 

 

  • 随着业务的发展和场景的不同,我们使用的存储是不同的,而且每种存储都有自己的存储结构。在这种情况下,要实现业务数据互通,传统的做法需要维护很多工具。

举例:将 MYSQL 数据同步到 Oracle 数据需要写个 Dump 工具;将 Oracle 数据同步的 Hadoop 需要去维护 Scope 。

 

三、挑战与机遇

1、传统方法给我们带来的挑战:

(1)不易运维。你会发现我们的应用每增加一种存储类型,我们需要的工具数目将呈几何级别增长,我们每天就忙着维护这些工具了。

 

(2)重复实现。刚才提到每种数据存储都有自身的数据结构,要实现两种数据存储互通,就需要实现数据结构的转换。

(3)局限于单机。你写的这些同步脚本就只能在一台机器上执行,一台机器的能力是有限的,同时还需要人肉的调度去配置 Chrome table 脚本。

 

2、针对这些挑战,阿里云数据集成是如何解决的呢?

(1)首先,我们将各种异构数据存储做了一层简单的抽象,异构数据存储抽象为数据源,数据采集的抽取端抽象为 Reader ,数据采集的目的端抽象为 Writer 。你将 H base 数据采集到Max  computer 为例, H base 数据是抽取端,即H base reader , Max computer 是数据采集的目的端,即 Odps writer 。

 

(2)最后,数据采集的架构就由网状的工具结构变成了以数据集成为中心的辐射结构。

3、数据采集的构架有网状结构转变为以数据集成为中心的辐射结构,这样的转变可以给我们带来什么呢?

(1)首先,是一站式各种异构数据源的数据互通,数据将不再是孤岛。

(2)其次,只需要在各插件内实现数据类型到数据集成框架的类型转换即可。

(3)最后,数据集成本身实现了多线程分布式突破单机的瓶颈。

 

四、小结

只要两端的数据库性能足够好,数据集成可以将执行机器的网卡打满,数据采集的数据流向就从简单的端到端变成了从源端先到 Reader Plugin ,再到框架再到 Writer Plugin ,最后到达目的端。

目前,数据集成已经覆盖了90%的主流数据源的数据互通,从普通的关系型数据库,到开源生态存储,到阿里云的各种云存储,以及友商的云存储。