开发者学堂课程【阿里云数据集成平台使用教程:数据集成—产品简介】学习笔记,与课程紧密连接,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/430/detail/5369
数据集成—产品简介
内容介绍
一、数据集成是什么
二、数据集成出现的背景
三、挑战与机遇
四、小结
一、数据集成是什么
数据集成是一站式解决异构数据存储互通消除数据孤岛的数据同步平台。
二、背景
1、在大数据时代,只有实现所有业务数据的汇聚,程序的数据才能产生价值。
在实际场景中,我们的业务数据会存放在各种数据存储中。
举例:将用户信息存储在 MYSQL 中;将用户经常访问的信息存储在缓存 Redis 中;将图片信息存储在云存储 OSS 中。
1.随着业务的发展和场景的不同,我们使用的存储是不同的,而且每种存储都有自己的存储结构。在这种情况下,要实现业务数据互通,传统的做法需要维护很多工具。
举例:将 MYSQL 数据同步到 Oracle 数据需要写个 Dump 工具;将 Oracle 数据同步的 Hadoop 需要去维护 Scope 。
三、挑战与机遇
1、传统方法给我们带来的挑战:
(1)不易运维。你会发现我们的应用每增加一种存储类型,我们需要的工具数目将呈几何级别增长,我们每天就忙着维护这些工具了。
(2)重复实现。刚才提到每种数据存储都有自身的数据结构,要实现两种数据存储互通,就需要实现数据结构的转换。
(3)局限于单机。你写的这些同步脚本就只能在一台机器上执行,一台机器的能力是有限的,同时还需要人肉的调度去配置 Chrome table 脚本。
2、针对这些挑战,阿里云数据集成是如何解决的呢?
(1)首先,我们将各种异构数据存储做了一层简单的抽象,异构数据存储抽象为数据源,数据采集的抽取端抽象为 Reader ,数据采集的目的端抽象为 Writer 。你将 H base 数据采集到Max computer 为例, H base 数据是抽取端,即H base reader , Max computer 是数据采集的目的端,即 Odps writer 。
(2)最后,数据采集的架构就由网状的工具结构变成了以数据集成为中心的辐射结构。
3、数据采集的构架有网状结构转变为以数据集成为中心的辐射结构,这样的转变可以给我们带来什么呢?
(1)首先,是一站式各种异构数据源的数据互通,数据将不再是孤岛。
(2)其次,只需要在各插件内实现数据类型到数据集成框架的类型转换即可。
(3)最后,数据集成本身实现了多线程分布式突破单机的瓶颈。
四、小结
只要两端的数据库性能足够好,数据集成可以将执行机器的网卡打满,数据采集的数据流向就从简单的端到端变成了从源端先到 Reader Plugin ,再到框架再到 Writer Plugin ,最后到达目的端。
目前,数据集成已经覆盖了90%的主流数据源的数据互通,从普通的关系型数据库,到开源生态存储,到阿里云的各种云存储,以及友商的云存储。