数据集成—产品简介 | 学习笔记

简介: 快速学习数据集成—产品简介

开发者学堂课程【阿里云数据集成平台使用教程数据集成—产品简介学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/430/detail/5369


数据集成—产品简介


内容介绍

一、数据集成是什么

二、数据集成出现的背景

三、挑战与机遇

四、小结


一、数据集成是什么

数据集成是一站式解决异构数据存储互通消除数据孤岛的数据同步平台。


二、背景

1、在大数据时代,只有实现所有业务数据的汇聚,程序的数据才能产生价值。

在实际场景中,我们的业务数据会存放在各种数据存储中。

举例:将用户信息存储在 MYSQL 中;将用户经常访问的信息存储在缓存 Redis 中;将图片信息存储在云存储 OSS 中。

image.png

1.随着业务的发展和场景的不同,我们使用的存储是不同的,而且每种存储都有自己的存储结构。在这种情况下,要实现业务数据互通,传统的做法需要维护很多工具。

举例:将 MYSQL 数据同步到 Oracle 数据需要写个 Dump 工具;将 Oracle 数据同步的 Hadoop 需要去维护 Scope


三、挑战与机遇

1、传统方法给我们带来的挑战:

1)不易运维。你会发现我们的应用每增加一种存储类型,我们需要的工具数目将呈几何级别增长,我们每天就忙着维护这些工具了。

2)重复实现。刚才提到每种数据存储都有自身的数据结构,要实现两种数据存储互通,就需要实现数据结构的转换。

3)局限于单机。你写的这些同步脚本就只能在一台机器上执行,一台机器的能力是有限的,同时还需要人肉的调度去配置 Chrome table 脚本。

2、针对这些挑战,阿里云数据集成是如何解决的呢?

1)首先,我们将各种异构数据存储做了一层简单的抽象,异构数据存储抽象为数据源,数据采集的抽取端抽象为 Reader ,数据采集的目的端抽象为 Writer 。你将 H base 数据采集到Max computer 为例, H base 数据是抽取端,即H base reader , Max computer 是数据采集的目的端,即 Odps writer 。

2)最后,数据采集的架构就由网状的工具结构变成了以数据集成为中心的辐射结构。

image.png

3、数据采集的构架有网状结构转变为以数据集成为中心的辐射结构,这样的转变可以给我们带来什么呢?

1)首先,是一站式各种异构数据源的数据互通,数据将不再是孤岛。

2)其次,只需要在各插件内实现数据类型到数据集成框架的类型转换即可。

3)最后,数据集成本身实现了多线程分布式突破单机的瓶颈。


四、小结

只要两端的数据库性能足够好,数据集成可以将执行机器的网卡打满,数据采集的数据流向就从简单的端到端变成了从源端先到 Reader Plugin ,再到框架再到 Writer Plugin ,最后到达目的端。

目前,数据集成已经覆盖了90%的主流数据源的数据互通,从普通的关系型数据库,到开源生态存储,到阿里云的各种云存储,以及友商的云存储。

相关文章
|
3月前
|
弹性计算 运维 Serverless
项目管理和持续集成系统搭建问题之云效流水线支持阿里云产品的企业用户如何解决
项目管理和持续集成系统搭建问题之云效流水线支持阿里云产品的企业用户如何解决
80 1
项目管理和持续集成系统搭建问题之云效流水线支持阿里云产品的企业用户如何解决
|
3月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据集成并发数不支持批量修改,该怎么办
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
并行计算 关系型数据库 分布式数据库
朗坤智慧科技「LiEMS企业管理信息系统」通过PolarDB产品生态集成认证!
近日,朗坤智慧科技股份有限公司「LiEMS企业管理信息系统软件」通过PolarDB产品生态集成认证!
|
3月前
|
Java jenkins Shell
jenkins学习笔记之五:Maven、Ant、Gradl、Node构建工具集成
jenkins学习笔记之五:Maven、Ant、Gradl、Node构建工具集成
|
3月前
|
jenkins 持续交付
jenkins学习笔记之六:共享库方式集成构建工具
jenkins学习笔记之六:共享库方式集成构建工具
|
3月前
|
SQL DataWorks 安全
DataWorks产品使用合集之调度资源组与集成资源内部的实例如何进行共用
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据集成任务日志中显示wait,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
Cloud Native 关系型数据库 大数据
定川信息「川立方数治平台」通过PolarDB产品生态集成认证!
杭州定川信息技术有限公司「川立方数据治理一体化智能平台」通过PolarDB产品生态集成认证!
|
3月前
|
存储 安全 测试技术
持续集成、交付和部署简介
持续集成、交付和部署简介
50 1
|
3月前
|
jenkins 持续交付
jenkins学习笔记之九:jenkins认证集成github
jenkins学习笔记之九:jenkins认证集成github

热门文章

最新文章