数据仓库—数据集成

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 其实数据集成是数仓的一个基本特点,这里我们再回顾一下数仓的特性,或者说是我们再回顾一下数仓的定义,面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策的数据系统。

其实数据集成是数仓的一个基本特点,这里我们再回顾一下数仓的特性,或者说是我们再回顾一下数仓的定义,面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策的数据系统。


今天我们学习的数据集成指的是“集成的” 特性,说到数据集成我们就不得不说我们为什么要建设数仓了,关于数仓是是什么或者是服务于什么的我们已经说过了,那就是数仓主要是用来做决策的,也就是从数据的角度出发去做决策,而不是纯粹的拍脑袋去决策

所以这个时候数据准确性就很重要,这里的数据准确性不仅仅指的是我们的数据计算准确,而是指的是我们的数据本身要能够反应事实,也就是说我们要拿合适的数据来干正确的事情。


我们将以前分散的数据收集到一起不仅仅是为了打破数据壁垒,我们更希望能进行统一处理,从而提高数据的可信性、提高数据的生产效率问题,所以说数据集成并不是单单指的是数据收集,可能一说到数据集成大家想到的可能就是 sqoop、dataX、maxwell 这样的数据同步工具,这个想法本身没错,但是这些仅仅是工具,是开始而已。


数据集成的背景


集成的目的是为了打通数据从而更加准确的描述业务,从而更好的为业务赋能,这里举一个例子介绍我现在有三个决策系统,都需要一份业务数据,那这个时候三个系统都会从业务数据库拉去数据,这个时候就会引发很多问题

  1. 对业务库的压力太大
  2. 每个系统都有自己的逻辑、产出不准确、数据无法核对
  3. 每个系统都有资源消耗


在企业中,由于开发时间开发部门的不同,往往有多个异构的、运行在不同的软硬件平台上的信息系统同时运行,这些系统的数据源彼此独立、相互封闭,使得数据难以在系统之间交流、共享和融合,从而形成了"信息孤岛"。随着信息化应用的不断深入,企业内部、企业与外部信息交互的需求日益强烈,急切需要对已有的信息进行整合,打通信息孤岛,共享信息。


数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。


数据集成通过应用间的数据交换从而达到集成,主要解决数据的分布性和异构性的问题,其前提是被集成应用必须公开数据结构,即必须公开表结构,表间关系,编码的含义等


数据集成的分类


在企业数据集成领域,已经有了很多成熟的框架可以利用。通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。在这里将对这几种数据集成模型做一个基本的分析。


联邦数据库系统


联邦数据库系统( FDBS)由半自治数据库系统构成,相互之间分享数据,联盟各数据源之间相互提供访问接口,同时联盟数据库系统可以是集中数据库系统或分布式数据库系统及其他联邦式系统。


在这种模式下又分为紧耦合和松耦合两种情况,紧耦合提供统一的访问模式,一般是静态的,在增加数据源上比较困难;而松耦合]则不提供统一的接口,但可以通过统一的语言访问数据源,其中核心的是必须解决所有数据源语义上的问题。


中间件模式


中间件模式通过统一的全局数据模型来访问异构的数据库、遗留系统、Web 资源等。

中间件位于异构数据源系统[数据层) 和应用程序(应用层) 之间,向上协调各数据源系统,向下为访问集成数据的应用提供统一数据模式和数据访问的通用接口。各数据源的应用仍然完成它们的任务,中间件系统则主要集中为异构数据源提供一个高层次的数据收集和分发服务。


中间件模式是比较流行的数据集成方法,它通过在中间层提供一个统一的数据逻辑视图来隐藏底层的数据细节,使得用户可以把集成数据源看为一个统一的整体。这种模型下的关键问题是如何构造这个逻辑视图并使得不同数据源之间能映射到这个中间层。


比较主流的中间件模式是使用一些高性能的消息队列,例如kafak、pulsar 等,也就是说我们的多个数据源将自己的数据发送到kafka ,下游的集成系统再从kafka 进行消费数据,从而完成数据集成。


数据仓库模式


数据仓库在另外一个层面上表达数据之间的共享,它主要是为了针对企业某个应用领域提出的一种数据集成方法,也就是我们在上面所提到的面向主题并为企业提供数据挖掘和决策支持的系统。


所以说数据仓库的数据集成其实是按照域对数据集成进行划分管理的,其实这就和我们的宽表建设进行了呼应,可以参考数仓建模—宽表的设计,所以说数据集成它不等于数据堆集,也不等于数据同步,不是说我把数据同步到一个地方,然后使用的时候就可以在这个地方找得到这就是数据集成。


数据集成的目的是为了打通数据孤岛,数据同步到一起,孤岛还在,这个时候要我们需要按照业务特点进行加工才可以建设我们的数仓表,这样才算是完成了数据集成。

所以我们可以看到前面的联邦数据库系统、中间件模式 只是在一定程度上的数据集成工具,但是它并没有完成业务意义上的数据集成。


数据集成的含义


这里我们还是要说一下数据集成的含义,否则你可能认为数据集成就是数据同步,或者是数据同步平台(d_BUS)的建设


  1. 数据集成需要有数据同步的能力,也就是说需要将散落在各处的数据同步过来,这里会涉及到各种异构数据源,所以对我们的数据平台能力有一定的要求,例如支持各种数据库的能力、支持实时和离线的数据同步能力


  1. 按照业务特点对同步过来的数据进行清洗加工,然后以宽表的形式堆外提供服务,这里的宽表才是我们业务上集成的含义


  1. 集成也是有要求的,也就是说我们是在特定的数据域下进行集成的。


总结


  1. 数据集成是数仓的特性,所以数仓需要具备数据集成的能力


  1. 数据集成它不等价于数据同步平台,数据同步只是数据集成的第一步


 3.数据集成的目的是为了打通数据孤岛,从而更好的支持企业的数据决策,数仓打破数   据孤岛的方式是将各个业务系统数据集中到一个统一的、集中的 数据仓库,而达到这个目的方式就是数据集成

目录
相关文章
|
2月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
存储 运维 分布式计算
数澜科技全面集成阿里云自研AnalyticDB数据仓库 ,打造轻量级数据中台
7月12日,记者采访获悉,在上海举办的阿里云生态策略升级&伙伴招募发布会上,数澜科技与阿里云达成技术合作,数澜科技旗下核心产品数栖平台全面集成阿里云自研数据仓库AnalyticDB,为金融客户打造轻量级数据中台解决方案。
487 0
数澜科技全面集成阿里云自研AnalyticDB数据仓库 ,打造轻量级数据中台
|
存储 运维 分布式计算
数澜科技全面集成阿里云AnalyticDB数据仓库 打造轻量级数据中台
在上海举办的阿里云生态策略升级&伙伴招募发布会上,数澜科技与阿里云达成技术合作,数澜科技旗下核心产品数栖平台全面集成阿里云自研数据仓库AnalyticDB,为金融客户打造轻量级数据中台解决方案。据了解,数澜科技全面集成阿里云自研数据仓库AnalyticDB之后,所打造的轻量级数据中台,将能够满足客户对大规模、不同格式类型的数据处理需求,同时可以简化数据中台底层架构,实现传统数仓到实时数仓的进化,快速让数据价值流动起来。
829 0
数澜科技全面集成阿里云AnalyticDB数据仓库 打造轻量级数据中台
|
数据采集 数据管理 大数据
【DBMS 数据库管理系统】数据仓库特征 ( 特征一 : 面向主题组织数据 | 特征二 : 数据集成 | 特征三 : 数据不可更新 | 特征四 : 随时间不断变化 )
【DBMS 数据库管理系统】数据仓库特征 ( 特征一 : 面向主题组织数据 | 特征二 : 数据集成 | 特征三 : 数据不可更新 | 特征四 : 随时间不断变化 )
278 0
|
SQL 存储 消息中间件
Flink 作为现代数据仓库的统一引擎:Hive 集成生产就绪!
如果你对以上问题深有同感,那说明这篇文章很适合你。我们来看看如何真正解决这个问题。接下来我将带各位了解下 Flink 与 Hive 生产级别的整合工作。
|
4月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据集成并发数不支持批量修改,该怎么办
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
数据采集 DataWorks 数据管理
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第10天】随着大数据技术的发展,企业对数据处理的需求日益增长。阿里云推出的DataWorks是一款强大的数据集成和管理平台,提供从数据采集、清洗、加工到应用的一站式解决方案。本文通过电商平台案例,详细介绍了DataWorks的核心功能和优势,展示了如何高效处理大规模数据,帮助企业挖掘数据价值。
124 1
|
2月前
|
数据采集 SQL DataWorks
DataWorks不是Excel,它是一个数据集成和数据管理平台
【10月更文挑战第5天】本文通过一家电商平台的案例,详细介绍了阿里云DataWorks在数据处理全流程中的应用。从多源数据采集、清洗加工到分析可视化,DataWorks提供了强大的一站式解决方案,显著提升了数据分析效率和质量。通过具体SQL示例,展示了如何构建高效的数据处理流程,突显了DataWorks相较于传统工具如Excel的优势,为企业决策提供了有力支持。
109 3
|
3月前
|
存储 分布式计算 DataWorks
dataworks数据集成
dataworks数据集成
133 1
|
3月前
|
机器学习/深度学习 DataWorks 数据挖掘
基于阿里云Hologres和DataWorks数据集成的方案
基于阿里云Hologres和DataWorks数据集成的方案
77 7

热门文章

最新文章