搭建数据仓库的流程简介

简介: 如何搭建一个数据仓库? 下面大体说明了搭建的流程。

如何搭建一个数据仓库? 下面大体说明了搭建的流程。

数据仓库的结构

用一幅图来表示:
data_warehouse

数据仓库的好处

数据仓库是一套体系。可以建在Oracle上,MySQL上,Hive上,MaxCompute上,具体建在哪个平台根据数据量来定。对数据仓库来说,建在哪个平台不重要,重要的是目的。

数据仓库的目的,是对组织的数据进行统一的治理,归纳来讲,就是:存、通、用。

  • 存:是指数据的统一存储。数据放在一起了,meta才能在一起,便于后续的计算。
  • 通:是指数据的梳理,集中式的数据存储自然而然带来数据的集中管理。便于企业梳理内部的数据,这个是最能刺痛规模比较大,业务比较繁杂的企业的。
  • 用:就是在梳理好内部数据资产后,可以看到那些数据可以做链接。那些业务可以合作。自己还缺少哪些数据。

存偏向于存储,通偏向于数据管理,用偏向于数据计算,也就是业务创新。

业务的野蛮生长总会遇到瓶颈,这个时候就需要有内在驱动的业务创新。数据是指导组织二次创业的好依据。by 山水

主要的流程

简单的来说,就是包括:数据源、ODS、DW(DM)、报告这几部分。
主要有这么几个流程:

  1. 数据源到ODS,需要考虑:

    • 数据源的平台有哪些,比如Oracle,MySQL,文本文件,每个平台有哪些可用的同步工具
    • 数据有哪些,数据字典有没有
    • 哪些表全量同步
    • 哪些表增量同步,如何取增量数据
    • 同步周期,按小时,按天,按周,按月?
    • 数据量评估:存量数据有多大,增量数据每天有多少
    • 历史保留多久
    • 数据正确性校验
    • 调度、监控、报警
  2. ODS到DW(DM),刚开始可以考虑建立数据集市(DM),待对数据,对业务足够理解,人足够多的时候,考虑建立数据仓库(DW),需要考虑:

    • 熟悉数据字典,理解业务,理解数据
    • 事实表要建哪些
    • 维度表要建哪些
    • 更新周期,按小时,按天,按周,按月?
    • 数据量评估:存量数据有多大,增量数据每天有多少
    • 历史保留多久
    • 验数
    • 调度、监控、报警
  3. 报告,这个是给业务、决策层看的,是体现价值的地方

    • 统计口径的确定
    • 验数:验证数据是否正确
    • 如何展示:是表格、图形,还是大屏?

用到的工具

在建设数据仓库的时候,需要使用一系列的工具。

  1. 数据源到ODS

    • ETL工具,比如kettle
  2. ODS到DW(DM)

    • SQL
  3. 报告

    • 报表平台

整个流程通过 调度工具 串起来
调度工具需要解决:

  • 任务依赖
  • 周期性执行
  • 监控,报警
  • 日志

后续的工作

迭代!
迭代!
迭代!

作者:https://yq.aliyun.com/u/huaheshang
更多精彩内容请关注袋鼠云微信微博:
袋鼠云微信
袋鼠云微博

相关文章
|
数据采集 存储 分布式计算
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
17997 2
一篇文章搞懂数据仓库:数据治理(目的、方法、流程)
|
4月前
|
存储 数据采集 分布式计算
构建MaxCompute数据仓库的流程
【4月更文挑战第1天】构建MaxCompute数据仓库的流程
73 2
|
4月前
|
SQL HIVE
Hive【Hive学习大纲】【数据仓库+简介+工作原理】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】
【4月更文挑战第6天】Hive【Hive学习大纲】【数据仓库+简介+工作原理】【自学阶段整理的xmind思维导图分享】【点击可放大看高清】
63 0
|
架构师 容灾 关系型数据库
带你读《升舱 - 数据仓库升级交付标准白皮书》——4.3升级交付流程标准化
带你读《升舱 - 数据仓库升级交付标准白皮书》——4.3升级交付流程标准化
234 0
|
存储 数据采集 数据可视化
千字干货带你入门数据仓库,跑通数据建模全流程(附视频)
个推资深大数据研发工程师为大家深入浅出地介绍了数据仓库的前世今生以及数据建模的常用方法。
538 0
千字干货带你入门数据仓库,跑通数据建模全流程(附视频)
|
存储 数据挖掘 OLAP
【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )(二)
【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )(二)
283 0
|
存储 数据挖掘 OLAP
【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )(一)
【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )(一)
276 0
|
Web App开发 存储 测试技术
[雪峰磁针石博客]数据仓库快速入门教程1简介
数据仓库是从各种渠道收集和管理数据的技术,可提供有意义的业务洞察,战略性地使用数据。它用于查询和分析而不是事务处理,是将数据转换为信息并及时向用户提供的过程。 决策支持数据库(数据仓库)与组织的运营数据库分开维护。
|
19天前
|
存储 缓存 Cloud Native
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
|
2月前
|
SQL Cloud Native 关系型数据库
云原生数据仓库使用问题之分组优化如何实现
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。

热门文章

最新文章