设计和实现OLAP解决方案

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 设计和实现OLAP解决方案   第一讲 简介首先,啥叫数据仓库? 数据仓库就是数据的仓库!用外文说叫Data Warehouse,简称DW。 是不是哐当倒下一片啊,要不咱换个专业点的说法? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的、包含商业信息的数据集合,用于支持管理决策。

设计和实现OLAP解决方案

 

第一讲 简介
首先,啥叫数据仓库?

数据仓库就是数据的仓库!用外文说叫Data Warehouse,简称DW。

是不是哐当倒下一片啊,要不咱换个专业点的说法?

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的、包含商业信息的数据集合,用于支持管理决策。

看得懂不?谅你也不懂。

算了,别叫这真了。

等你明白了舍生取义,你自然会明白什么是数据仓库的。

 

数据仓库里面有大量包含商业信息的数据,但是我们很难从中捕获信息,因为数据仓库一般有很大的数据量,要整理这些数据还是很麻烦的。

 

OLAP系统就是来解决其中一部份目标的。

先说什么是OLAP,发音噢勒普。联机分析处理,还是看不懂吧?

就是让你高效访问数据仓库的。

相对应的有一个OLTP,叫联机事务处理,就是我们平常用的数据库。

OLTP通常有大量并发添加和修改,随时变化,包含大量的数据,具有复杂的结构。

 

当我们把OLTP装载到DW中,一般就不再有修改,随着数据的增加而定期更新,而不是随频繁发生的事务而更新。结构和安全性也更简化,目的是提高分析查询的效率,而不是进行事务处理。

 

还有数据集市,叫Data Mart,数据集市是数据仓库的一种特殊形式,典型的数据集市包含面向专门主题的适合特定业务功能的企业数据子集。

你可以认为数据集市是数据仓库的一部份。

 

 

第二讲 OLAP概述
OLAP 技术使数据仓库能够快速响应重复而复杂的分析查询,从而使数据仓库能有效地用于联机分析。OLAP 的多维数据模型和数据聚合技术可以组织并汇总大量的数据,以便能够利用联机分析和图形工具迅速对数据进行评估。当分析人员搜寻答案或试探可能性时,在得到对历史数据查询的回答后,经常需要进行进一步查询。OLAP 系统可以快速灵活地为分析人员提供实时支持。

 

通常的OLAP应用有财务报表、市场分析、市场计划、客户服务等。

目前国内已经有大量丰富的应用,比如银行、证券、电信、生产、销售行业,都有很多的成功案例。

 

在OLAP中,数据不再以关系型数据结构存放,而是以多维的数据结构存放。不再具有Detail的数据,而是只有Roll up后的信息。

 

微软的Analysis Service是一个不错的OLAP系统,一点不吹牛的说,它处理速度快,查询速度快,功能完整,支持海量数据,而且处理后的数据量很小,没有数据爆炸的问题。

 

 

第三讲 数据仓库结构

数据仓库的基本结构就是Star Schema和SnowFlake Schema,星型结构和雪花结构。

了解结构之前先得理解两个基本名词:事实表FactTable和维度表Dimension Table。

什么是事实和维度呢?我今天在U-mart买了两块巧克力,价格23.54¥。

这就是一个事实。其中包含的信息有客户:我;日期:今天;地点:U-mart;产品:巧克力;数量:2;价格:23.54¥。客户、日期、地点、产品就是维度Dimension,数量和价格是度量值Measure。

 

 


 

这就是一个星型架构。

维度表至少包含维度的Key和Name,Key和Name可以是同一列。维度也可能没有维度表,比如这个架构中的日期维度就没有维度表。

一个多维数据集架构Cube Schema有且只有一个事实表,不过你要用几个base table组合成一个view来做事实表也可以。(Cube 的Partition里面可以使用不同的事实表,这是后话。)

 

维度是有层次level的,一个维度至少有两个层次,在大多数情况下维度的成员会按金字塔形布局排列,最上面总有一个All的层次,比如客户维度就有(所有客户)-(客户)这两个层次。维度除了常规维度外,还有父子维度、虚拟维度等。后面会详细介绍各种维度。

如果一个维度有多于2个层次,那么这个维度可能有多个维度表,例如:

 

 


 

这样的就是雪花结构。

 

 

From: http://dev-club.esnai.com/club/bbs/elist.asp?page=6&nofolder=&path=&boardid=23

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
存储 SQL 缓存
实时数仓宽表加工解决方案
实时数仓宽表加工解决方案
299 0
实时数仓宽表加工解决方案
|
2月前
|
存储 JSON 数据处理
Flink基于Paimon的实时湖仓解决方案的演进
本文源自Apache CommunityOverCode Asia 2025,阿里云专家苏轩楠分享Flink与Paimon构建实时湖仓的演进实践。深度解析Variant数据类型、Lookup Join优化等关键技术,提升半结构化数据处理效率与系统可扩展性,推动实时湖仓在生产环境的高效落地。
319 0
Flink基于Paimon的实时湖仓解决方案的演进
|
4月前
|
存储 SQL 分布式计算
MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路
聚水潭作为中国领先的电商SaaS ERP服务商,致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战,聚水潭采用MaxCompute近实时数仓Delta Table方案,有效提升数据新鲜度和计算效率,提效比例超200%,资源消耗显著降低。未来,聚水潭将进一步优化数据链路,结合MaxQA实现实时分析,赋能商家快速响应市场变化。
214 0
|
8月前
|
存储 缓存 数据挖掘
Flink + Doris 实时湖仓解决方案
本文整理自SelectDB技术副总裁陈明雨在Flink Forward Asia 2024的分享,聚焦Apache Doris与湖仓一体解决方案。内容涵盖三部分:一是介绍Apache Doris,一款高性能实时分析数据库,支持多场景应用;二是基于Doris、Flink和Paimon的湖仓解决方案,解决批流融合与数据一致性挑战;三是Doris社区生态及云原生发展,包括存算分离架构与600多位贡献者的活跃社区。文章深入探讨了Doris在性能、易用性及场景支持上的优势,并展示了其在多维分析、日志分析和湖仓分析中的实际应用案例。
633 17
Flink + Doris 实时湖仓解决方案
|
存储 数据可视化 数据挖掘
《基于 hologres 搭建轻量 OLAP 分析平台》解决方案的测评
《基于 hologres 搭建轻量 OLAP 分析平台》解决方案的测评
127 4
|
9月前
|
存储 关系型数据库 MySQL
Flink基于Paimon的实时湖仓解决方案的演进
本文整理自阿里云智能集团苏轩楠老师在Flink Forward Asia 2024论坛的分享,涵盖流式湖仓架构的背景介绍、技术演进和未来发展规划。背景部分介绍了ODS、DWD、DWS三层数据架构及关键组件Flink与Paimon的作用;技术演进讨论了全量与增量数据处理优化、宽表构建及Compaction操作的改进;发展规划则展望了Range Partition、Materialized Table等新功能的应用前景。通过这些优化,系统不仅简化了复杂度,还提升了实时与离线处理的灵活性和效率。
835 3
Flink基于Paimon的实时湖仓解决方案的演进
|
9月前
|
存储 SQL 数据挖掘
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
湖仓一体架构融合了数据湖的低成本、高扩展性,以及数据仓库的高性能、强数据治理能力,高效应对大数据时代的挑战。为助力企业实现湖仓一体的建设,Apache Doris 提出了数据无界和湖仓无界核心理念,并结合自身特性,助力企业加速从 0 到 1 构建湖仓体系,降低转型过程中的风险和成本。本文将对湖仓一体演进及 Apache Doris 湖仓一体方案进行介绍。
843 1
数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)
|
8月前
|
存储 关系型数据库 MySQL
Flink基于Paimon的实时湖仓解决方案的演进
Flink基于Paimon的实时湖仓解决方案的演进
256 0
|
11月前
|
SQL 分布式计算 大数据
湖仓融合:MaxComputee与Hologres基于OpenLake的湖上解决方案
本次主题探讨湖仓融合:MaxCompute与Hologres基于OpenLake的湖上解决方案。首先从数据湖和数据仓库的历史及业界解决方案出发,分析湖仓融合的两种思路;接着针对国内问题,介绍阿里云如何通过MaxCompute和Hologres解决湖仓融合中的挑战,特别是在非结构化数据处理方面的能力。最后,重点讲解Object Table为湖仓增添了SQL生态的非结构化数据处理能力,提升数据处理效率和安全性,使用户能够在云端灵活处理各类数据。
|
安全 数据挖掘 关系型数据库
体验《基于hologres搭建轻量OLAP分析平台》解决方案并进行部署
《基于HoloGres搭建轻量OLAP分析平台》解决方案详尽介绍了HoloGres基础、OLAP原理及平台架构设计等内容。涵盖数据模型设计、加载流程、查询优化及安全性能考虑等多方面,适合有一定背景知识的读者深入理解和实践。然而,对于初学者而言,可能需要更多概念解释。方案在数据迁移、高级查询优化及安全配置等方面提供了指导,但仍需注意潜在的环境兼容性、配置错误及性能瓶颈等问题。通过参考官方文档和社区资源,用户可以解决常见问题并根据实际需求进行调整优化,以实现高效的数据分析。
206 29

热门文章

最新文章