【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )(二)

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 【DBMS 数据库管理系统】数据仓库 ( 数据仓库简介 | 操作型数据与分析性数据对比 | 数据仓库特征 | 特征一 : 面向主题组织数据 | 面向应用 | )(二)

六、面向主题 组织数据


面向主题 组织数据 步骤 :


① 抽取主题 : 按照 OLAP 数据分析 的要求 , 确定抽取的主题 ;


② 主题内容 : 确定 该抽取的主题 , 包含的数据内容 ;



主题抽取 示例 :


主题 : 商场的商品采购 ;


OLTP 数据 : 在 OLTP 数据库中 , 存储有 订单 , 订单详情 , 供应商 , 等数据库表 , 清晰的展示了 商品采购时 所涉及业务的数据内容 , 上述 数据的组织方式 是 面向应用 数据组织方式 ;



OLAP 数据需求 :


分析对象 : 在数据仓库中 , 需求是分析供应商的详细数据 , 通过数据分析处理 , 选出优质供应商 , 供应商是主要的分析对象 ;

忽略数据 : 具体的订单情况 , 清单详情 , 是需要忽略的 , 数据分析时 , 不需要分析采购的具体细节 , 如送货周期 , 送货时间 , 交接人员 等 , 这些都是操作型数据 , 分析时不需要关心这些细节数据 ;

数据组合 : 只抽取供应商的数据是不够的 , 还需要其它数据库中的部分数据 , 有些数据需要丢弃 , 有些数据需要抽取 , 重新组合成新的数据 ;

针对与商场 , 面向主题创建 数据仓库 , 抽取出如下三个主题 : ① 商品 , ② 供应商 , ③ 顾客 ;


将 4 44 个子系统 , 转为了 3 33 个主题 ;


OLTP 子系统 : 固有信息 , 采购子系统 , 销售子系统 , 库存子系统 ;

OLAP 主题 : 商品 , 供应商 , 顾客 ;


以 “商品” 主题为例 : 商品主题包含以下数据 :


商品本身信息 : 商品号 , 商品价格 , 商品颜色 ; ( 从商品固有信息中抽取 )

商品采购信息 : 商品号 , 供货商 , 采购价格 ; ( 从采购子系统中抽取 )

商品销售信息 : 商品号 , 零售价 , 顾客信息 ; ( 从销售子系统中抽取 )

商品库存信息 : 商品号 , 库存量 , 保存时间 ; ( 从库存子系统中抽取 )





七、数据 从 面向应用 转为 面向主题


数据 从 面向应用 转为 面向主题 转换过程 :



1 . 丢弃数据 : 一些与分析对象无关的信息 , 直接丢弃 ;



2 . 组织数据 : 与分析对象有关的信息 , 可能分布与各个子系统中 , 将这些数据重新组织起来 , 形成针对该分析对象的完整描述 , 放入一个主题中 ;



3 . 内容重叠 : 主题间可能存在内容重叠 , 这些 重叠的信息 反映了主题之间的联系 ;


逻辑重叠 : 主题逻辑上的重叠 , 区别于相同的数据的物理存储重叠 ;

细节重叠 : 数据在不同的主题上综合方式不同 ;

重叠方式 : 主题间的重叠可能是多重重叠 , 如 3 33 个主题间相互重叠 , 不是两两重叠 ;





七、数据仓库中的主题实现


数据仓库中的主题实现有两种方式 :


① 基于多维数据库 : 以多维数组的形式存储 ; ( 处理数据稀疏问题 )

② 基于关系数据库 : 以表的形式存储 ;





八、基于关系数据库


"主题" 基于关系数据库 :


主题数据组成 : 用一组 关系数据库 中的关系表 中的数据 表示主题 ;

公共码键 : 每个 关系表 都有一个 公共码键 作为 主属性 , 就是 id ;

主题数据联系方式 : 主题下的 关系表 数据 , 使用公共码键 进行关联 ;


公共码键示例 :


"商品" 主题 : 以商品主题为例 ;


公共码键 : 商品号 , 在所有的商品主题下的表中 , 都带有公共码键 , 商品号 ;


商品表 : 商品号 , 商品名称 , 颜色 , 形状 , 零售价 , …


采购表 : 商品号 , 供应商 , 采购日期 , 进货价 , …


库存表 : 商品号 , 库存量 , 库存时间 , …



主题中 关系表 的存储 :


低频访问数据存储 : 不经常访问的数据 , 如历史数据 , 细节数据 等查询概率低的数据 , 放在普通磁盘中存储 ;

高频访问数据存储 : 经常访问的数据 , 放在高速访问存储设备中 , 如 固态硬盘 ;





九、面向主题的数据组织


主题域 : 主题域是 完备的分析领域 , 需要具备以下两个特征 ;


独立性 : 主题域 必须有独立的主题 , 有明确的界限 , 表示某数据属于 / 不属于 该主题 ;

完备性 : 主题中包含的 主题对象 的数据必须完整 , 分析处理所用到的数据 , 都包含在该主题中 ;


主题数据组织 是 在较高层级 对数据进行抽象 ; 主题数据组织 独立于 数据处理逻辑 ; 在该 主题数据 基础上 , 可以快速开发新的 OLAP 应用 ;


相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
2月前
|
存储 监控 数据挖掘
消防行业如何借助时序数据库 TDengine 打造高效的数据监控与分析系统
本篇文章来自“2024,我想和 TDengine 谈谈”征文活动的优秀投稿,深入探讨了如何在消防行业中运用 TDengine 进行业务建模。文章重点介绍了如何通过 TDengine 的超级表、标签设计和高效查询功能,有效管理消防监控系统中的时序数据。作者详细阐述了实时监控、报警系统以及历史数据分析在消防行业中的应用,展示了 TDengine 在数据压缩、保留策略和分布式架构下的强大优势。
57 0
|
3月前
|
存储 数据挖掘 数据处理
2600 万表流计算分析如何做到? 时序数据库 TDengine 助力数百家超市智能化转型
在生鲜超市的高效运营中,实时数据分析至关重要。万象云鼎的“云鲜生”通过智能秤+网关+软件系统的组合,实现了销售数据的精准管理与优化。而在数据处理方面,TDengine 的流计算能力成为了这一方案的核心支撑。本文详细分享了“云鲜生”如何利用 TDengine 高效存储和分析海量销售数据,在优化超市运营、提升用户体验的同时,解决高基数分组、高并发查询等技术挑战。
79 1
|
4月前
|
关系型数据库 分布式数据库 数据库
瑶池数据库大讲堂|PolarDB HTAP:为在线业务插上实时分析的翅膀
瑶池数据库大讲堂介绍PolarDB HTAP,为在线业务提供实时分析能力。内容涵盖MySQL在线业务的分析需求与现有解决方案、PolarDB HTAP架构优化、针对分析型负载的优化(如向量化执行、多核并行处理)及近期性能改进和用户体验提升。通过这些优化,PolarDB HTAP实现了高效的数据处理和查询加速,帮助用户更好地应对复杂业务场景。
|
6月前
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
7月前
|
SQL 关系型数据库 MySQL
Vanna使用ollama分析本地数据库
这篇文章详细介绍了如何使用Vanna和Ollama框架来分析本地数据库,实现自然语言查询转换为SQL语句并与数据库交互的过程。
1899 7
Vanna使用ollama分析本地数据库
|
6月前
|
存储 Java 关系型数据库
在Java开发中,数据库连接是应用与数据交互的关键环节。本文通过案例分析,深入探讨Java连接池的原理与最佳实践
在Java开发中,数据库连接是应用与数据交互的关键环节。本文通过案例分析,深入探讨Java连接池的原理与最佳实践,包括连接创建、分配、复用和释放等操作,并通过电商应用实例展示了如何选择合适的连接池库(如HikariCP)和配置参数,实现高效、稳定的数据库连接管理。
137 2
|
7月前
|
SQL 自然语言处理 关系型数据库
Vanna使用ollama分析本地MySQL数据库
这篇文章详细介绍了如何使用Vanna结合Ollama框架来分析本地MySQL数据库,实现自然语言查询功能,包括环境搭建和配置流程。
1097 0
|
7月前
|
存储 分布式计算 数据库
阿里云国际版设置数据库云分析工作负载的 ClickHouse 版
阿里云国际版设置数据库云分析工作负载的 ClickHouse 版
|
8月前
|
Oracle NoSQL 关系型数据库
主流数据库对比:MySQL、PostgreSQL、Oracle和Redis的优缺点分析
主流数据库对比:MySQL、PostgreSQL、Oracle和Redis的优缺点分析
1540 3
|
8月前
|
SQL Java OLAP
Hologres 入门:实时分析数据库的新选择
【9月更文第1天】在大数据和实时计算领域,数据仓库和分析型数据库的需求日益增长。随着业务对数据实时性要求的提高,传统的批处理架构已经难以满足现代应用的需求。阿里云推出的 Hologres 就是为了解决这个问题而生的一款实时分析数据库。本文将带你深入了解 Hologres 的基本概念、优势,并通过示例代码展示如何使用 Hologres 进行数据处理。
911 2

热门文章

最新文章