【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )(二)

简介: 【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )(二)

五、分割


分割 : 将 完整的数据集 分散到 各自的物理单元 中去 , 以便能 分别独立处理 ;


分割结果 : 数据 分割后的 数据单元 , 称为 分片 ;

分割目的 : 提高效率 ;

分割作用 : 分析 相关性 数据集合 , 将 具有相关性 的数据 组织到一起分析 , 提高分析效率 ;


分割标准 :


方便进行如下操作 : 重构 , 索引 , 重组 , 恢复 , 监控 , 扫描 ;

业务领域

日期

地域

多个分割标准组合


"分割" 示例 : 对 保险行业数据 进行分割 ;


总的数据集 : 3 33 年的 车险 , 寿险 , 健康险 , 财产险 , 意外险 数据 ;

分割标准 : 按照 “时间” , 和 “险种” , 进行分割 ;

分片详情 : 分片个数为 3 × 5 = 15 3 \times 5 = 153×5=15 个数据分片 ;

时间 车险 寿险 健康险 财产险 意外险

2020 20202020 年 分片 1 11 分片 2 22 分片 3 33 分片 4 44 分片 5 55

2019 20192019 年 分片 6 66 分片 7 77 分片 8 88 分片 9 99 分片 10 1010

2018 20182018 年 分片 11 1111 分片 12 1212 分片 13 1313 分片 14 1414 分片 15 1515


数据分片使用方式 :


处理单独数据分片 : 如果只分析 2019 20192019 年的车险数据 , 只需要分析 分片 6 66 中的数据即可 , 每个分片的数据都可以独立处理 ;


合并若干数据分片 : 如果分析 2020 20202020 年的健康险 和 意外险 数据 , 那么需要 将 分片 2 22 和 分片 5 55 合并起来 , 进行分析 ;






六、数据仓库组织形式


数据仓库组织形式 :


简单堆积文件

轮转综合文件

简化直接文件

连续文件


简单堆积文件 :


概念 : 将数据库中 提取加工 的数据 , 直接积累存储 ;

操作 : 来一个存放一个 , 按照时间先后顺序存放 , 堆积 ;


轮转综合文件 :


概念 : 将 数据的存储单位 , 分成 若干级别 , 每个级别有有限个指定的数据 ;

数据形式 : 一定时间段的综合数据 , 称为 轮转记录 ;

优点 : 结构简单 , 数据量比 “简单堆积文件” 少 ;

缺点 : 综合数据 , 会损失数据细节 , 越久远的历史数据 , 数据细节损失的越多 ;

操作 : 够一个时间段 , 就将指定长度的数据综合在一起 ; 每次综合都会损失一定的数据细节 ;

示例 : 如果数据积累够 1 天 , 直接综合成一天的数据 ; 如果数据积累够 30 天 , 直接综合成一个月的数据 ; 如果数据积累够 12 个月 , 直接综合成一年的数据 , 小时的数据不超过 24 个 , 天的数据不超过 30 个 , 月的数据 不超过 12 个 ;


简化直接文件 :


概念 : 按照一定时间间隔 , 对数据库采样 ;

快照 : 每隔一定时间 , 做一个数据库快照 , 存储该快照 , 与 “简单堆积文件” 类似 ;

示例 : 周一对数据做一个快照 , 周二在做一个快照 , 每天都做一个数据库快照 , 存储下来 ;

缺点 : 浪费存储空间 ;


连续文件 : 在上述 “简化直接文件” 快照的基础之上 , 进行增量更新 , 只更新对比后的差异数据 ;


概念 : 两个连续简化的直接文件 , 对比两个文件的差异 , 生成连续文件 ;

连续文件 + 新的简单文件 = 新的连续文件


目录
相关文章
|
18天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
20天前
|
SQL 关系型数据库 数据库
国产数据实战之docker部署MyWebSQL数据库管理工具
【10月更文挑战第23天】国产数据实战之docker部署MyWebSQL数据库管理工具
60 4
国产数据实战之docker部署MyWebSQL数据库管理工具
|
17天前
|
关系型数据库 分布式数据库 数据库
云栖大会|从数据到决策:AI时代数据库如何实现高效数据管理?
在2024云栖大会「海量数据的高效存储与管理」专场,阿里云瑶池讲师团携手AMD、FunPlus、太美医疗科技、中石化、平安科技以及小赢科技、迅雷集团的资深技术专家深入分享了阿里云在OLTP方向的最新技术进展和行业最佳实践。
|
25天前
|
人工智能 Cloud Native 容灾
云数据库“再进化”,OB Cloud如何打造云时代的数据底座?
云数据库“再进化”,OB Cloud如何打造云时代的数据底座?
|
9天前
|
SQL 关系型数据库 MySQL
12 PHP配置数据库MySQL
路老师分享了PHP操作MySQL数据库的方法,包括安装并连接MySQL服务器、选择数据库、执行SQL语句(如插入、更新、删除和查询),以及将结果集返回到数组。通过具体示例代码,详细介绍了每一步的操作流程,帮助读者快速入门PHP与MySQL的交互。
24 1
|
11天前
|
SQL 关系型数据库 MySQL
go语言数据库中mysql驱动安装
【11月更文挑战第2天】
26 4
|
1月前
|
存储 关系型数据库 MySQL
Mysql(4)—数据库索引
数据库索引是用于提高数据检索效率的数据结构,类似于书籍中的索引。它允许用户快速找到数据,而无需扫描整个表。MySQL中的索引可以显著提升查询速度,使数据库操作更加高效。索引的发展经历了从无索引、简单索引到B-树、哈希索引、位图索引、全文索引等多个阶段。
61 3
Mysql(4)—数据库索引
|
18天前
|
监控 关系型数据库 MySQL
数据库优化:MySQL索引策略与查询性能调优实战
【10月更文挑战第27天】本文深入探讨了MySQL的索引策略和查询性能调优技巧。通过介绍B-Tree索引、哈希索引和全文索引等不同类型,以及如何创建和维护索引,结合实战案例分析查询执行计划,帮助读者掌握提升查询性能的方法。定期优化索引和调整查询语句是提高数据库性能的关键。
85 1
|
20天前
|
关系型数据库 MySQL Linux
在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。
本文介绍了在 CentOS 7 中通过编译源码方式安装 MySQL 数据库的详细步骤,包括准备工作、下载源码、编译安装、配置 MySQL 服务、登录设置等。同时,文章还对比了编译源码安装与使用 RPM 包安装的优缺点,帮助读者根据需求选择最合适的方法。通过具体案例,展示了编译源码安装的灵活性和定制性。
61 2
|
23天前
|
存储 关系型数据库 MySQL
MySQL vs. PostgreSQL:选择适合你的开源数据库
在众多开源数据库中,MySQL和PostgreSQL无疑是最受欢迎的两个。它们都有着强大的功能、广泛的社区支持和丰富的生态系统。然而,它们在设计理念、性能特点、功能特性等方面存在着显著的差异。本文将从这三个方面对MySQL和PostgreSQL进行比较,以帮助您选择更适合您需求的开源数据库。
90 4

热门文章

最新文章