【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )(二)

简介: 【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )(二)

五、分割


分割 : 将 完整的数据集 分散到 各自的物理单元 中去 , 以便能 分别独立处理 ;


分割结果 : 数据 分割后的 数据单元 , 称为 分片 ;

分割目的 : 提高效率 ;

分割作用 : 分析 相关性 数据集合 , 将 具有相关性 的数据 组织到一起分析 , 提高分析效率 ;


分割标准 :


方便进行如下操作 : 重构 , 索引 , 重组 , 恢复 , 监控 , 扫描 ;

业务领域

日期

地域

多个分割标准组合


"分割" 示例 : 对 保险行业数据 进行分割 ;


总的数据集 : 3 33 年的 车险 , 寿险 , 健康险 , 财产险 , 意外险 数据 ;

分割标准 : 按照 “时间” , 和 “险种” , 进行分割 ;

分片详情 : 分片个数为 3 × 5 = 15 3 \times 5 = 153×5=15 个数据分片 ;

时间 车险 寿险 健康险 财产险 意外险

2020 20202020 年 分片 1 11 分片 2 22 分片 3 33 分片 4 44 分片 5 55

2019 20192019 年 分片 6 66 分片 7 77 分片 8 88 分片 9 99 分片 10 1010

2018 20182018 年 分片 11 1111 分片 12 1212 分片 13 1313 分片 14 1414 分片 15 1515


数据分片使用方式 :


处理单独数据分片 : 如果只分析 2019 20192019 年的车险数据 , 只需要分析 分片 6 66 中的数据即可 , 每个分片的数据都可以独立处理 ;


合并若干数据分片 : 如果分析 2020 20202020 年的健康险 和 意外险 数据 , 那么需要 将 分片 2 22 和 分片 5 55 合并起来 , 进行分析 ;






六、数据仓库组织形式


数据仓库组织形式 :


简单堆积文件

轮转综合文件

简化直接文件

连续文件


简单堆积文件 :


概念 : 将数据库中 提取加工 的数据 , 直接积累存储 ;

操作 : 来一个存放一个 , 按照时间先后顺序存放 , 堆积 ;


轮转综合文件 :


概念 : 将 数据的存储单位 , 分成 若干级别 , 每个级别有有限个指定的数据 ;

数据形式 : 一定时间段的综合数据 , 称为 轮转记录 ;

优点 : 结构简单 , 数据量比 “简单堆积文件” 少 ;

缺点 : 综合数据 , 会损失数据细节 , 越久远的历史数据 , 数据细节损失的越多 ;

操作 : 够一个时间段 , 就将指定长度的数据综合在一起 ; 每次综合都会损失一定的数据细节 ;

示例 : 如果数据积累够 1 天 , 直接综合成一天的数据 ; 如果数据积累够 30 天 , 直接综合成一个月的数据 ; 如果数据积累够 12 个月 , 直接综合成一年的数据 , 小时的数据不超过 24 个 , 天的数据不超过 30 个 , 月的数据 不超过 12 个 ;


简化直接文件 :


概念 : 按照一定时间间隔 , 对数据库采样 ;

快照 : 每隔一定时间 , 做一个数据库快照 , 存储该快照 , 与 “简单堆积文件” 类似 ;

示例 : 周一对数据做一个快照 , 周二在做一个快照 , 每天都做一个数据库快照 , 存储下来 ;

缺点 : 浪费存储空间 ;


连续文件 : 在上述 “简化直接文件” 快照的基础之上 , 进行增量更新 , 只更新对比后的差异数据 ;


概念 : 两个连续简化的直接文件 , 对比两个文件的差异 , 生成连续文件 ;

连续文件 + 新的简单文件 = 新的连续文件


目录
相关文章
|
19天前
|
存储 数据管理 数据库
数据字典是什么?和数据库、数据仓库有什么关系?
在数据处理中,你是否常困惑于字段含义、指标计算或数据来源?数据字典正是解答这些问题的关键工具,它清晰定义数据的名称、类型、来源、计算方式等,服务于开发者、分析师和数据管理者。本文详解数据字典的定义、组成及其与数据库、数据仓库的关系,助你夯实数据基础。
数据字典是什么?和数据库、数据仓库有什么关系?
|
2月前
|
存储 BI API
一文读懂数据中台和数据仓库的区别
本文深入解析了“数据中台”与“数据仓库”的区别,从定义、功能、架构设计、数据处理、应用场景等多个维度进行对比,帮助企业更清晰地理解二者的核心差异与适用场景。数据仓库重在存储与分析历史数据,服务于高层决策;数据中台则强调数据的实时处理与服务化输出,直接赋能一线业务。文章还结合企业规模、业务需求与技术能力,给出了选型建议,助力企业在数字化转型中做出更科学的选择。
|
存储 数据管理 BI
揭秘数据仓库的奥秘:数据究竟如何层层蜕变,成为企业决策的智慧源泉?
【8月更文挑战第26天】数据仓库是企业管理数据的关键部分,其架构直接影响数据效能。通过分层管理海量数据,提高处理灵活性及数据一致性和安全性。主要包括:数据源层(原始数据)、ETL层(数据清洗与转换)、数据仓库层(核心存储与管理)及数据服务层(提供分析服务)。各层协同工作,支持高效数据管理。未来,随着技术和业务需求的变化,数仓架构将持续优化。
182 3
|
11月前
|
SQL 存储 关系型数据库
数据储存数据库管理系统(DBMS)
【10月更文挑战第11天】
488 3
|
12月前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
12月前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
|
11月前
|
存储 数据管理 大数据
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
从数据仓库到数据中台再到数据飞轮:社交媒体的数据技术进化史
237 0
|
Java Spring 监控
Spring Boot Actuator:守护你的应用心跳,让监控变得触手可及!
【8月更文挑战第31天】Spring Boot Actuator 是 Spring Boot 框架的核心模块之一,提供了生产就绪的特性,用于监控和管理 Spring Boot 应用程序。通过 Actuator,开发者可以轻松访问应用内部状态、执行健康检查、收集度量指标等。启用 Actuator 需在 `pom.xml` 中添加 `spring-boot-starter-actuator` 依赖,并通过配置文件调整端点暴露和安全性。Actuator 还支持与外部监控工具(如 Prometheus)集成,实现全面的应用性能监控。正确配置 Actuator 可显著提升应用的稳定性和安全性。
496 0
|
存储 SQL NoSQL
详解数据库管理系统(DBMS)
【8月更文挑战第31天】
2727 0
|
3月前
|
人工智能 运维 关系型数据库
数据库运维:mysql 数据库迁移方法-mysqldump
本文介绍了MySQL数据库迁移的方法与技巧,重点探讨了数据量大小对迁移方式的影响。对于10GB以下的小型数据库,推荐使用mysqldump进行逻辑导出和source导入;10GB以上可考虑mydumper与myloader工具;100GB以上则建议物理迁移。文中还提供了统计数据库及表空间大小的SQL语句,并讲解了如何使用mysqldump导出存储过程、函数和数据结构。通过结合实际应用场景选择合适的工具与方法,可实现高效的数据迁移。
613 1

热门文章

最新文章