一、数据仓库中的 数据组织级别
数据仓库中的数据组织 级别 : 下面 细节程度 由低到高 逐一解析 ;
早期细节级别数据 : 之前的一段时间的历史数据 ;
当前细节级别数据 : 最近阶段的历史数据 ;
轻度综合级别数据 : 以 天 , 星期 , 月 , 为时间单位综合数据 ;
高度综合级别数据 : 以 季度 , 年 , 为时间单位综合数据 ;
引入 “力度” 概念 : 上述介绍的 数据的不同的综合级别 , 称为力度 ;
力度效果 : 力度越大 , 细节成都越低 , 综合程度越高 ;
级别划分 : 数据的综合级别的划分 , 是根据力度进行划分的 ;
数据仓库中的数据组织 涉及概念 : 粒度 与 分割 , 数据仓库数据组织形式 , 数据仓库数据追加 ;
二、数据仓库中的 元数据
元数据 ( MetaData ) :
概念 : 关于 “数据” 的 数据 ;
数据库 -> 数据仓库 : 从 操作型环境 向 数据仓库环境 转换 , 建立的元数据 ; 包含 元数据项名 , 属性 , 属性在数据仓库中的转换 ;
数据仓库 -> 前端应用 映射 : 多维数据模型 与 前端工具 之间建立的映射 , 该映射相关的数据 是 元数据 ;
三、粒度 ( 根据 数据综合程度 划分粒度 )
根据 “数据综合程度” 划分粒度 : “粒度” 是对 数据仓库 中的数据 的 综合程度高低 进行的度量 ;
粒度与综合 : 粒度越小 , 数据细节程度越高 , 数据的综合程度越低 ;
多粒度查询 : 数据仓库中一般查询是多粒度查询 , 不同的粒度 , 能回答不同的查询 ;
不同粒度查询举例 : 粒度大小影响数据库查询的效率 ;
细节查询 : 如果要查询 A AA 是否在昨天下午 3 33 点给 B BB 打过电话 , 此时应该直接查询该时间点的数据 ;
以 “年” 为粒度查询 : 如果要查询 A AA 去年通话时间 , 就需要查询以 “年” 为单位的通话数据 ;
以 “十年” 为粒度查询 : 如果要预测 A AA 未来几年的通话时间 , 就需查询 A AA 所有的通话数据记录 , 然后做出预测 ;
四、粒度 ( 根据 样本采样率 划分粒度 )
根据 “采样率高低” 划分粒度 :
样本数据库 : 以 一定的采样率 从 细节数据 / 轻度综合数据 中抽取出的 数据子集 , 称为样本数据库 ;
样本数据库 “作用” : 使用该 数据子集 进行 模拟分析 ;
抽象方式 : 随机抽取 ;
"样本数据库" 优点 :
效率 : 查询分析 效率 高 ;
降低数据量 : 如果源数据的数据量很大 , 抽样数据的量可以降低 ;
准确度高 : 分析结果的误差很小 , 准确度高 ;
主要因素 : 这种分析方式 , 有助于抓住 主要因素 , 主要矛盾 ;
两种形式的 “粒度” 举例 : “商品” 主题 ;
时间段上信息综合粒度 : 销售综合表 , 采购综合表 , 是 根据 “数据综合程度” 划分的粒度 ;
不同时间点的采样粒度 : 库存信息表 , 是 根据 “采样率高低” 划分的粒度 ;