一、缓慢维变化
三种处理缓慢变化维的方式:
重写维度值。不保留历史数据,始终取最新数据。
插入新的维度行。保留历史数据,维度变化前的事实和过去的维度值关联,维度值变化后的事实和当前维度值关联。
添加维度列。保留历史数据,可以将变化前后的维度列事实归在一起。
二、快照维表
Kimball维度建模理论中,必须使用代理键作为每个维表的主键。
一般不直接使用代理键的两个原因:
对于分布式的计算系统,没有事物的概念,很难确保每个表记录生成的主键全局唯一(不稳定)。
使用代理键会增加ETL的复杂性,开发维护成本高。
不使用代理键处理缓慢变化维的方式:快照维表——每天保留一份全量快照数据
优点:
简单有效、开发成本低
使用方便,理解性好,限定日期即可获得快照数据
弊端:存储浪费,比如某个维度每天的变化量占总体数据量很小比重,但每天仍要存一份这个维度的数据(可以设置好生命周期,清理历史数据)
三、极限存储
历史拉链存储:利用维度模型中缓慢变化维的第二种处理方式,通过新增两个时间戳字段,将所有以天为粒度的变更数据记录下来(分区字段也算)。对于不变的记录不重复存储
极限存储方式:
透明化:底层数据存成拉链式的,上层创建视图,(比如底层需要限制时间戳字段查询一些记录,封装起来,上层也就是下游用户查这些记录的时候只用限制全量数据表的分区即可)
分月做历史拉链表:每个月月初重新做历史拉链表。
极限存储的优势:
压缩全量存储成本
下游使用透明
劣势:
产出效率低
数据变化频率高的不能节约成本
极限存储的额外处理
做极限存储前的全量表仅需保留最近一段时间的分区数据,历史数据通过映射关联到极限存储表。(用户访问的就是全量存储)
过滤变化频率频繁的字段。
微型维度
通过将一部分不稳定的属性从主维度中移出,并将它们放置到拥有自己代理键的新表中。