【续】全量、增量、流水、拉链、快照、代理键、缓慢变化维

简介: 【续】全量、增量、流水、拉链、快照、代理键、缓慢变化维

这是我的第69篇原创

昨天没说完,今天继续哈。一样是很枯燥的数据仓库名词和使用场景的解释。适合对数仓感兴趣的同学食用。


昨天简单讲了一下表的相关名称解释,缺一个位图表。其实位图(bitmap)之前说过,详见:

10亿用户量,连续7天登录的用户标签该怎么打?

今天继续聊。


字段相关名词解释

字段相关名词解释:自然键、业务主键、自增主键、代理键、时间戳、管理标识。


  • 自然键其实就是已有标准的各种ID,比如身份证号、国家标准行政代码之类的。

因为身份证存在为空或者重复(小孩、黑户,虽然少,但仍然存在)、国家标准行政代码会变更等情况,所以一般来说我们不会将自然键作为主键。但是会对自然键进行解码、拆分,获得更多信息,比如解码身份证可以获得地区、生日、性别等信息;解码国家标准行政地区代码可以获得地区级别等信息。


  • 业务主键是带有业务含义的ID字段。宽泛的来说,自然键其实就是一种业务主键。

自然键和业务主键之间的区别在于业务主键是唯一的,自然主键因历史原因,可能为空、或者重复,数据可能变更。业务主键是在设计业务实体的时候,根据业务逻辑,按照代码规则生成的唯一主键代码。


  • 自增主键,又叫逻辑主键。就是给每条数据自动编一个自动+1的序列号,保证主键的不重复,遵循第二范式。

关系型数据库里都有,oracle叫Rowid,Mysql里可以设置自增列。业务主键需要按照规则生成,自增主键在表里设置一下就好,非常省事,开发工程师最喜欢。


  • 代理键,这个得好好讲讲。代理键顾名思义,就是用一个ID作为原主键的代理,代替原主键的主键功能。

有人说了,原来的主键不是已经有主键功能么,咋还需要代理呢?几个应用场景:

1、缓慢变化维

   虽然维度相对来说比较固定,但是只是相对而已。数据量变大,时间拉长,维度基本上都会更新。维度更新方法基本是原代码失效,启用新代码,这时数据的延续性就出现问题了。这个时候,代理键就可以解决这个问题,变更前后的代码用同一个代理键就行了。

2、跨系统数据整合

   当我们从不同系统汇聚相同业务含义的数据到同一张表的时候,可能会出现主键冲突的情况。比如我们要做用户统一,分别从CRM、CallCenter、电商平台三个系统抽取用户数据合并到用户主数据临时表的时候,就可以用代理键,简单的操作就是在原主键前面加一个系统前缀即可。

3、海量数据分表

   当我们有海量数据,需要进行分库分表的时候,我们通常会用无业务含义,但是又有规律的代理键作为主键,原本的业务主键可以备用。我之前有两篇文章详细阐述过,可以点击查阅“雪花算法”和“基因算法”,突然发现以前写的东西风格很迥异,感觉好羞耻。。。


  • 时间戳,其实就是一个时间格式的字段,在数据发生CRUD的时候,记录一下发生变化的系统时间。

在ETL过程中,我们大量使用时间戳作为增量标识。在大数据环境中,我们可以使用时间戳作为分区、分表的策略。


  • 管理标识,是我们在进行表建设的时候,增加的各种管理字段。比如上面提到的时间戳。

一般来说,我们会增加逻辑删、时间戳、操作人、原系统、原始数据比对结果等各种管理字段。


概念相关名词解释

  • 颗粒度,顾名思义,就是数据的粗细程度。最细颗粒度是不可再分割的数据,最粗颗粒度就是高度汇总的数据。举例:

总GMV>某时间段内总GMV>某品类GMV>某商品GMV>某订单的订单额>订单中的某个商品的金额。

以上颗粒度逐渐变细,基本上拆到单个订单中的单个商品,数据也就拆到头了,到最细颗粒度了,也就是明细数据。

反向,我们会逐层进行汇总,数据的颗粒度也就主键增加。我们在设计业务表的时候,一定要到最细颗粒度,遵循第二范式,每一行的数据无法拆分。在设计汇总表的时候,会不断去掉某个维度,进行汇总,这就出来了不同颗粒度的数据。


  • 维度,通俗理解,就是数据的分类。复杂一些的理解,就是观察数据的角度。

在业务数据表中,一般来说,所有拥有外键码表的都是维度,比如性别、民族、订单状态等字段,都可以整理为性别维、民族维、订单状态维。一些量化的数据,我们可以通过对量化数据进行区间分类,整理成为维度,比如金额,我们可以整理为金额区间维;年龄,可以整理为年龄段维。


  • 度量,通俗理解也称指标,虽然两者不完全相等。度量是BI里的概念,就是对事物的量化标准;指标是对事物的具体量化。

两者的共同之处是:都是对事物的量化。不同之处是:度量会随着维度、范围、对比,展示出不同的含义;指标的含义相对固定。比较简单的对比,度量=原子指标。指标=原子指标+衍生指标+派生指标的集合。

之前写过一个维度、度量的形象解释,点击“怎么理解数据分析、维度和指标?”查阅。


  • 缓慢变化维,顾名思义,就是会慢慢变化的维度。

如果把时间无限拉长,绝大多数维度都是缓慢变化的。前面代理键的地方讲到过。如果说维度是我们观察事物的窗口(角度),那么缓慢变化维=在慢慢的变化着的观察事物的窗口。举个例子:

每个学生都有就读学校。那么在学生表,学校就是维度。对于一个学生来说,学校基本是不会变化的,或者变化的概率非常小,是非常偶然的事情。但是我们把数量拉大,把时间拉长,学校发生变化就成了必然。

我在做教育部项目的时候, 专门有一个系统管理全国所有学校:幼儿园、小学、初中、高中、大学。而学校表每个月都会有很多条数据发生变化。学校名称、等级、类型。那么在教育部的尺度上来说,学校就是一个变化比较频繁的维度。


终于写完了。不知道我写清楚没有。你还想知道哪些数仓的概念?或者那个概念我没写清楚,私信告诉我,我再仔细写清楚。

相关文章
|
2月前
|
NoSQL 关系型数据库 Redis
DMS问题之归档后数据量和大小没变化如何解决
DMS(Data Management Service)是阿里云提供的一站式数据管理服务,支持数据开发、维护、治理等多种功能;本合集着重于介绍DMS的功能特点、操作流程和最佳实践,帮助用户高效进行数据管理和维护。
|
11月前
|
存储 设计模式 分布式计算
全量、增量、流水、拉链、快照、代理键、缓慢变化维...
全量、增量、流水、拉链、快照、代理键、缓慢变化维...
|
21天前
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版产品使用问题之任务在同步过程中新增同步表后选择全量初始化历史数据,是否会阻塞原先其余表的增量同步
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
实时计算 Flink版产品使用问题之任务在同步过程中新增同步表后选择全量初始化历史数据,是否会阻塞原先其余表的增量同步
|
10天前
|
运维 关系型数据库 分布式数据库
PolarDB产品使用问题之表更新频繁,读取频繁,导致有很多慢日志,时间还很高,该怎么办
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
9天前
|
运维 Serverless KVM
函数计算产品使用问题之如何处理冷启动时间过长的问题
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
SQL 数据挖掘 数据管理
时间回溯 | 如何按需极速查询数据库实例的历史数据?
未来数据库备份DBS团队及数据管理团队会进一步挖掘备份数据的使用价值,在闪回,数据变更轨迹,数据订正,历史数据分析等领域为用户提供更多的可能。
时间回溯 | 如何按需极速查询数据库实例的历史数据?
|
安全 关系型数据库 MySQL
为什么延迟复制适用于备库数据的紧急恢复?底层原理是什么?
为什么延迟复制适用于备库数据的紧急恢复?底层原理是什么?
|
存储 Kubernetes 测试技术
应用存储和持久化数据卷:存储快照与拓扑调查(一)|学习笔记
快速学习应用存储和持久化数据卷:存储快照与拓扑调查(一)
115 0
应用存储和持久化数据卷:存储快照与拓扑调查(一)|学习笔记
|
存储 Kubernetes 调度
应用存储和持久化数据卷:存储快照与拓扑调查(二)|学习笔记
快速学习应用存储和持久化数据卷:存储快照与拓扑调查(二)
73 0
应用存储和持久化数据卷:存储快照与拓扑调查(二)|学习笔记
++i(前增量) 和 i++(后增量)的区别
++i(前增量) 和 i++(后增量)的区别
87 0