【续】全量、增量、流水、拉链、快照、代理键、缓慢变化维-阿里云开发者社区

【续】全量、增量、流水、拉链、快照、代理键、缓慢变化维

2023-08-31 134

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【续】全量、增量、流水、拉链、快照、代理键、缓慢变化维

这是我的第69篇原创

昨天没说完，今天继续哈。一样是很枯燥的数据仓库名词和使用场景的解释。适合对数仓感兴趣的同学食用。

昨天简单讲了一下表的相关名称解释，缺一个位图表。其实位图（bitmap）之前说过，详见：

10亿用户量，连续7天登录的用户标签该怎么打？

今天继续聊。

字段相关名词解释

字段相关名词解释：自然键、业务主键、自增主键、代理键、时间戳、管理标识。

自然键其实就是已有标准的各种ID，比如身份证号、国家标准行政代码之类的。

因为身份证存在为空或者重复（小孩、黑户，虽然少，但仍然存在）、国家标准行政代码会变更等情况，所以一般来说我们不会将自然键作为主键。但是会对自然键进行解码、拆分，获得更多信息，比如解码身份证可以获得地区、生日、性别等信息；解码国家标准行政地区代码可以获得地区级别等信息。

业务主键是带有业务含义的ID字段。宽泛的来说，自然键其实就是一种业务主键。

自然键和业务主键之间的区别在于业务主键是唯一的，自然主键因历史原因，可能为空、或者重复，数据可能变更。业务主键是在设计业务实体的时候，根据业务逻辑，按照代码规则生成的唯一主键代码。

自增主键，又叫逻辑主键。就是给每条数据自动编一个自动+1的序列号，保证主键的不重复，遵循第二范式。

关系型数据库里都有，oracle叫Rowid，Mysql里可以设置自增列。业务主键需要按照规则生成，自增主键在表里设置一下就好，非常省事，开发工程师最喜欢。

代理键，这个得好好讲讲。代理键顾名思义，就是用一个ID作为原主键的代理，代替原主键的主键功能。

有人说了，原来的主键不是已经有主键功能么，咋还需要代理呢？几个应用场景：

1、缓慢变化维

虽然维度相对来说比较固定，但是只是相对而已。数据量变大，时间拉长，维度基本上都会更新。维度更新方法基本是原代码失效，启用新代码，这时数据的延续性就出现问题了。这个时候，代理键就可以解决这个问题，变更前后的代码用同一个代理键就行了。

2、跨系统数据整合

当我们从不同系统汇聚相同业务含义的数据到同一张表的时候，可能会出现主键冲突的情况。比如我们要做用户统一，分别从CRM、CallCenter、电商平台三个系统抽取用户数据合并到用户主数据临时表的时候，就可以用代理键，简单的操作就是在原主键前面加一个系统前缀即可。

3、海量数据分表

当我们有海量数据，需要进行分库分表的时候，我们通常会用无业务含义，但是又有规律的代理键作为主键，原本的业务主键可以备用。我之前有两篇文章详细阐述过，可以点击查阅“雪花算法”和“基因算法”，突然发现以前写的东西风格很迥异，感觉好羞耻。。。

时间戳，其实就是一个时间格式的字段，在数据发生CRUD的时候，记录一下发生变化的系统时间。

在ETL过程中，我们大量使用时间戳作为增量标识。在大数据环境中，我们可以使用时间戳作为分区、分表的策略。

管理标识，是我们在进行表建设的时候，增加的各种管理字段。比如上面提到的时间戳。

一般来说，我们会增加逻辑删、时间戳、操作人、原系统、原始数据比对结果等各种管理字段。

概念相关名词解释

颗粒度，顾名思义，就是数据的粗细程度。最细颗粒度是不可再分割的数据，最粗颗粒度就是高度汇总的数据。举例：

总GMV>某时间段内总GMV>某品类GMV>某商品GMV>某订单的订单额>订单中的某个商品的金额。

以上颗粒度逐渐变细，基本上拆到单个订单中的单个商品，数据也就拆到头了，到最细颗粒度了，也就是明细数据。

反向，我们会逐层进行汇总，数据的颗粒度也就主键增加。我们在设计业务表的时候，一定要到最细颗粒度，遵循第二范式，每一行的数据无法拆分。在设计汇总表的时候，会不断去掉某个维度，进行汇总，这就出来了不同颗粒度的数据。

维度，通俗理解，就是数据的分类。复杂一些的理解，就是观察数据的角度。

在业务数据表中，一般来说，所有拥有外键码表的都是维度，比如性别、民族、订单状态等字段，都可以整理为性别维、民族维、订单状态维。一些量化的数据，我们可以通过对量化数据进行区间分类，整理成为维度，比如金额，我们可以整理为金额区间维；年龄，可以整理为年龄段维。

度量，通俗理解也称指标，虽然两者不完全相等。度量是BI里的概念，就是对事物的量化标准；指标是对事物的具体量化。

两者的共同之处是：都是对事物的量化。不同之处是：度量会随着维度、范围、对比，展示出不同的含义；指标的含义相对固定。比较简单的对比，度量=原子指标。指标=原子指标+衍生指标+派生指标的集合。

之前写过一个维度、度量的形象解释，点击“怎么理解数据分析、维度和指标？”查阅。

缓慢变化维，顾名思义，就是会慢慢变化的维度。

如果把时间无限拉长，绝大多数维度都是缓慢变化的。前面代理键的地方讲到过。如果说维度是我们观察事物的窗口（角度），那么缓慢变化维=在慢慢的变化着的观察事物的窗口。举个例子：

每个学生都有就读学校。那么在学生表，学校就是维度。对于一个学生来说，学校基本是不会变化的，或者变化的概率非常小，是非常偶然的事情。但是我们把数量拉大，把时间拉长，学校发生变化就成了必然。

我在做教育部项目的时候，专门有一个系统管理全国所有学校：幼儿园、小学、初中、高中、大学。而学校表每个月都会有很多条数据发生变化。学校名称、等级、类型。那么在教育部的尺度上来说，学校就是一个变化比较频繁的维度。

终于写完了。不知道我写清楚没有。你还想知道哪些数仓的概念？或者那个概念我没写清楚，私信告诉我，我再仔细写清楚。

【续】全量、增量、流水、拉链、快照、代理键、缓慢变化维

字段相关名词解释

概念相关名词解释

热门文章

最新文章

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【续】全量、增量、流水、拉链、快照、代理键、缓慢变化维

字段相关名词解释

概念相关名词解释

热门文章

最新文章

相关电子书

相关实验场景