数据仓库专题(8)-维度属性选择之维护历史是否应该保留

简介: 一、背景   数据仓库建模过程中,针对事务型事实表设计,经常会遇到维度属性选择的问题,比如客户维度,在操作型系统中,为了跟踪客户状态的变化,往往会附加客户记录的四个属性:       1.add time:添加时间;   2.

一、背景

  数据仓库建模过程中,针对事务型事实表设计,经常会遇到维度属性选择的问题,比如客户维度,在操作型系统中,为了跟踪客户状态的变化,往往会附加客户记录的四个属性:

      1.add time:添加时间;

  2.add user:添加用户;

  3.mod time:修改时间;

  4.mod user:修改用户;

  问题在于,当我们进行维度建模的时候,如果以客户作为维度,是否应该考虑以上四个属性?

二、观点

  1.应该保留

  (1)我觉得 添加时间 可以作为维度属性,以后可能进行相关的统计;

  2.不应该保留

  (1)在按主题重新设计模型时,一般业务不需要保留;

    (2)   以经验看,添加时间,修改时间,一般都是必须的。 而,添加用户,修改用户,这个就需要看实际是否有相应的需求,选择性添加(可预期的需求,也需要考虑进去)

      (3)这个感觉并不是维度,可以用缓慢变化维解决,维度本身的意义应该在于后续的汇总分析;

      (4)一般这里讲的数据是业务度量,scd记录变化也是为了历史的维度视角反映业务事实;

  3.按照需求来定

  (1)一般都是需求来定的吧,没有什么具体标准;

  (2)业务驱动吧;

      (3)这个要根据实际需求来看: 如果有这么个需求: 根据新增客户数作为考核指标,来考核员工。。那么这个字段是必须的,添加时间和添加用户,这两个字段就是必须;

  4.其他

  (1)我觉得维度除了时间之外都应该是名词性的东西 而不是一个动作;

三、建议

  正本溯源,要想搞清楚这个问题,还是要回到维度的定义上来。维度是用来对数据进行分类的结构和人们观察业务情况的角度.关于维度的定义至今未看到统一的行业标准。在此选取Kimball的说法:“维度提供围绕某一业务过程所涉及的‘谁、什么、何处、何时、为什么、如何’等背景。维度表包含BI应用所需要的用于过滤及分类事实的描述性属性。

四、未完待续

  分布式数据仓库数据存储模型设计进行中,后续会持续更新,请关注QQ群:分布式数据仓库建模 398419457。


作者:张子良
出处:http://www.cnblogs.com/hadoopdev
本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

相关文章
|
6月前
|
SQL 缓存 数据挖掘
数据平台问题之复合指标生成中维度能力如何处理
数据平台问题之复合指标生成中维度能力如何处理
|
6月前
|
对象存储 数据安全/隐私保护
就软件研发问题之数据流动支持目录级别映射的问题如何解决
就软件研发问题之数据流动支持目录级别映射的问题如何解决
|
6月前
|
存储 搜索推荐 关系型数据库
实时数仓 Hologres产品使用合集之如何在新增列的时候将历史数据也补上默认值
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
9月前
|
调度 数据处理 运维
公共日历调度及数据筛选:更符合业务场景的数据产出方式!
在证券行业,数据处理和分析是核心任务之一,对于提供决策支持和市场分析至关重要。由于股市的特殊性,不同的市场(如沪深、港股等)拥有各自的交易日历,这意味着在非交易日,如周末或特定节假日,市场是关闭的,不产生任何交易数据。因此,证券行业的数据处理任务需紧密跟随这些交易日历的规律进行调度,以确保数据的准确性和实时性。
140 1
公共日历调度及数据筛选:更符合业务场景的数据产出方式!
|
存储 JavaScript 安全
什么是数据、元数据、主数据和参考数据?
什么是数据、元数据、主数据和参考数据?
SAP 物料主数据分类视图维护了批次分类特性值以后,不允许去批次主数据里覆盖了?
SAP 物料主数据分类视图维护了批次分类特性值以后,不允许去批次主数据里覆盖了?
SAP 物料主数据分类视图维护了批次分类特性值以后,不允许去批次主数据里覆盖了?
SAP BMBC报表不能显示批次分类视图里的特性值
SAP BMBC报表不能显示批次分类视图里的特性值
SAP BMBC报表不能显示批次分类视图里的特性值
|
存储 机器学习/深度学习 编解码
机器学习将非结构化二级存储数据变为可全局访问的数据
实现转型和变革的关键是数据,因为糟糕的数据会带来糟糕的洞察力,而良好的数据会带来良好的洞察力。对大多数组织来说,问题是他们可能有一个很好的主存储数据管理策略,但他们从二级存储中找到洞察的能力则通常是不存在的。
257 0
机器学习将非结构化二级存储数据变为可全局访问的数据
|
数据库 存储 网络安全
时间和空间的完美统一!阿里云时空数据库正式商业化
时间和空间的完美统一!阿里云时空数据库正式商业化 经过一段时间公测,得到广大客户的热烈支持,阿里云时空数据库已经于2019年9月10日正式商业化售卖! 产品介绍 时空数据库能够存储、管理包括时间序列以及空间地理位置相关的数据。
7920 0
|
SQL 分布式计算 算法
MaxCompute数据仓库在更新插入、直接加载、全量历史表三大算法中的数据转换实践
2018“MaxCompute开发者交流”钉钉群直播分享,由阿里云数据技术专家彬甫带来以“MaxCompute数据仓库数据转换实践”为题的演讲。本文首先介绍了MaxCompute的数据架构和流程,其次介绍了ETL算法中的三大算法,即更新插入算法、直接加载算法、全量历史表算法,再次介绍了在OLTP系统中怎样处理NULL值,最后对ETL相关知识进行了详细地介绍。
5419 0