开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks数据引入层(ODS)缓慢变化维度是什么?

DataWorks数据引入层(ODS)缓慢变化维度是什么?

展开
收起
真的很搞笑 2023-05-28 20:43:50 121 0
1 条回答
写回答
取消 提交回答
  • MaxCompute不推荐使用代理键,推荐使用自然键作为维度主键,主要原因有两点:MaxCompute是分布式计算引擎,生成全局唯一的代理键工作量非常大。当遇到大数据量情况下,这项工作就会更加复杂,且没有必要。使用代理键会增加ETL的复杂性,从而增加ETL任务的开发和维护成本。在不使用代理键的情况下,缓慢变化维度可以通过快照方式处理。快照方式下数据的计算周期通常为每天一次。基于该周期,处理维度变化的方式为每天一份全量快照。例如商品维度,每天保留一份全量商品快照数据。任意一天的事实表均可以取到当天的商品信息,也可以取到最新的商品信息,通过限定日期,采用自然键进行关联即可。该方式的优势主要有以下两点:处理缓慢变化维度的方式简单有效,开发和维护成本低。使用方便,易于理解。数据使用方只需要限定日期即可取到当天的快照数据。任意一天的事实快照与任意一天的维度快照通过维度的自然键进行关联即可。该方法的弊端主要是存储空间的极大浪费。例如某维度每天的变化量占总体数据量比例很低,极端情况下,每天无变化,这种情况下存储浪费严重。该方法主要实现了通过牺牲存储获取ETL效率的优化和逻辑上的简化。请避免过度使用该方法,且必须要有对应的数据生命周期制度,清除无用的历史数据。 https://help.aliyun.com/document_detail/154247.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-05-28 21:03:19
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多