助力工业物联网,工业大数据之数仓事实层DWB层构建【十七】

简介: 助力工业物联网,工业大数据之数仓事实层DWB层构建【十七】

数仓事实层DWB层构建

01:项目回顾

  1. 项目中有哪些主题域?
  • 服务域:工单主题、安装主题
  • 客户域:客户事主题
  • 仓储域:物料主题
  • 运营域:工时主题
  • 市场域:工单主题
  1. 项目中有哪些核心维度?
  • 时间维度
  • 地区维度
  • 油站维度
  • 服务站点维度
  • 组织机构维度
  • 物流维度
  • 仓库维度
  • ……
  1. 行政地区维度中有哪些核心字段?
省份id  省份名称  城市id  城市名称    县区id    县区名称    乡镇id  乡镇名称
  • 定期或者按照变化,全量同步到数据仓库中
  1. 时间维度中有哪些核心字段?
年 季度    月   周   日   年的第几天 周的第几天 工作日   节假日   周日
  • 每一年提前将下一年的时间维度信息生成,增量放入数据仓库中
  1. 服务网点维度中有哪些核心字段?
服务网点id  编码  名称    省份   城市   县区    组织机构id  组织机构名称
  1. 油站维度中有哪些核心字段?
油站id  油站编码  油站名称    省份  城市  县区  乡镇    客户id  客户名称  公司id  公司名称
  1. 组织机构维度中有哪些核心字段?
工程师id 工程师名称   岗位id  岗位名称    部门id    部门名称
  1. 集中问题
  • DG连接不上:YARN的进程故障,导致ThriftServer无法运行
  • Hadoop:NameNode、DataNode、ResourceManager、NodeManager
  • Hive:Metastore、Hiveserver2
  • Spark:ThriftServer
  • 异常:ProtocolBuffer 不匹配:dim_date
  • 数据文件与表的定义是不匹配的
  • step1:检查建表语法
  • step2:文件:上传时候文件是不对的
  • 语法 + 函数 + 数据关系
  • 语法 + 函数 :计算
  • 数据关系:逻辑

02:项目目标

  • 整体目标:构建数仓中的DWB:主题事务事实表
  • 核心的主题事实的构建:SQL实现 + 主题的指标
  • 原始事务事实数据【DWD】:订单数据
o001    userid1   2021-01-01  200.00
  • 主题事务事实数据【DWB】:订单主题
o001    userid1   2021-01-01  订单总金额:200   订单总个数:1
  • 主题周期快照事实表:数据应用层【ST:维度【DWS】 + 事实指标【DWB】】
2021-01-01  订单总金额:xxxx    订单总个数:xxxx
  • 重点内容:SQL以及数据关系

03:分层回顾

  • 目标:回顾一站制造项目分层设计
  • 实施
  • ODS层 :原始数据层:101张表:AVRO
  • DWD层:明细数据层:101张表:ORC
  • DWS层:维度数据层:维度表
  • DWB层:轻度汇总层:Join + 构建基础指标
  • 小结
  • 回顾一站制造项目分层设计

04:DWB层的设计

  • 目标:掌握DWB层的设计
  • 路径
  • step1:功能
  • step2:来源
  • step3:需求
  • 实施
  • 功能:存储每个事实主题需要的事务事实数据以及轻度聚合的结果,供ST层基于DWS层进行统计聚合得到最终每个主题的指标
  • 关联:将事实主题需要的字段进行关联合并到一张事实表中,构建基于主题的事实
  • 聚合:对常用的基础指标基于细粒度实现轻度聚合
  • 来源:对DWD层的数据进行关联或者轻度聚合
  • 需求:按照一站制造的业务主题的划分需求,构建每个主题的DWB层的数据
  • 小结
  • 掌握DWB层的设计


相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
26天前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
15 2
|
1月前
|
存储 JSON 大数据
大数据离线数仓---金融审批数仓
大数据离线数仓---金融审批数仓
130 1
|
17天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
59 1
|
1月前
|
分布式计算 大数据 Hadoop
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
245 2
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
|
1月前
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
54 4
|
1月前
|
存储 数据处理 Apache
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
万字长文 | 泰康人寿基于 Apache Hudi 构建湖仓一体平台的应用实践
77 0
|
1月前
|
人工智能 DataWorks 数据可视化
心动基于阿里云DataWorks构建游戏行业通用大数据模型
心动游戏在阿里云上构建云原生大数据平台,基于DataWorks构建行业通用大数据模型,如玩家、产品、SDK、事件、发行等,满足各种不同的分析型应用的要求,如AI场景、风控场景、数据分析场景等。
335 1
|
2月前
|
SQL 分布式计算 数据库
离线数仓--大数据技术之DolphinScheduler
离线数仓--大数据技术之DolphinScheduler
147 2
|
2月前
|
存储 数据可视化 JavaScript
基于Echarts构建大数据招聘岗位数据可视化大屏
基于Echarts构建大数据招聘岗位数据可视化大屏
59 0
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0

热门文章

最新文章