助力工业物联网,工业大数据之数仓事实层DWB层构建【十七】

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 助力工业物联网,工业大数据之数仓事实层DWB层构建【十七】

数仓事实层DWB层构建

01:项目回顾

  1. 项目中有哪些主题域?
  • 服务域:工单主题、安装主题
  • 客户域:客户事主题
  • 仓储域:物料主题
  • 运营域:工时主题
  • 市场域:工单主题
  1. 项目中有哪些核心维度?
  • 时间维度
  • 地区维度
  • 油站维度
  • 服务站点维度
  • 组织机构维度
  • 物流维度
  • 仓库维度
  • ……
  1. 行政地区维度中有哪些核心字段?
省份id  省份名称  城市id  城市名称    县区id    县区名称    乡镇id  乡镇名称
  • 定期或者按照变化,全量同步到数据仓库中
  1. 时间维度中有哪些核心字段?
年 季度    月   周   日   年的第几天 周的第几天 工作日   节假日   周日
  • 每一年提前将下一年的时间维度信息生成,增量放入数据仓库中
  1. 服务网点维度中有哪些核心字段?
服务网点id  编码  名称    省份   城市   县区    组织机构id  组织机构名称
  1. 油站维度中有哪些核心字段?
油站id  油站编码  油站名称    省份  城市  县区  乡镇    客户id  客户名称  公司id  公司名称
  1. 组织机构维度中有哪些核心字段?
工程师id 工程师名称   岗位id  岗位名称    部门id    部门名称
  1. 集中问题
  • DG连接不上:YARN的进程故障,导致ThriftServer无法运行
  • Hadoop:NameNode、DataNode、ResourceManager、NodeManager
  • Hive:Metastore、Hiveserver2
  • Spark:ThriftServer
  • 异常:ProtocolBuffer 不匹配:dim_date
  • 数据文件与表的定义是不匹配的
  • step1:检查建表语法
  • step2:文件:上传时候文件是不对的
  • 语法 + 函数 + 数据关系
  • 语法 + 函数 :计算
  • 数据关系:逻辑

02:项目目标

  • 整体目标:构建数仓中的DWB:主题事务事实表
  • 核心的主题事实的构建:SQL实现 + 主题的指标
  • 原始事务事实数据【DWD】:订单数据
o001    userid1   2021-01-01  200.00
  • 主题事务事实数据【DWB】:订单主题
o001    userid1   2021-01-01  订单总金额:200   订单总个数:1
  • 主题周期快照事实表:数据应用层【ST:维度【DWS】 + 事实指标【DWB】】
2021-01-01  订单总金额:xxxx    订单总个数:xxxx
  • 重点内容:SQL以及数据关系

03:分层回顾

  • 目标:回顾一站制造项目分层设计
  • 实施
  • ODS层 :原始数据层:101张表:AVRO
  • DWD层:明细数据层:101张表:ORC
  • DWS层:维度数据层:维度表
  • DWB层:轻度汇总层:Join + 构建基础指标
  • 小结
  • 回顾一站制造项目分层设计

04:DWB层的设计

  • 目标:掌握DWB层的设计
  • 路径
  • step1:功能
  • step2:来源
  • step3:需求
  • 实施
  • 功能:存储每个事实主题需要的事务事实数据以及轻度聚合的结果,供ST层基于DWS层进行统计聚合得到最终每个主题的指标
  • 关联:将事实主题需要的字段进行关联合并到一张事实表中,构建基于主题的事实
  • 聚合:对常用的基础指标基于细粒度实现轻度聚合
  • 来源:对DWD层的数据进行关联或者轻度聚合
  • 需求:按照一站制造的业务主题的划分需求,构建每个主题的DWB层的数据
  • 小结
  • 掌握DWB层的设计


相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
2月前
|
监控 供应链 安全
物联网卡在工业领域的应用
物联网卡在工业领域的应用极大地推动了行业的智能化、自动化和高效化进程。以下是物联网卡在工业领域中各操作类型中的具体应用作用:
|
22天前
|
消息中间件 人工智能 监控
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
本文由喜马拉雅直播业务与仓库建设负责人王琛撰写,介绍了喜马拉雅直播业务的数据仓库架构迭代升级。文章重点分享了基于 Flink + Paimon + StarRocks 实现实时湖仓的架构及其成效,通过分钟级别的收入监控、实时榜单生成、流量监测和盈亏预警,大幅提升了运营效率与决策质量,并为未来的业务扩展和 AI 项目打下坚实基础。
154 2
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
|
6天前
|
人工智能 监控 物联网
深度探索人工智能与物联网的融合:构建未来智能生态系统###
在当今这个数据驱动的时代,人工智能(AI)与物联网(IoT)的深度融合正引领着一场前所未有的技术革命。本文旨在深入剖析这一融合背后的技术原理、探讨其在不同领域的应用实例及面临的挑战与机遇,为读者描绘一幅关于未来智能生态系统的宏伟蓝图。通过技术创新的视角,我们不仅揭示了AI与IoT结合的强大潜力,也展望了它们如何共同塑造一个更加高效、可持续且互联的世界。 ###
|
15天前
|
传感器 监控 安全
创新无限:物联网技术在智慧城市构建中的前沿探索
【10月更文挑战第29天】在这个信息爆炸的时代,物联网(IoT)技术正重塑我们对城市的认知。智慧城市已从科幻走向现实,物联网通过连接各种设备和传感器,收集、分析数据,提升城市运行效率和居民生活质量。从智慧城管、智能交通、智慧水务到智能电网,物联网的应用正逐步实现城市的智能化、互联化和可持续发展。
33 1
|
16天前
|
存储 人工智能 大数据
物联网、大数据、云计算、人工智能之间的关系
物联网、大数据、云计算、人工智能之间的关系是紧密相连、相互促进的。这四者既有各自独立的技术特征,又能在不同层面上相互融合,共同推动信息技术的发展和应用。
125 0
|
19天前
|
机器学习/深度学习 人工智能 物联网
深度学习:物联网大数据洞察中的人工智能
深度学习:物联网大数据洞察中的人工智能
|
19天前
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
48 1
|
22天前
|
SQL 存储 数据挖掘
快速入门:利用AnalyticDB构建实时数据分析平台
【10月更文挑战第22天】在大数据时代,实时数据分析成为了企业和开发者们关注的焦点。传统的数据仓库和分析工具往往无法满足实时性要求,而AnalyticDB(ADB)作为阿里巴巴推出的一款实时数据仓库服务,凭借其强大的实时处理能力和易用性,成为了众多企业的首选。作为一名数据分析师,我将在本文中分享如何快速入门AnalyticDB,帮助初学者在短时间内掌握使用AnalyticDB进行简单数据分析的能力。
32 2
|
1月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
179 1
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
1月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
70 1