备案控制台

开发者社区数据库文章正文

助力工业物联网，工业大数据之数仓维度层DWS层构建【十二】

2023-12-26 97

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生数据仓库AnalyticDB MySQL版，基础版 8ACU 100GB 1个月

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 助力工业物联网，工业大数据之数仓维度层DWS层构建【十二】

数仓维度层DWS层构建

01：项目回顾

ODS层与DWD层的功能与区别是什么？

ODS：原始数据层

存储格式：AVRO
数据内容：基本与原始数据是一致的

DWD：明细数据层

存储格式：Orc
数据内容：基于与ODS层是一致的

ODS层的需求是什么？

自动化建库建表
建表

create table one_make_ods.表名
tableproperties(schema文件)

表名
表的注释
表对应的HDFS地址
Schema文件的地址

DWD层的需求是什么？

自动化建库建表
建表

create table one_make_dwd.表名(
  字段信息
)
location

表名
表的注释
表对应的HDFS地址
字段信息

怎么获取表的Schema信息？

表的注释、Schema信息
ODS：Oracle中获取表的注释、Schema文件从Sqoop生成的
DWD：Oracle中获取表的信息

TableMeta：表名，表的注释，列的信息：List
ColumnMeta：列名、列的注释、列的类型、长度、精度

如何使用Python构建Oracle和Hive的连接？

Oracle：cx_Oracle

conn（host,port,user,passwd,sid）

Hive/SparkSQL：pyHive

SparkSQL用法
编程方式：python文件 | jar包

流程

step1：SparkSession
step2：读取数据源
step3：处理

注册视图
spark.sql(“”)

spark-submit
优点：灵活
场景：DSL

提交SQL：ThriftServer

场景：SQL，调度开发
流程

JDBC | PyHive | Beeline：代码中开发
spark-sql -f xxxx.sql：SQL文件的运行

如果实现SQL语句的执行？

step1：先构建服务端的远程连接

服务端地址：主机名 + 端口
用户名和密码

step2：基于这个连接构建一个游标
step3：通过游标来执行SQL语句：execute(String：SQL)
step4：释放资源

集中问题

连接构建不上

映射不对：spark.bigdata.cn：Can not Connect[46.xxx.xxxx.xx，10001]

修改host文件
修改config.txt：node1

服务端问题：spark.bigdata.cn：Can not Connect[192.168.88.100，10001]

Spark的TriftServer没有启动

启动完成先用dg或者beeline先测试一下

ThriftServer：依赖于MetaStore + YARN

检查YARN：本质就是一个Spark程序：实时程序，不停止的

Oracle：cx_Oracle + 本地客户端：D:\instantclient_12_2

安装

Python版本：Python 3.7.4
命令sasl

02：项目目标

回顾维度建模

建模流程：划分主题域和主题
维度设计：构建维度矩阵
维度模型：雪花模型、星型模式

项目中的建模流程和维度设计

划分了哪些主题域，每个主题域有哪些主题？
每个主题基于哪些维度进行分析？

维度层构建

时间维度
地区维度
油站维度
服务网点维度
组织机构维度
仓库维度
物流维度

03：维度建模回顾：建模流程

目标：掌握维度建模的建模流程
实施

step1-需求调研：业务调研和数据调研

了解整个业务实现的过程
收集所有数据使用人员对于数据的需求
整理所有数据来源

step2-划分主题域：面向业务将业务划分主题域及主题

用户域、店铺域
商品域、交易域、
客服域、信用风控域、采购分销域

step3-构建维度总线矩阵：明确每个业务主题对应的维度关系
step4-明确指标统计：明确所有原生指标与衍生指标

原生指标：基于某一业务事件行为下的度量，是业务定义中不可再拆分的指标，如支付总金额
衍生指标：基于原子指标添加了维度：近7天的支付总金额等

step5-定义事实与维度规范

命名规范、类型规范、设计规范等

step6-代码开发

实现具体的代码开发
只要知道指标的计算方式，基于维度分组计算指标

小结

掌握维度建模的建模流程

04：维度建模回顾：维度设计

目标：掌握维度建模中维度的设计
实施

功能：基于组合维度来更加细化我们的指标，来更加精确的发现问题

指标如果不基于组合维度进行分析得到，指标的结果是没有意义的

实现：开发中维度就是指标聚合时的分组字段
特点

数据量小
很少发生变化

采集方式：全量
常见维度

时间维度：年、季度、月、周、天、小时
地区维度：国家、省份、城市
平台维度：网站、APP、小程序、H5
操作系统维度：Windows、Mac OS、Android、Linux、IOS
……

小结

掌握维度建模中维度的设计

05：维度建模回顾：维度模型

目标：掌握维度设计的常用模型
路径

step1：雪花模型
step2：星型模型
step3：星座模型

实施

雪花模型

设计：部分维度通过其他维度间接关联事实表
优点：避免数据的冗余
缺点：关联层次比较多，数据大的情况下，底层层层Join，查询数据性能降低

星型模型

设计：所有维度表直接关联事实表
优点：每次查询时候，直接获取对应的数据结果，不用关联其他的维度子表，可以提高性能
缺点：数据冗余度相比雪花模型较高

星座模型

星座模型：基于星型模型的演变，多个事实共同使用一个维度表

小结

掌握维度设计的常用模型

文章标签：

云原生数据仓库AnalyticDB MySQL版

物联网平台

云原生大数据计算服务 MaxCompute

SQL

关系型数据库

Oracle

物联网

大数据

关键词：

云原生大数据计算服务 MaxCompute数仓

云原生大数据计算服务 MaxCompute构建

物联网平台构建

物联网平台大数据

云原生数据仓库AnalyticDB MySQL版大数据

相关实践学习

AnalyticDB MySQL海量数据秒级分析体验

快速上手AnalyticDB MySQL，玩转SQL开发等功能！本教程介绍如何在AnalyticDB MySQL中，一键加载内置数据集，并基于自动生成的查询脚本，运行复杂查询语句，秒级生成查询结果。

阿里云云原生数据仓库AnalyticDB MySQL版使用教程

云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库，高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准，可以对海量数据进行即时的多维分析透视和业务探索，快速构建企业云上数据仓库。了解产品 https://www.aliyun.com/product/ApsaraDB/ads

Maynor

目录

相关文章

武子康

|

3月前

|

消息中间件分布式计算大数据

大数据-166 Apache Kylin Cube 流式构建整体流程详细记录

大数据-166 Apache Kylin Cube 流式构建整体流程详细记录

武子康

93 5 5

武子康

|

3月前

|

存储 SQL 分布式计算

大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录多图

大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录多图

武子康

72 3 3

技术内容小助手

|

2天前

|

人工智能分布式计算数据处理

MaxCompute Data + AI：构建 Data + AI 的一体化数智融合

本次分享将分为四个部分讲解：第一部分探讨AI时代数据开发范式的演变，特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力，提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验，涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益，包括互联网公司和大模型训练客户的实践，展示了MaxFrame带来的显著性能提升和开发效率改进。

技术内容小助手

26 7 9

技术内容小助手

|

2天前

|

存储关系型数据库 BI

实时计算UniFlow：Flink+Paimon构建流批一体实时湖仓

实时计算架构中，传统湖仓架构在数据流量管控和应用场景支持上表现良好，但在实际运营中常忽略细节，导致新问题。为解决这些问题，提出了流批一体的实时计算湖仓架构——UniFlow。该架构通过统一的流批计算引擎、存储格式（如Paimon）和Flink CDC工具，简化开发流程，降低成本，并确保数据一致性和实时性。UniFlow还引入了Flink Materialized Table，实现了声明式ETL，优化了调度和执行模式，使用户能灵活调整新鲜度与成本。最终，UniFlow不仅提高了开发和运维效率，还提供了更实时的数据支持，满足业务决策需求。

技术内容小助手

19 5 5

技术内容小助手

|

2天前

|

SQL 存储分布式计算

Hologres+Paimon构建一体化实时湖仓

Hologres 3.0全新升级，面向未来的一体化实时湖仓。它支持多种Table Format，提供湖仓存储、多模式计算、分析服务和Data+AI一体的能力。Hologres与Paimon结合，实现统一元数据管理、极速查询性能、增量消费及ETL功能。Dynamic Table支持流式、增量和全量三种刷新模式，满足不同业务需求，实现一份数据、一份SQL、一份计算的多模式刷新。该架构适用于高时效性要求的场景，也可用于成本敏感的数据共享场景。

技术内容小助手

22 1 1

穿过生命散发芬芳

|

21天前

|

DataWorks 数据挖掘大数据

方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析

DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间，通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率，DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。

穿过生命散发芬芳

70 11 11

灵杰开发者

|

2月前

|

消息中间件人工智能监控

Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建

本文由喜马拉雅直播业务与仓库建设负责人王琛撰写，介绍了喜马拉雅直播业务的数据仓库架构迭代升级。文章重点分享了基于 Flink + Paimon + StarRocks 实现实时湖仓的架构及其成效，通过分钟级别的收入监控、实时榜单生成、流量监测和盈亏预警，大幅提升了运营效率与决策质量，并为未来的业务扩展和 AI 项目打下坚实基础。

灵杰开发者

229 5 5

Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建

武子康

|

3月前

|

Java 大数据数据库连接

大数据-163 Apache Kylin 全量增量Cube的构建手动触发合并 JDBC 操作 Scala

大数据-163 Apache Kylin 全量增量Cube的构建手动触发合并 JDBC 操作 Scala

武子康

42 2 2

大数据-163 Apache Kylin 全量增量Cube的构建手动触发合并 JDBC 操作 Scala

源码星辰

|

2月前

|

存储人工智能大数据

物联网、大数据、云计算、人工智能之间的关系

物联网、大数据、云计算、人工智能之间的关系是紧密相连、相互促进的。这四者既有各自独立的技术特征，又能在不同层面上相互融合，共同推动信息技术的发展和应用。

源码星辰

633 0 1

郑小健

|

2月前

|

分布式计算大数据 OLAP

AnalyticDB与大数据生态集成：Spark & Flink

【10月更文挑战第25天】在大数据时代，实时数据处理和分析变得越来越重要。AnalyticDB（ADB）是阿里云推出的一款完全托管的实时数据仓库服务，支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力，将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发，分享如何将AnalyticDB与Spark和Flink集成，构建端到端的大数据处理流水线，实现数据的实时分析和处理。

郑小健

73 1 1

热门文章

最新文章

新技术趋势与应用：物联网与虚拟现实的未来发展###

物联网 GE-PREDIX

物联网：关键技术剖析与应用拓展

物联网技术在物流与供应链管理中的应用与挑战

新技术趋势与应用：探讨新兴技术如物联网、虚拟现实等的发展趋势和应用场景###

新技术浪潮下的变革：区块链、物联网与虚拟现实的融合与创新####

揭秘区块链技术在物联网（IoT）安全中的革新应用

探索边缘计算在物联网时代的无限可能

未来已来：区块链技术在物联网与虚拟现实中的应用

未来技术的脉动：探索区块链、物联网与虚拟现实的融合趋势

基于OceanBase+Flink CDC，云粒智慧实时数仓演进之路

Hive 数仓及数仓设计方案

DataWorks产品使用合集之在DataWorks中，查看ODPS表的OSS对象如何解决

DataWorks产品使用合集之在DataWorks中，将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决

大数据分析平台之 OLAP 架构的最佳实践

云原生数据仓库产品使用合集之如何使用ADB MySQL湖仓版声纹特征提取服务

云原生数据仓库产品使用合集之可以把ADB MySQL湖仓版数据库做成页面查询的数据库吗

云原生数据仓库产品使用合集之阿里云云原生数据仓库AnalyticDB PostgreSQL版的重分布时间主要取决的是什么

云原生数据仓库产品使用合集之ADB MySQL湖仓版和 StarRocks 的使用场景区别，或者 ADB 对比 StarRocks 的优劣势

云原生数据仓库产品使用合集之原生数据仓库AnalyticDB PostgreSQL版如果是列存表的话， adb支持通过根据某个字段做upsert吗

相关课程

更多

大咖带你聊物联网

基于STM32的端到端物联网全栈开发

走进阿里云物联网

阿里云物联网平台专题介绍

物联网平台开发全栈教程

物联网平台云上开发

相关电子书

更多

美的物联平台的云上实践与应用--- 人机新世代战略下的智能化探索

使用Link Develop 进行物联网一站式开发

从创意到原型：物联网应用快速开发

相关实验场景

更多

基于OpenSearch向量检索版和MaxCompute快速搭建图搜服务

倚天大数据电商数据分析快速实践

使用计算巢AI应用，轻松定制个人数字形象

玩转MaxCompute SQL! 30分钟搞定数据分析挖掘

温控器设备接入IoT物联网平台与数据管理实践

使用内置公开数据集快速体验MaxCompute

下一篇

阿里云无影云电脑免费试用，最长可试用3个月