网站流量日志分析—数仓设计—维度建模多维数据分析|学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 快速学习网站流量日志分析—数仓设计—维度建模多维数据分析

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第三阶段) 网站流量日志分析—数仓设计—维度建模多维数据分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/695/detail/12197


网站流量日志分析—数仓设计—维度建模多维数据分析


内容介绍:

一、维度建模的概念

二、多维数据分析的概念


一、维度建模的概念

建模可以理解为建立模型,表跟库,库跟表,表与表之间的模型,维度通常可以把它看待为一个问题的角度。比如同样的一件事情站在不同的角度,不同的维度下,可以得出不同的结果。分析公司的订单销售情况,从时间的维度下手分析哪个月卖的多,哪一天卖的多;也可以从地域的维度来分析,哪个省卖的多,是北方卖的多还是南方卖的多;也可以从商品的维度来分析,这样一发现,从不同的角度切入分析都是订单销售情况。这个维度建模呢非常满足分析的需求,因为在大数据分析领域当中通常就是通过不同的维度去看待一个相关数据的规律。在理解维度建模具体概念之前,首先一点要特别的明确,维度建模这个理论专门适用于面向分析的环境,比如说分析型数据库是定向分析的、数据仓库是定向分析的,还有一个数据集市,可以理解为小型的数据仓库,还是面向分析的通常所说的 OLAP 连接分析处理,它肯定不是传统的关系数据库。

以维度为标准开展数据的分析需求,适用于面向分析领域的理论,比如分析型数据库、数据仓库、数据集市,这三种 OLAP 区别于面向四步的关系型数据库。

1、事实表

事实表跟客观事件相关联,所谓的事实表所对应的就是客观发生的事件,比如说分析网站的访问情况,一条访问日志是一个事实表的记录,而要分析订单销售情况,一笔订单就是一条记录。所以说事实表一般跟主题相关,要分析 A 找到 A 的数据,分析 B 要找到 B 的数据,分析订单要找订单数据,要分析人找人的数据,要分析评论找评论的数据,它是跟分析主题相关,是对分析主题的度量,比如说(下图),

image.png

老板下达命令,去分析下公司订单销售情况,这时候确定分析主题是订单之后是否要根据主题相关的订单表打过来,订单表就是俗称的事实表。在订单表当中,它的一条记录对应着一个客观事件,下一个订单记录数据,在订单表中可以看到当中往往都是一堆主键的聚集,订单编号多少,哪一个人购买的,买的商品编号,时间,地址编号,订单金额以及数量等等。这样简单的一些字段就可以把客观发生的事件记录下来,这是所谓的事实表。有了事实表之后,维度表可以从不同的角度来分析它,不去看上图,分析订单可以从不同的角度去切入它,比如说从用户的角度来切入,购买者的 ID 是谁,关联用户表去分析哪个人买的多,分析一下过去一个月订单金额最多前三位是谁,再发一个优惠券,这时候是跟用户相关的,用户表就是维度表。

再比如说,从三屏的维度来分析大家都来买东西,哪个商品卖的多,买手机哪种型号卖的多,通过商品来去关联商品表,又可以分析哪个商品卖的多;

再比如说时间表,客观的订单一天发生,统计一下过去一个月订单在上旬卖的多,还是下旬卖的多还是哪个时间买的多,去关联一个时间表又可以带来分析,这时候发现维度表正是之前所说的看待问题的角度,同样一个事实可以从不同角度去切入它得到不同的一些字标,甚至这些维度之间还可以做一个组合,看待过去一个月当中哪个商品卖的多,是不是时间跟商品做一个组合,这样组合起来,维度表加上事实表构成纬度建模的一个理论,这套理论非常贴近于客观分析实践的需求,因为类具分析事情偶尔从不同角度不同维度具体看待它相关标准的情况。

分析主题的客观事件度量,是分析主题的数据聚集,事实表中一条记录往往对应着客观的一个事件,往往是一堆主键的聚集。

2、维度表

所谓的维度表就是看待问题的角度,可以通过不同的维度去分析同一个事实表,得出不同的分析结果。维度表可以跟事实表进行相关查询

如果说给订单都是中国用户的订单,接下来从美国用户的维度分析肯定是分析不出来,因为他两之间是没有关联的,所以说要想以纬度来分析肯定是要有相关的数据关联上,那么这样两个构成起来,满足数据分析领域当中的所谓的维度建模。在当下企业当中,用的最多一套是维度建模理论,其实位次还验证出来多维数据分析。

二、多维数据分析

所谓的多维数据分析就是通过不同维度的聚集计算出某种度量值。

举个例子统计来自于北京地区女性24岁未婚的过去三年购物金额做多的前三个,这个例子非常贴近于实际需求,在企业当中,比如说用户来这个需求,去统计一下指标,维度有地域、性别、年龄、婚姻、时间。常见的度量值有 max、min、count、sum、avg、topn。根据度量值来看刚才的例子当中就是统计来自北京女性24岁未婚三年,因此度量值有 sum(订单金额)做一个排序找出前三,这就是多维数据的分析的应用。

多维数据分析本身给予不同的维度对数据开展分析,这是在面向分析当中非常适用的分析理论叫做维度建模。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
5月前
|
存储 消息中间件 Java
抖音集团电商流量实时数仓建设实践
本文基于抖音集团电商数据工程师姚遥在Flink Forward Asia 2024的分享,围绕电商流量数据处理展开。内容涵盖业务挑战、电商流量建模架构、流批一体实践、大流量任务调优及总结展望五个部分。通过数据建模与优化,实现效率、质量、成本和稳定性全面提升,数据质量达99%以上,任务性能提升70%。未来将聚焦自动化、低代码化与成本优化,探索更高效的流批一体化方案。
372 12
抖音集团电商流量实时数仓建设实践
|
5月前
|
数据挖掘 OLAP OLTP
体验AnalyticDB无感集成(Zero-ETL)下的一站式数据分析,完成任务可领取300社区积分兑换各种商城好礼!
瑶池数据库的无感数据集成实现秒级同步,性能提升15%。借助AnalyticDB的Zero-ETL功能,快速搭建OLTP与OLAP同步链路,一站式管理数据分析。参与活动完成任务即可领取300社区积分,还有机会抽取红酒收纳箱、键盘鼠标垫、福禄寿淘公仔等好礼!
|
8月前
|
人工智能 分布式计算 Cloud Native
云原生数据仓库AnalyticDB:深度智能化的数据分析洞察
云原生数据仓库AnalyticDB(ADB)是一款深度智能化的数据分析工具,支持大规模数据处理与实时分析。其架构演进包括存算分离、弹性伸缩及性能优化,提供zero-ETL和APS等数据融合功能。ADB通过多层隔离保障负载安全,托管Spark性能提升7倍,并引入AI预测能力。案例中,易点天下借助ADB优化广告营销业务,实现了30%的任务耗时降低和20%的成本节省,展示了云原生数据库对出海企业的数字化赋能。
275 3
|
9月前
|
数据挖掘 OLAP BI
OLAP技术:数据分析的修仙秘籍初探
OLAP(联机分析处理)是一种多维数据分析技术,能够从不同角度洞察数据,揭示隐藏的趋势和模式。它最早由Edgar F. Codd在1993年提出,旨在弥补传统OLTP系统的不足,支持复杂的数据分析与决策支持。OLAP操作包括钻取、上卷、切片、切块和旋转等,帮助用户灵活地探索数据。广泛应用于财务报告、市场分析、库存管理和预测分析等领域,是现代商业智能的重要工具。
284 7
|
9月前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
11月前
|
PyTorch 算法框架/工具
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
本文介绍了PyTorch中的F.softmax()和F.log_softmax()函数的语法、参数和使用示例,解释了它们在进行归一化处理时的作用和区别。
1079 1
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
|
10月前
|
SQL 存储 数据挖掘
快速入门:利用AnalyticDB构建实时数据分析平台
【10月更文挑战第22天】在大数据时代,实时数据分析成为了企业和开发者们关注的焦点。传统的数据仓库和分析工具往往无法满足实时性要求,而AnalyticDB(ADB)作为阿里巴巴推出的一款实时数据仓库服务,凭借其强大的实时处理能力和易用性,成为了众多企业的首选。作为一名数据分析师,我将在本文中分享如何快速入门AnalyticDB,帮助初学者在短时间内掌握使用AnalyticDB进行简单数据分析的能力。
420 2
|
SQL DataWorks 数据挖掘
手把手体验Hologres的OLAP数据分析
本方案基于阿里云实时数仓Hologres与DataWorks数据集成,实现数据库RDS到Hologres的实时同步,充分发挥Hologres强大的查询分析能力,提供一站式高性能OLAP数据分析。Hologres支持标准SQL,无缝对接主流BI工具,适用于多种场景。方案包括创建VPC、开通Hologres、开通DataWorks、创建公网NAT、建立Hologres表、实时同步数据、OLAP分析及资源清理等步骤,为轻量级OLAP分析平台搭建奠定基础。
|
jenkins 持续交付
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出

热门文章

最新文章