网站流量日志分析—数仓设计—维度建模多维数据分析|学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 快速学习网站流量日志分析—数仓设计—维度建模多维数据分析

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第三阶段) 网站流量日志分析—数仓设计—维度建模多维数据分析】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/695/detail/12197


网站流量日志分析—数仓设计—维度建模多维数据分析


内容介绍:

一、维度建模的概念

二、多维数据分析的概念


一、维度建模的概念

建模可以理解为建立模型,表跟库,库跟表,表与表之间的模型,维度通常可以把它看待为一个问题的角度。比如同样的一件事情站在不同的角度,不同的维度下,可以得出不同的结果。分析公司的订单销售情况,从时间的维度下手分析哪个月卖的多,哪一天卖的多;也可以从地域的维度来分析,哪个省卖的多,是北方卖的多还是南方卖的多;也可以从商品的维度来分析,这样一发现,从不同的角度切入分析都是订单销售情况。这个维度建模呢非常满足分析的需求,因为在大数据分析领域当中通常就是通过不同的维度去看待一个相关数据的规律。在理解维度建模具体概念之前,首先一点要特别的明确,维度建模这个理论专门适用于面向分析的环境,比如说分析型数据库是定向分析的、数据仓库是定向分析的,还有一个数据集市,可以理解为小型的数据仓库,还是面向分析的通常所说的 OLAP 连接分析处理,它肯定不是传统的关系数据库。

以维度为标准开展数据的分析需求,适用于面向分析领域的理论,比如分析型数据库、数据仓库、数据集市,这三种 OLAP 区别于面向四步的关系型数据库。

1、事实表

事实表跟客观事件相关联,所谓的事实表所对应的就是客观发生的事件,比如说分析网站的访问情况,一条访问日志是一个事实表的记录,而要分析订单销售情况,一笔订单就是一条记录。所以说事实表一般跟主题相关,要分析 A 找到 A 的数据,分析 B 要找到 B 的数据,分析订单要找订单数据,要分析人找人的数据,要分析评论找评论的数据,它是跟分析主题相关,是对分析主题的度量,比如说(下图),

image.png

老板下达命令,去分析下公司订单销售情况,这时候确定分析主题是订单之后是否要根据主题相关的订单表打过来,订单表就是俗称的事实表。在订单表当中,它的一条记录对应着一个客观事件,下一个订单记录数据,在订单表中可以看到当中往往都是一堆主键的聚集,订单编号多少,哪一个人购买的,买的商品编号,时间,地址编号,订单金额以及数量等等。这样简单的一些字段就可以把客观发生的事件记录下来,这是所谓的事实表。有了事实表之后,维度表可以从不同的角度来分析它,不去看上图,分析订单可以从不同的角度去切入它,比如说从用户的角度来切入,购买者的 ID 是谁,关联用户表去分析哪个人买的多,分析一下过去一个月订单金额最多前三位是谁,再发一个优惠券,这时候是跟用户相关的,用户表就是维度表。

再比如说,从三屏的维度来分析大家都来买东西,哪个商品卖的多,买手机哪种型号卖的多,通过商品来去关联商品表,又可以分析哪个商品卖的多;

再比如说时间表,客观的订单一天发生,统计一下过去一个月订单在上旬卖的多,还是下旬卖的多还是哪个时间买的多,去关联一个时间表又可以带来分析,这时候发现维度表正是之前所说的看待问题的角度,同样一个事实可以从不同角度去切入它得到不同的一些字标,甚至这些维度之间还可以做一个组合,看待过去一个月当中哪个商品卖的多,是不是时间跟商品做一个组合,这样组合起来,维度表加上事实表构成纬度建模的一个理论,这套理论非常贴近于客观分析实践的需求,因为类具分析事情偶尔从不同角度不同维度具体看待它相关标准的情况。

分析主题的客观事件度量,是分析主题的数据聚集,事实表中一条记录往往对应着客观的一个事件,往往是一堆主键的聚集。

2、维度表

所谓的维度表就是看待问题的角度,可以通过不同的维度去分析同一个事实表,得出不同的分析结果。维度表可以跟事实表进行相关查询

如果说给订单都是中国用户的订单,接下来从美国用户的维度分析肯定是分析不出来,因为他两之间是没有关联的,所以说要想以纬度来分析肯定是要有相关的数据关联上,那么这样两个构成起来,满足数据分析领域当中的所谓的维度建模。在当下企业当中,用的最多一套是维度建模理论,其实位次还验证出来多维数据分析。

二、多维数据分析

所谓的多维数据分析就是通过不同维度的聚集计算出某种度量值。

举个例子统计来自于北京地区女性24岁未婚的过去三年购物金额做多的前三个,这个例子非常贴近于实际需求,在企业当中,比如说用户来这个需求,去统计一下指标,维度有地域、性别、年龄、婚姻、时间。常见的度量值有 max、min、count、sum、avg、topn。根据度量值来看刚才的例子当中就是统计来自北京女性24岁未婚三年,因此度量值有 sum(订单金额)做一个排序找出前三,这就是多维数据的分析的应用。

多维数据分析本身给予不同的维度对数据开展分析,这是在面向分析当中非常适用的分析理论叫做维度建模。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
7月前
|
数据采集 数据可视化 数据挖掘
多维数据分析:使用Pandas进行复杂的数据操作和聚合
【4月更文挑战第12天】Pandas是Python的强大数据分析库,提供DataFrame数据结构进行多维数据处理。本文介绍了使用Pandas进行多维数据分析的流程:1) 导入数据(如CSV、Excel);2) 数据预处理,包括缺失值处理和类型转换;3) 数据探索,利用describe()、hist()、plot()等进行统计和可视化;4) 数据操作,如筛选、排序和分组;5) 数据聚合,通过groupby()和agg()进行计算。文中还给出了电商数据分析的案例,展示Pandas在实际应用中的价值。
311 2
|
2天前
|
数据挖掘 OLAP BI
OLAP技术:数据分析的修仙秘籍初探
OLAP(联机分析处理)是一种多维数据分析技术,能够从不同角度洞察数据,揭示隐藏的趋势和模式。它最早由Edgar F. Codd在1993年提出,旨在弥补传统OLTP系统的不足,支持复杂的数据分析与决策支持。OLAP操作包括钻取、上卷、切片、切块和旋转等,帮助用户灵活地探索数据。广泛应用于财务报告、市场分析、库存管理和预测分析等领域,是现代商业智能的重要工具。
23 7
|
10天前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
1月前
|
SQL 存储 数据挖掘
快速入门:利用AnalyticDB构建实时数据分析平台
【10月更文挑战第22天】在大数据时代,实时数据分析成为了企业和开发者们关注的焦点。传统的数据仓库和分析工具往往无法满足实时性要求,而AnalyticDB(ADB)作为阿里巴巴推出的一款实时数据仓库服务,凭借其强大的实时处理能力和易用性,成为了众多企业的首选。作为一名数据分析师,我将在本文中分享如何快速入门AnalyticDB,帮助初学者在短时间内掌握使用AnalyticDB进行简单数据分析的能力。
54 2
|
3月前
|
SQL DataWorks 数据挖掘
手把手体验Hologres的OLAP数据分析
本方案基于阿里云实时数仓Hologres与DataWorks数据集成,实现数据库RDS到Hologres的实时同步,充分发挥Hologres强大的查询分析能力,提供一站式高性能OLAP数据分析。Hologres支持标准SQL,无缝对接主流BI工具,适用于多种场景。方案包括创建VPC、开通Hologres、开通DataWorks、创建公网NAT、建立Hologres表、实时同步数据、OLAP分析及资源清理等步骤,为轻量级OLAP分析平台搭建奠定基础。
|
4月前
|
数据挖掘 关系型数据库 分布式数据库
实时数仓Hologres发展问题之提升数据分析效率如何解决
实时数仓Hologres发展问题之提升数据分析效率如何解决
37 2
|
4月前
|
存储 SQL 人工智能
AnalyticDB for MySQL:AI时代实时数据分析的最佳选择
阿里云云原生数据仓库AnalyticDB MySQL(ADB-M)与被OpenAI收购的实时分析数据库Rockset对比,两者在架构设计上有诸多相似点,例如存算分离、实时写入等,但ADB-M在多个方面展现出了更为成熟和先进的特性。ADB-M支持更丰富的弹性能力、强一致实时数据读写、全面的索引类型、高吞吐写入、完备的DML和Online DDL操作、智能的数据生命周期管理。在向量检索与分析上,ADB-M提供更高检索精度。ADB-M设计原理包括分布式表、基于Raft协议的同步层、支持DML和DDL的引擎层、高性能低成本的持久化层,这些共同确保了ADB-M在AI时代作为实时数据仓库的高性能与高性价比
|
5月前
|
存储 数据挖掘 OLAP
阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析
阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章对阿里云EMR Serverless StarRocks OLAP 数据分析场景进行解析、存算分离架构升级以及 Trino 兼容,无缝替换介绍。
19219 12
|
7月前
|
存储 安全 数据挖掘
性能30%↑|阿里云AnalyticDB*AMD EPYC,数据分析步入Next Level
第4代 AMD EPYC加持,云原生数仓AnalyticDB分析轻松提速。
性能30%↑|阿里云AnalyticDB*AMD EPYC,数据分析步入Next Level

热门文章

最新文章

下一篇
DataWorks