网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)|学习笔记

简介: 快速学习网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第三阶段)网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/695/detail/12199


网站流量日志分析--数仓设计--本项目中数据仓库的设计(星型模型)


分析的主题只有一个,叫做网站的流量日志,所以事实表只有一个,对应网站的流量数据,这时候肯定要有星座模型,剩下的星型、雪花。星型和雪花的区别在于雪花是在星型的模式上继续扩展,这里采用的是星型模型。

星型模型是一个事实表加多个维度表,维度表之间没有关联。确定模型之后,再确定维度表和事实表的数据从哪里来,首先第一个,事实表分析主题的度量,分析网站上面的日志,事实表就是网站上的数据,这时候对应着买点收集的原始数据,这时候会有一个小插曲,打开本地的目录,这里有收集到买点数据,

image.png

另外一个经过预处理之后得到另外一个数据

image.png

这里所说的网站原始数据到底指的是原来非常原始搜集的数据还是指清晰处理完的数据,从经过预处理那一刻,成功开始可以说第一个图的数据可以把它称之为原始数据,未处理之前的,告别历史舞台。因此事实表的数据所对应的清晰完之后原始网站数据,事实表确定之后,维度表在企业当中往往是根据业务相关的,从哪些角度分析,哪些维度分析,是不是跟业务相关,要分析 A ,还是要分析 B ,还是要分析 C,要结合事实表的情况根据业务决定。

image.png

比如在项目当中,网站当中数据有一些字段,里面有 IP 、用户的信息、时间、请求的页面,响应码、来源终端信息等等。要分析哪些维度应该是要涵盖事实表当中,比如分析当天网站访问情况天气情况,天气晴朗是多少,温度是多少,肯定分析不出来,因为没有关联。维度表在企业当中往往跟业务直接相关。

时间维度怎么分析,网站访问情况,分析一下一天是上午来的多还是下午来得多还是晚上来的多,每个小时的访问情况怎么样,一个月当中哪个星期来得多,什么阶段来的多,这些完全是跟时间相关的;再比如说分析访问的地域维度,大家都来访问,到底北京来得多还是上海来得多,还是哪里来的多,完全与访问地域相关,怎样去判断访客来自哪里,数据当中有 IP ,IP 如果说对方不是用代理,可以用 IP 去查相关的地域信息,所以说低维度也是分析的角度。

还有按照终端类型分析,终端分析搜索网站通过手机或者电脑,再或者安卓或 ios ,通过谷歌浏览器,360浏览器或者其他浏览器,这些都是跟终端相关的,在数据当中恰好也有终端字段叫做 use agent,使用谷歌浏览器版本还有网站的栏目

因此要明确一点维度表是从哪些维度开展的,往往跟右相关,但是有前提,维度表一定要跟事实表相关联,包含它。

本项目模式设计:

直接确定项目当中,本项目中模块设计,因为项目中只有一个分析主题:网站的流量日志情况,因此对应的事实表只有一个:网站流量日志。

本项目采用星型模型,有了星型模型之后确定事实表和维度表,第一个事实表就对应着数据预处理完之后的原始网站访问情况,维度表通常要结合业务去分析维度,但是确定分析的维度要严谨确定,事实表中就这些字段,分析下订单的一天或者访问网站天气预报,就没有天气的记录,所以说要根据业务分析维度,但要求要和事实表关联上,如果不能关联上分析将没有意义,要以能够涵盖事实表为基本标准,

举例,给事实表是过去半年的数据,时间恰好就在一月到六月范围内,

如说接下来给时间2017到2018,因为它们两之间没有关系,分析肯定分析不出来,想一个场景给19年的数据拿18年的数据关联,肯定分析不出来,第二个如果说只涵盖一点也是有问题,虽然它们产生了交集,这只能分析出来交集的部分,其他数据没有交集还是分析不出来,给予这样一个分析的标准才能够涵盖事实表为基本标准,不要求大于,至少两边要相等,所以维度表很灵活,通常跟业务决定,不是随便决定,要跟事实表相关。

image.png

接下来以时间维度为例,确定了表当中的模型之后直接导入即可,还有一个问题,在数据预选当中还有个点击流模型,这里会产生局部的小问题:点击流模型数据算什么类型的表?

是事实表还是维度表,点击流模型数据把用户的访问行为按时间先后顺序算成一条线,构成持续访问的轨迹,说是事实表有点勉强,说是维度表更加勉强,因此在这里特别强调一点叫做点击流模型既不是事实表也不是维度表,而是一个业务模型数据,可以称之为事实表的业务延伸。点击流模型是为了分析一些指标业务的方便而扩展出来的业务模型

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
2月前
|
SQL 存储 大数据
数据仓库(10)数仓拉链表开发实例
拉链表是数据仓库中特别重要的一种方式,它可以保留数据历史变化的过程,这里分享一下拉链表具体的开发过程。 维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。
183 13
数据仓库(10)数仓拉链表开发实例
|
4月前
|
SQL 关系型数据库 MySQL
在云数据仓库AnalyticDB MySQL版中,有几个参数可能影响SELECT查询的执行及其稳定性
在云数据仓库AnalyticDB MySQL版中,有几个参数可能影响SELECT查询的执行及其稳定性【1月更文挑战第16天】【1月更文挑战第80篇】
296 4
|
14天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库产品使用合集之如何使用ADB MySQL湖仓版声纹特征提取服务
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
14天前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库产品使用合集之阿里云云原生数据仓库AnalyticDB PostgreSQL版的重分布时间主要取决的是什么
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
14天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库产品使用合集之ADB MySQL湖仓版和 StarRocks 的使用场景区别,或者 ADB 对比 StarRocks 的优劣势
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
14天前
|
运维 Cloud Native 关系型数据库
云原生数据仓库产品使用合集之原生数据仓库AnalyticDB PostgreSQL版如果是列存表的话, adb支持通过根据某个字段做upsert吗
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
14天前
|
SQL 分布式计算 关系型数据库
云原生数据仓库产品使用合集之可以把ADB MySQL湖仓版数据库做成页面查询的数据库吗
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
2月前
|
分布式计算 大数据 Hadoop
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
266 2
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
|
2月前
|
SQL 数据采集 存储
数据仓库(12)数据治理之数仓数据管理实践心得
这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。
311 0
|
2月前
|
存储 大数据 数据管理
数据仓库(09)数仓缓慢变化维度数据的处理
数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。
229 2
数据仓库(09)数仓缓慢变化维度数据的处理