网站流量日志分析—分析指标和分析模型—基础、来源分析模型|学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习网站流量日志分析—分析指标和分析模型—基础、来源分析模型

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第三阶段)网站流量日志分析—分析指标和分析模型—基础、来源分析模型】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/695/detail/12210


网站流量日志分析—分析指标和分析模型—基础、来源分析模型


内容介绍:

一、 基础分析

二、 来源分析

 

当计算出基础复核指标之后,这些指标该以何种方式呈现给别人看,这就是所谓的分析模型所探讨的问题。

 

一、 基础分析

第一块叫做基础指标的模型,基础指标一般指 PV 、IP 、UV。那么如果不考虑模型展示给别人看将会是一种非常枯燥无聊的,举个例子,入职公司当中的非常辛苦的数据分析工作,进行数据的采集,收集,预处理以及分析,这时候每天都可以分析出这些指标,比如20181101,PV 是1000,UV 是600,VV 是650,在伪造数据的时候要记住数据背后的规律不要改变, VV 不可能小于 UV 的,今天来了600 个人至少产生了600个对话,这个规律要知道,这是一号分析的指标;

第二天又开始了,分析指标, PV 是1200,UV 是700,VV 是720,但是发现当把数据清晰好之后,每天分析起来并不难,也就是做一些数据的统计,但是发现如果是总结指标非常的枯燥,计算出来它并不非常有利于给别人展示,就这些基础指标基础分析模型以什么形式展示比较友好,例如,这时候针对每一天或者每个指标的情况,老板需要看 PV 波动情况,首先直接看数据也能看出波动情况,但更好提供一个折线统计图,X 轴是时间,Y 轴是PV ,给它画一个柱状图,做相关的颜色,比较一下,看柱状图更加不枯燥(如下图所示)

image.png

这个背后所展示的就是所谓的分析模型,分析模型与后面的数据课时化息息相关,以何种方式把所分析的数据展示给他人看,画成折线图也比较简单,把每个中点连接起来就变成了折线图(如下图所示)

image.png

这是第一个,后面的 UP 和 VV 依然展示,除了画个图来展示,还可以做分析叫做对比分析,当掌握分析模型之后提供一个对比分析的模型,什么是对比分析?举个例子,用PV 来说,提供一个历史最高值和历史最低值以及最近七天平均值,这几个指标来说把 PV 求一个最大求一个最小以及求一个平均值,把它计算出来来说老板或对别人来说是一个非常友好的指标,最高值是1800,最低值是230,平均值是820,这样看到指标可以做到心中有数,不管对比分析能够知道当前数据是属于什么环境当中,是一个正常值还是不正常值,发现最大最小值,产生数量对比分析,这就是基础分析,通常还有对比分析,背后所包含的是考虑以何种模型更加友好的展示出来以分析的数据。

下图所示,这里面展示出来今天浏览次数 PV,独立访客数量,平均访问深度、平均访问长度等以及昨天的相关情况,历史最高值的情况,可以扩展一下如果说想把项目做得更大,这里还可以引用实时计算,相关基础,

image.png

比如今天来一个人之后,立马把行为计算出来进行累加,可以显示指标当前在线的人数,当前的匹配值,再结合后面的推算,智能推荐、优化项等等,这可以使整个项目变得更加完善,这一块不要把局限死。


二、 来源分析

来源分析所表示的就是从背后哪里来,再说之前看一下来源分类。知道当去访问一个网站的时候通常有好多种形式,第一种形式直接在浏览器上输入地址,第二种形式是通过浏览器的搜索引擎去搜索这家公司,比如说想访问网站但不知道它的域名;第三种形式是链接访问,一些公司提供友好链接访问,A 链接 B ,B 链接 C 之类,这些不同来源知道之后怎么分析,

首先确定第一个问题怎样确定访问的不同来源,会到数据当中来看,在数据当中有一个字段叫做 http refer,它所表明的正是 强调的是 refer 这个单词是怎么得到的,把单词复制一下,来到浏览当中搜索看一下背后的含义,说 refer 是 header 的一部分,当浏览器向 web 服务器发送请求的时候一般会带上 refer,告诉服务器是从哪个页面链接过来的,这既然是请求协议的一个基本属性,就可以通过它来收集到从哪里来。

这是一个小知识点。知道怎么来之后,针对来源做一个分类,怎么贡献来源分析模型,如果不知道分析模型每天还是费了九牛二虎之力去分析各种指标,举个例子,直接访问,搜索访问,其他访问,每天针对数据做一个转化进行各种指标的计算,当然每天都能计算出三个指标,举个例子,20181101 直接访问的来到1200个,搜索访问来到800个,其他访问来到700个,这是第一天,得出所占的百分比情况,每天依然辛苦的去计算2018年11月2号又有了指标,直接访问来到1100,搜索访问来到700,其他访问来到600,这时候如果每天非常枯燥无聊记录下去,这些指标只要掌握之后分析并不难,难在这些指标给别人看,别人看见将会非常痛苦难受,首先再次强调一点,这个数据确定是分析的数据,但是不利于别人理解维护,这个模型构建的不够友好,

image.png

接下来怎样把来源的模型展示起来,比如以直接访问在时间维度波动情况,用折线图或者柱状图反应出来, X 轴为时间, Y 轴为直接访问波动情况,再进行扩展,想看在同一天当中所占的比例情况,比如说2018年11月有直接访问来的,搜索访问来的以及其他访问来的,它们所占的比例怎么样,用饼状图(如下图),这两个模型的搭建更能把数据展示的更加丰富。

image.png

这个图页面看上去背后非常高大,实则当中没有多少知识点。

image.png

整个图当中是一个饼状图,表示比例来源情况,一个直线图表示每个指标的波动情况,下面一个表格表示指标所占的百分比,发现数据还是几个简单数据,但通过各种模型的搭建在页面上展现的内容比较丰富,比较多彩。当然可以继续进行具体的划分,在来源的看具体的指标所占的百分比,比如今天是1000个 PV ,看直接访问占多少百分比,搜索访问占多少 PV ,其他访问占多少 PV 更加详细,这样就构成第二个模型---来源分析模型,发现背后所包含数据分析出来的指标如何展示给别人看的过程。

当然还有搜索访问,搜索引擎访问。要知道有公司在页面当中有极度搜索,比如搜索好多模块,哪个搜索访问的比较多,哪个搜索访问比较少,也是一样,还是进行对比展示分析,这样通过各种模型,各种图形表格展示之后,看的数据或者展示的分析结果更加生动形象。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
3天前
|
监控 安全 Linux
启用Linux防火墙日志记录和分析功能
为iptables启用日志记录对于监控进出流量至关重要
|
24天前
|
监控 应用服务中间件 定位技术
要统计Nginx的客户端IP,可以通过分析Nginx的访问日志文件来实现
要统计Nginx的客户端IP,可以通过分析Nginx的访问日志文件来实现
|
1月前
|
存储 SQL 监控
|
1月前
|
运维 监控 安全
|
1月前
|
监控 关系型数据库 MySQL
分析慢查询日志
【10月更文挑战第29天】分析慢查询日志
46 3
|
1月前
|
监控 关系型数据库 数据库
怎样分析慢查询日志?
【10月更文挑战第29天】怎样分析慢查询日志?
51 2
|
2月前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1712 14
|
2月前
|
存储 消息中间件 大数据
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
50 4
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
53 2
08-06-06>pe_xscan 精简log分析代码 速度提升一倍
08-06-06>pe_xscan 精简log分析代码 速度提升一倍