网站流量日志分析--数据预处理--点击流模型之 visit 模型| 学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习网站流量日志分析--数据预处理--点击流模型之 visit 模型

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第二阶段)网站流量日志分析--数据预处理--点击流模型之 visit 模型】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/694/detail/12192


网站流量日志分析--数据预处理--点击流模型之 visit 模型

visit 模型专注于每次会话 session 内起始、结束的访问情况信息。起始和结束指的是,在一个会话内用户可能访问一步,可能访问多步,无论用户访问几步,我们只关注于他起始结束的情况。例如说什么时间进来,什么页面进来的,什么时间走的,什么页面走的。那么这样的指标都是起始和结束的情况。那么接下来看一下该如何去生成点击流模型 visit

首先这个就产生了第一个问题,visit模型该用什么数据生成呢?

众做周知,用我们的原始数据也可以一步步生成,但是当中我们发现,他要想识别每个会话内的起始结束情况,首先需要去识别每个会话,针对会话的识别,在pageviews模型中做了相关的梳理,更加方便的是通过pageviews模型直接找到会话,提取第一步和最后一步,就可以解决。

打开画图板把讲义上侧重点粘贴复制出来。将visit模型专注于每次会话 session 内起始、结束的访问情况信息复制到画板上。选择蓝色线框,圈选出起始和结束的信息。因起始和会话相关,此时,我们更加方便通过 pageviews 模型生成 visit 模型。此时我们已经生成了 pageviews 模型,为了更加方便,我们把 pageviews 模型做一个具体的描述,除了有会话1外,还有会话2

将会话2中的数据粘贴复制到pageviews模型中的会话1中,把session2也粘贴在pageviews模型中session1的下方。页面、时间、步骤和停留时间的复制步骤也是如上述相同。此时我们把生成的 pageviews模型粘贴复制到旁边的位置。

此时,我们就可以分析如何用 pageviews 模型生成visit模型,在 pageviews 中有很多种用户的不同会话,此时我们关注的不再是用户,因为用户的会话我们已经通过pageviews模型识别出,此时我们关注的是visit模型中会话的起始和结束。此时,第一步需要我们做的是找出属于同一个会话的所有记录。

我们在空白处创建一个空白框,在里面边上写上1.找出属于同一个会话session的所有访问记录。属于同一个会话肯定是同一个用户。在图中,有多个用户的会话,再在下边写上:在mr编程中,以session作为key,相同的key就会按照mr的属性分到同一组当中进行相关的处理即可。pageviews模型的图会分为两种,一种是会话1,另一种是会话2。我们需要找出同一组会话中的起始结束情况,当中我们可排序,也可不排序。

直接根据步骤号找第一步和提后一步,接下来第2步,叫做在同一个会话记录内,找出第一步操作和最后一步操作。接下来,为了方便,我们把visit模型的几个指标填写下来。我们需要填写 sessionIDipintimeouttimeinpagetotalpage

我们把上述表中的 session1对应的数据填写上去,其中,若我们把最后 session1的时间粘贴复制下来,明显不符合逻辑,因为这个时间表示的是我们进去最后一步的时间,那么,计算他离开页面的时间,需要我们用进去最后一步的时间,加上在最后页面上停留的时间,此时就是他离开页面的时间,那么我们就可以通过数据处理出来了。离开页面数据的时间为了更加精准,把进入的时间加上我们停留的60s,正好就是离开的时间,最后把停留的步数3再粘贴复制在 totalpage下,此时,这两步就统计出第一个会话内的起始结束情况。

第二个会话也可以方便的得到,我们把 session2中数据一一粘贴复制下来,与步骤一相同,如此我们便得到了第二个模型:visit 模型。

 image.png

这就是点击流中的两种模型,这两种模型完全是由一堆业物指标堆积而来。

例如,回头访客至少产生两个会话,我们根据 ip 去统计 session 的个数,属于同一个 ip 的会话如果有两个及以上就是回头访客,如果只有一个就是单只访客。

如果我们用原始数据统计,我们会发现非常的麻烦,这就是点击流概率模型当中的两个模型,可以结合讲义去熟悉步骤。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
1月前
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
5月前
|
存储 Java 关系型数据库
基于JSP的九宫格日志网站
基于JSP的九宫格日志网站
|
6月前
|
监控 安全 前端开发
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
87 0
|
6月前
|
存储 弹性计算 监控
日志服务SLS最佳实践:通过SLS数据加工从VPC flowlog中过滤出跨region CEN流量
本文就通过一个客户的实际案例开介绍如何使用在无法直接开启CEN flowlog的情况下,使用SLS的数据加工能力,从VPC flowlog的数据中过滤出客户需要的流量日志出来。
135 0
日志服务SLS最佳实践:通过SLS数据加工从VPC flowlog中过滤出跨region CEN流量
|
12天前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
121 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
1月前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
220 3
|
3月前
|
Kubernetes Ubuntu Windows
【Azure K8S | AKS】分享从AKS集群的Node中查看日志的方法(/var/log)
【Azure K8S | AKS】分享从AKS集群的Node中查看日志的方法(/var/log)
131 3
|
1月前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1630 14
|
1月前
|
Python
log日志学习
【10月更文挑战第9天】 python处理log打印模块log的使用和介绍
31 0
|
1月前
|
数据可视化
Tensorboard可视化学习笔记(一):如何可视化通过网页查看log日志
关于如何使用TensorBoard进行数据可视化的教程,包括TensorBoard的安装、配置环境变量、将数据写入TensorBoard、启动TensorBoard以及如何通过网页查看日志文件。
194 0