网站流量日志分析--数据预处理--点击流模型之 visit 模型| 学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习网站流量日志分析--数据预处理--点击流模型之 visit 模型

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第二阶段)网站流量日志分析--数据预处理--点击流模型之 visit 模型】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/694/detail/12192


网站流量日志分析--数据预处理--点击流模型之 visit 模型

visit 模型专注于每次会话 session 内起始、结束的访问情况信息。起始和结束指的是,在一个会话内用户可能访问一步,可能访问多步,无论用户访问几步,我们只关注于他起始结束的情况。例如说什么时间进来,什么页面进来的,什么时间走的,什么页面走的。那么这样的指标都是起始和结束的情况。那么接下来看一下该如何去生成点击流模型 visit

首先这个就产生了第一个问题,visit模型该用什么数据生成呢?

众做周知,用我们的原始数据也可以一步步生成,但是当中我们发现,他要想识别每个会话内的起始结束情况,首先需要去识别每个会话,针对会话的识别,在pageviews模型中做了相关的梳理,更加方便的是通过pageviews模型直接找到会话,提取第一步和最后一步,就可以解决。

打开画图板把讲义上侧重点粘贴复制出来。将visit模型专注于每次会话 session 内起始、结束的访问情况信息复制到画板上。选择蓝色线框,圈选出起始和结束的信息。因起始和会话相关,此时,我们更加方便通过 pageviews 模型生成 visit 模型。此时我们已经生成了 pageviews 模型,为了更加方便,我们把 pageviews 模型做一个具体的描述,除了有会话1外,还有会话2

将会话2中的数据粘贴复制到pageviews模型中的会话1中,把session2也粘贴在pageviews模型中session1的下方。页面、时间、步骤和停留时间的复制步骤也是如上述相同。此时我们把生成的 pageviews模型粘贴复制到旁边的位置。

此时,我们就可以分析如何用 pageviews 模型生成visit模型,在 pageviews 中有很多种用户的不同会话,此时我们关注的不再是用户,因为用户的会话我们已经通过pageviews模型识别出,此时我们关注的是visit模型中会话的起始和结束。此时,第一步需要我们做的是找出属于同一个会话的所有记录。

我们在空白处创建一个空白框,在里面边上写上1.找出属于同一个会话session的所有访问记录。属于同一个会话肯定是同一个用户。在图中,有多个用户的会话,再在下边写上:在mr编程中,以session作为key,相同的key就会按照mr的属性分到同一组当中进行相关的处理即可。pageviews模型的图会分为两种,一种是会话1,另一种是会话2。我们需要找出同一组会话中的起始结束情况,当中我们可排序,也可不排序。

直接根据步骤号找第一步和提后一步,接下来第2步,叫做在同一个会话记录内,找出第一步操作和最后一步操作。接下来,为了方便,我们把visit模型的几个指标填写下来。我们需要填写 sessionIDipintimeouttimeinpagetotalpage

我们把上述表中的 session1对应的数据填写上去,其中,若我们把最后 session1的时间粘贴复制下来,明显不符合逻辑,因为这个时间表示的是我们进去最后一步的时间,那么,计算他离开页面的时间,需要我们用进去最后一步的时间,加上在最后页面上停留的时间,此时就是他离开页面的时间,那么我们就可以通过数据处理出来了。离开页面数据的时间为了更加精准,把进入的时间加上我们停留的60s,正好就是离开的时间,最后把停留的步数3再粘贴复制在 totalpage下,此时,这两步就统计出第一个会话内的起始结束情况。

第二个会话也可以方便的得到,我们把 session2中数据一一粘贴复制下来,与步骤一相同,如此我们便得到了第二个模型:visit 模型。

 image.png

这就是点击流中的两种模型,这两种模型完全是由一堆业物指标堆积而来。

例如,回头访客至少产生两个会话,我们根据 ip 去统计 session 的个数,属于同一个 ip 的会话如果有两个及以上就是回头访客,如果只有一个就是单只访客。

如果我们用原始数据统计,我们会发现非常的麻烦,这就是点击流概率模型当中的两个模型,可以结合讲义去熟悉步骤。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
3月前
|
存储 运维 监控
超越传统模型:从零开始构建高效的日志分析平台——基于Elasticsearch的实战指南
【10月更文挑战第8天】随着互联网应用和微服务架构的普及,系统产生的日志数据量日益增长。有效地收集、存储、检索和分析这些日志对于监控系统健康状态、快速定位问题以及优化性能至关重要。Elasticsearch 作为一种分布式的搜索和分析引擎,以其强大的全文检索能力和实时数据分析能力成为日志处理的理想选择。
253 6
|
3月前
|
SQL 存储 人工智能
阿里云日志服务的傻瓜式极易预测模型
预测服务有助于提前规划,减少资源消耗和成本。阿里云日志服务的AI预测服务简化了数学建模,仅需SQL操作即可预测未来指标,具备高准确性,并能处理远期预测。此外,通过ScheduledSQL功能,可将预测任务自动化,定时执行并保存结果。
104 3
|
3月前
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
7月前
|
存储 Java 关系型数据库
基于JSP的九宫格日志网站
基于JSP的九宫格日志网站
|
8月前
|
监控 安全 前端开发
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
105 0
|
8月前
|
存储 弹性计算 监控
日志服务SLS最佳实践:通过SLS数据加工从VPC flowlog中过滤出跨region CEN流量
本文就通过一个客户的实际案例开介绍如何使用在无法直接开启CEN flowlog的情况下,使用SLS的数据加工能力,从VPC flowlog的数据中过滤出客户需要的流量日志出来。
167 0
日志服务SLS最佳实践:通过SLS数据加工从VPC flowlog中过滤出跨region CEN流量
|
2月前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
664 31
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
1月前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
|
3月前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
397 3
|
13天前
|
SQL 关系型数据库 MySQL
MySQL事务日志-Undo Log工作原理分析
事务的持久性是交由Redo Log来保证,原子性则是交由Undo Log来保证。如果事务中的SQL执行到一半出现错误,需要把前面已经执行过的SQL撤销以达到原子性的目的,这个过程也叫做"回滚",所以Undo Log也叫回滚日志。
MySQL事务日志-Undo Log工作原理分析