网站流量日志分析--数据预处理--点击流模型概念| 学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习网站流量日志分析--数据预处理--点击流模型概念

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第二阶段)网站流量日志分析--数据预处理--点击流模型概念】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/694/detail/12190


网站流量日志分析--数据预处理--点击流模型概念

内容介绍

一、  概述

二、  点击流模型和原始网站日志数据的区别

三、  会话

四、  总结

 

一、  概述

点击流模型,客观来说是不存在的,这个模型是由一堆业务概念堆积而成的。

它主要是对于后面一些指标的计算比较方便。点击模型的概念从字面上可以看出来,点击流当中的流好像是一条线的存在,点击流模型强调的是用户在网站上面持续访问的轨迹,用户在页面上浏览,每次的行为都可以产生一条记录,比如打开首页一条日志,然后点新闻的话就会产生一条记录,如果把用户的这些行为数据按照时间的先后顺序串起来,就会由点构成了一条线,这一条线就是用户持续访问的轨迹,这个轨迹线称之为点击流。

点击流模型,并不是一个从无到有变出来可以采集到的模型,而是通过对原始数据梳理完成的模型。

小结:

(1)  点击流模型是业务模型,客观并不存在,其模型是由一堆业务模型指标堆积而成。

(2)  点击流模型所描述的是在网站持续访问的一条轨迹,是一个线的概念。

 

二、  点击流模型和原始网站日志数据的区别

点击流模型的数据和收集到的原始数据之间的立场不同。原始的网站日志,它是站在网站的角度在访问行为,就是说只要访问一次,就会产生一条记录。

按照时间属性的不断追加,在访问的同时,别人也可能再过来访问,比如说用户的一天或者所有的访问记录会随着时间的追加被分散在一个日志当中的不同部分,可能这里有记录,然后下面某个地方也有,这样看起来数据就变成散点状数据。如果站在用户的角度看行为,把这个用户的所有的数据串起来,就会变成一条线,就构成了点击流线,所以点击流模型数据是来自于网站的梳理。

主要区别是立场不同。

(1)  原始访问日志是站在网站的角度看待用户访问行为,数据是按照时间追加的,是散点状的数据;

(2)  点击流模型数据是站在用户的角度看待用户的访问行为,数据线是一条持续的轨迹线;

(3)  点击流模型数据可以通过原始日志数据梳理而来,这样就理解

了一个非常重要的业务模型概念,能够使后面分析的时候好多指标计算比较方便。比如查看用户今天是哪个页面来的,哪个页面离开的,符合哪个页面,是不是回头访客,这些指标的计算非常依赖点击流模型。

 

三、  会话

会话的概念

点击流模型当中最重要的一个概念就是点击流模型会默认存在会话的概念,这个会话直接影响到这条线应该怎么去画,可以想到,找到第一条记录和最后一条记录,按时间排序一画就变成一条线了。问题在于,比如今天小明来到网站访问,上午他打开了三个页面,下午打开两个页面,晚上打开了四个页面,他今天一共访问了十个页面,但是是分为上午下午晚上来访问的,那么今天小明同学的这个轨迹线是应该画一条线还是画上午,下午,晚上三条线。

这时候发现当中产生了歧义:这个是一天的记录,可以画一条线;但上午下午晚上的时间间隔太大应该画三条线,这个背后的争端所隐藏的知识点就是筛选会话。

会话的筛选

会话指的是来到网站上的一系列反应,一系列操作叫做一个会话,问题在于会话时间到底是多与少。

举个例子:比如现在打开主页,形成了一条日志,然后迅速叠加新闻,形成另一条记录,这两个记录应该算一个会话还是两个会话,;再举个例子:打开首页,接下来用户起床出去了,今天再也不动了,然后过了20小时,过了两天或者过了三天,回来再接着去访问,这个时候到底是属于同一个会话操作,还是一个不同会话操作,识别会话的关键就在于时间间隔。

通常是以前后两条的时间差,是否在30分钟以内做划分,所以说这条线怎么画是依据隐藏的概念叫做会话的概念,会话的英文叫做session,通常业界以前后两条记录的时间差是否在30分钟以内作为绘画判断的标准,如果小于30分钟,就属于同一个会话;反之如果大于30分钟就是一个新的会话开始。

点击流模型指的是在一个会话内的持续访问轨迹线。根据这个标准,小明同学应该画三条线,上午、中午、晚上就有三个会话了,时间上应该是在30分钟以上,具体情况具体判断。

这背后有一个非常重要的概念叫会话筛选法,它直接框住了这条线到底一笔到底还是分为每个会话来画,这背后就是点击流模型。

这个图非常生动的描绘出来持它持续访问线的概念,比如用户是从这个页面来的,然后访问这些页面,最后从这个页面离开的,总共这一过程当中访问了四步,对于后面的分析处理非常重要。

image.png


四、  总结

本节课所学习的业务模型,叫做点击的模型,这个模型客观并不存在,而是有业务指定存在的,它描述用户在网站上的一条持续访问的轨迹叫做点击流。

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
8月前
|
人工智能 运维 监控
一招高效解析 Access Log,轻松应对泼天流量
一招高效解析 Access Log,轻松应对泼天流量
156 0
一招高效解析 Access Log,轻松应对泼天流量
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
存储 Java 关系型数据库
基于JSP的九宫格日志网站
基于JSP的九宫格日志网站
|
监控 安全 前端开发
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
254 0
|
存储 弹性计算 监控
日志服务SLS最佳实践:通过SLS数据加工从VPC flowlog中过滤出跨region CEN流量
本文就通过一个客户的实际案例开介绍如何使用在无法直接开启CEN flowlog的情况下,使用SLS的数据加工能力,从VPC flowlog的数据中过滤出客户需要的流量日志出来。
588 0
日志服务SLS最佳实践:通过SLS数据加工从VPC flowlog中过滤出跨region CEN流量
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
3602 31
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
6月前
|
监控 容灾 算法
阿里云 SLS 多云日志接入最佳实践:链路、成本与高可用性优化
本文探讨了如何高效、经济且可靠地将海外应用与基础设施日志统一采集至阿里云日志服务(SLS),解决全球化业务扩展中的关键挑战。重点介绍了高性能日志采集Agent(iLogtail/LoongCollector)在海外场景的应用,推荐使用LoongCollector以获得更优的稳定性和网络容错能力。同时分析了多种网络接入方案,包括公网直连、全球加速优化、阿里云内网及专线/CEN/VPN接入等,并提供了成本优化策略和多目标发送配置指导,帮助企业构建稳定、低成本、高可用的全球日志系统。
802 54
|
11月前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
338 9
|
9月前
|
存储 SQL 关系型数据库
MySQL日志详解——日志分类、二进制日志bin log、回滚日志undo log、重做日志redo log
MySQL日志详解——日志分类、二进制日志bin log、回滚日志undo log、重做日志redo log、原理、写入过程;binlog与redolog区别、update语句的执行流程、两阶段提交、主从复制、三种日志的使用场景;查询日志、慢查询日志、错误日志等其他几类日志
772 35
MySQL日志详解——日志分类、二进制日志bin log、回滚日志undo log、重做日志redo log