网站流量日志分析--数据预处理--点击流模型概念| 学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习网站流量日志分析--数据预处理--点击流模型概念

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第二阶段)网站流量日志分析--数据预处理--点击流模型概念】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/694/detail/12190


网站流量日志分析--数据预处理--点击流模型概念

内容介绍

一、  概述

二、  点击流模型和原始网站日志数据的区别

三、  会话

四、  总结

 

一、  概述

点击流模型,客观来说是不存在的,这个模型是由一堆业务概念堆积而成的。

它主要是对于后面一些指标的计算比较方便。点击模型的概念从字面上可以看出来,点击流当中的流好像是一条线的存在,点击流模型强调的是用户在网站上面持续访问的轨迹,用户在页面上浏览,每次的行为都可以产生一条记录,比如打开首页一条日志,然后点新闻的话就会产生一条记录,如果把用户的这些行为数据按照时间的先后顺序串起来,就会由点构成了一条线,这一条线就是用户持续访问的轨迹,这个轨迹线称之为点击流。

点击流模型,并不是一个从无到有变出来可以采集到的模型,而是通过对原始数据梳理完成的模型。

小结:

(1)  点击流模型是业务模型,客观并不存在,其模型是由一堆业务模型指标堆积而成。

(2)  点击流模型所描述的是在网站持续访问的一条轨迹,是一个线的概念。

 

二、  点击流模型和原始网站日志数据的区别

点击流模型的数据和收集到的原始数据之间的立场不同。原始的网站日志,它是站在网站的角度在访问行为,就是说只要访问一次,就会产生一条记录。

按照时间属性的不断追加,在访问的同时,别人也可能再过来访问,比如说用户的一天或者所有的访问记录会随着时间的追加被分散在一个日志当中的不同部分,可能这里有记录,然后下面某个地方也有,这样看起来数据就变成散点状数据。如果站在用户的角度看行为,把这个用户的所有的数据串起来,就会变成一条线,就构成了点击流线,所以点击流模型数据是来自于网站的梳理。

主要区别是立场不同。

(1)  原始访问日志是站在网站的角度看待用户访问行为,数据是按照时间追加的,是散点状的数据;

(2)  点击流模型数据是站在用户的角度看待用户的访问行为,数据线是一条持续的轨迹线;

(3)  点击流模型数据可以通过原始日志数据梳理而来,这样就理解

了一个非常重要的业务模型概念,能够使后面分析的时候好多指标计算比较方便。比如查看用户今天是哪个页面来的,哪个页面离开的,符合哪个页面,是不是回头访客,这些指标的计算非常依赖点击流模型。

 

三、  会话

会话的概念

点击流模型当中最重要的一个概念就是点击流模型会默认存在会话的概念,这个会话直接影响到这条线应该怎么去画,可以想到,找到第一条记录和最后一条记录,按时间排序一画就变成一条线了。问题在于,比如今天小明来到网站访问,上午他打开了三个页面,下午打开两个页面,晚上打开了四个页面,他今天一共访问了十个页面,但是是分为上午下午晚上来访问的,那么今天小明同学的这个轨迹线是应该画一条线还是画上午,下午,晚上三条线。

这时候发现当中产生了歧义:这个是一天的记录,可以画一条线;但上午下午晚上的时间间隔太大应该画三条线,这个背后的争端所隐藏的知识点就是筛选会话。

会话的筛选

会话指的是来到网站上的一系列反应,一系列操作叫做一个会话,问题在于会话时间到底是多与少。

举个例子:比如现在打开主页,形成了一条日志,然后迅速叠加新闻,形成另一条记录,这两个记录应该算一个会话还是两个会话,;再举个例子:打开首页,接下来用户起床出去了,今天再也不动了,然后过了20小时,过了两天或者过了三天,回来再接着去访问,这个时候到底是属于同一个会话操作,还是一个不同会话操作,识别会话的关键就在于时间间隔。

通常是以前后两条的时间差,是否在30分钟以内做划分,所以说这条线怎么画是依据隐藏的概念叫做会话的概念,会话的英文叫做session,通常业界以前后两条记录的时间差是否在30分钟以内作为绘画判断的标准,如果小于30分钟,就属于同一个会话;反之如果大于30分钟就是一个新的会话开始。

点击流模型指的是在一个会话内的持续访问轨迹线。根据这个标准,小明同学应该画三条线,上午、中午、晚上就有三个会话了,时间上应该是在30分钟以上,具体情况具体判断。

这背后有一个非常重要的概念叫会话筛选法,它直接框住了这条线到底一笔到底还是分为每个会话来画,这背后就是点击流模型。

这个图非常生动的描绘出来持它持续访问线的概念,比如用户是从这个页面来的,然后访问这些页面,最后从这个页面离开的,总共这一过程当中访问了四步,对于后面的分析处理非常重要。

image.png


四、  总结

本节课所学习的业务模型,叫做点击的模型,这个模型客观并不存在,而是有业务指定存在的,它描述用户在网站上的一条持续访问的轨迹叫做点击流。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
2月前
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
6月前
|
存储 Java 关系型数据库
基于JSP的九宫格日志网站
基于JSP的九宫格日志网站
|
SQL 关系型数据库 MySQL
数据库基本概念(SQL,索引,视图,事务,日志等)(二)
数据库基本概念(SQL,索引,视图,事务,日志等)(二)
263 0
|
7月前
|
监控 安全 前端开发
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
99 0
|
消息中间件 数据采集 JSON
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(二)
1、电商数仓(用户行为采集平台)数据仓库概念、用户行为日志、业务数据、模拟数据、用户行为数据采集模块、日志采集Flume(二)
|
7月前
|
存储 弹性计算 监控
日志服务SLS最佳实践:通过SLS数据加工从VPC flowlog中过滤出跨region CEN流量
本文就通过一个客户的实际案例开介绍如何使用在无法直接开启CEN flowlog的情况下,使用SLS的数据加工能力,从VPC flowlog的数据中过滤出客户需要的流量日志出来。
153 0
日志服务SLS最佳实践:通过SLS数据加工从VPC flowlog中过滤出跨region CEN流量
|
1月前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
294 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
11天前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
|
2月前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
322 3
|
21天前
|
存储 监控 安全
什么是事件日志管理系统?事件日志管理系统有哪些用处?
事件日志管理系统是IT安全的重要工具,用于集中收集、分析和解释来自组织IT基础设施各组件的事件日志,如防火墙、路由器、交换机等,帮助提升网络安全、实现主动威胁检测和促进合规性。系统支持多种日志类型,包括Windows事件日志、Syslog日志和应用程序日志,通过实时监测、告警及可视化分析,为企业提供强大的安全保障。然而,实施过程中也面临数据量大、日志管理和分析复杂等挑战。EventLog Analyzer作为一款高效工具,不仅提供实时监测与告警、可视化分析和报告功能,还支持多种合规性报告,帮助企业克服挑战,提升网络安全水平。