网站流量日志分析--数据预处理--点击流模型概念| 学习笔记

简介: 快速学习网站流量日志分析--数据预处理--点击流模型概念

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第二阶段)网站流量日志分析--数据预处理--点击流模型概念】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/694/detail/12190


网站流量日志分析--数据预处理--点击流模型概念

内容介绍

一、  概述

二、  点击流模型和原始网站日志数据的区别

三、  会话

四、  总结

 

一、  概述

点击流模型,客观来说是不存在的,这个模型是由一堆业务概念堆积而成的。

它主要是对于后面一些指标的计算比较方便。点击模型的概念从字面上可以看出来,点击流当中的流好像是一条线的存在,点击流模型强调的是用户在网站上面持续访问的轨迹,用户在页面上浏览,每次的行为都可以产生一条记录,比如打开首页一条日志,然后点新闻的话就会产生一条记录,如果把用户的这些行为数据按照时间的先后顺序串起来,就会由点构成了一条线,这一条线就是用户持续访问的轨迹,这个轨迹线称之为点击流。

点击流模型,并不是一个从无到有变出来可以采集到的模型,而是通过对原始数据梳理完成的模型。

小结:

(1)  点击流模型是业务模型,客观并不存在,其模型是由一堆业务模型指标堆积而成。

(2)  点击流模型所描述的是在网站持续访问的一条轨迹,是一个线的概念。

 

二、  点击流模型和原始网站日志数据的区别

点击流模型的数据和收集到的原始数据之间的立场不同。原始的网站日志,它是站在网站的角度在访问行为,就是说只要访问一次,就会产生一条记录。

按照时间属性的不断追加,在访问的同时,别人也可能再过来访问,比如说用户的一天或者所有的访问记录会随着时间的追加被分散在一个日志当中的不同部分,可能这里有记录,然后下面某个地方也有,这样看起来数据就变成散点状数据。如果站在用户的角度看行为,把这个用户的所有的数据串起来,就会变成一条线,就构成了点击流线,所以点击流模型数据是来自于网站的梳理。

主要区别是立场不同。

(1)  原始访问日志是站在网站的角度看待用户访问行为,数据是按照时间追加的,是散点状的数据;

(2)  点击流模型数据是站在用户的角度看待用户的访问行为,数据线是一条持续的轨迹线;

(3)  点击流模型数据可以通过原始日志数据梳理而来,这样就理解

了一个非常重要的业务模型概念,能够使后面分析的时候好多指标计算比较方便。比如查看用户今天是哪个页面来的,哪个页面离开的,符合哪个页面,是不是回头访客,这些指标的计算非常依赖点击流模型。

 

三、  会话

会话的概念

点击流模型当中最重要的一个概念就是点击流模型会默认存在会话的概念,这个会话直接影响到这条线应该怎么去画,可以想到,找到第一条记录和最后一条记录,按时间排序一画就变成一条线了。问题在于,比如今天小明来到网站访问,上午他打开了三个页面,下午打开两个页面,晚上打开了四个页面,他今天一共访问了十个页面,但是是分为上午下午晚上来访问的,那么今天小明同学的这个轨迹线是应该画一条线还是画上午,下午,晚上三条线。

这时候发现当中产生了歧义:这个是一天的记录,可以画一条线;但上午下午晚上的时间间隔太大应该画三条线,这个背后的争端所隐藏的知识点就是筛选会话。

会话的筛选

会话指的是来到网站上的一系列反应,一系列操作叫做一个会话,问题在于会话时间到底是多与少。

举个例子:比如现在打开主页,形成了一条日志,然后迅速叠加新闻,形成另一条记录,这两个记录应该算一个会话还是两个会话,;再举个例子:打开首页,接下来用户起床出去了,今天再也不动了,然后过了20小时,过了两天或者过了三天,回来再接着去访问,这个时候到底是属于同一个会话操作,还是一个不同会话操作,识别会话的关键就在于时间间隔。

通常是以前后两条的时间差,是否在30分钟以内做划分,所以说这条线怎么画是依据隐藏的概念叫做会话的概念,会话的英文叫做session,通常业界以前后两条记录的时间差是否在30分钟以内作为绘画判断的标准,如果小于30分钟,就属于同一个会话;反之如果大于30分钟就是一个新的会话开始。

点击流模型指的是在一个会话内的持续访问轨迹线。根据这个标准,小明同学应该画三条线,上午、中午、晚上就有三个会话了,时间上应该是在30分钟以上,具体情况具体判断。

这背后有一个非常重要的概念叫会话筛选法,它直接框住了这条线到底一笔到底还是分为每个会话来画,这背后就是点击流模型。

这个图非常生动的描绘出来持它持续访问线的概念,比如用户是从这个页面来的,然后访问这些页面,最后从这个页面离开的,总共这一过程当中访问了四步,对于后面的分析处理非常重要。

image.png


四、  总结

本节课所学习的业务模型,叫做点击的模型,这个模型客观并不存在,而是有业务指定存在的,它描述用户在网站上的一条持续访问的轨迹叫做点击流。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
21天前
|
监控 安全 前端开发
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
44 0
|
21天前
|
存储 人工智能 运维
SLS 大模型可观测&安全推理审计标准解决方案
本文介绍大模型可观测&安全推理审计解决方案和Demo演示,SLS 提供全面的 LLM 监控和日志记录功能。监控大模型使用情况和性能,自定义仪表盘;SLS 汇总 Actiontrail 事件、云产品可观测日志、LLM 网关明细日志、详细对话明细日志、Prompt Trace 和推理实时调用明细等数据,建设完整统一的大模型可观测方案,为用户的大模型安全推理审计提供全面合规支持。
104004 0
|
21天前
|
人工智能 运维 监控
SLS 智能运维 AI 基础模型创新
SLS 全新发布运维场景基础模型,覆盖 Log、Metric、Trace 等可观测数据场景,模型提供开箱即用的异常检测、自动标注、分类和根因分析等能力;根因分析算法千级异常请求秒级定位,生产中准确率达95%;同时支持人工辅助微调,提供人工标注、结果打标修正,模型根据人工反馈自动微调,提升场景准确率。
91097 1
|
11月前
|
Shell Perl
检测网卡流量,并按规定格式记录在日志中
检测网卡流量,并按规定格式记录在日志中
61 2
|
机器学习/深度学习 人工智能 达摩院
EMNLP 2022论文解读 | SOND:基于显式语音重叠建模的说话人日志模型
Empirical Methods in Natural Language Processing (EMNLP)是由国际计算语言学协会(Association for Computational Linguistics, ACL)举办的自然语言处理和人工智能方面的重量级国际会议,历届会议都会受到全球各地人工智能领域人士的广泛关注。 近期,阿里巴巴达摩院语音实验室的论文“Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis”被EMNLP 2022 主会长文接收。该论文展现了达摩院语音实验室在多方会议分
235 0
|
分布式计算
有一个日志文件visitlog.txt,其中记录了用户访问网站的日期和访问的网站地址信息,每行一条记录。要求编写mapreduce程序完成以下功能: 1、 将不同访问日期的访问记录分配给不同的red
有一个日志文件visitlog.txt,其中记录了用户访问网站的日期和访问的网站地址信息,每行一条记录。要求编写mapreduce程序完成以下功能: 1、 将不同访问日期的访问记录分配给不同的red
99 0
|
分布式计算 监控 Java
日志分析实战之清洗日志小实例4:统计网站相关信息
日志分析实战之清洗日志小实例4:统计网站相关信息
140 0
日志分析实战之清洗日志小实例4:统计网站相关信息
|
1天前
|
SQL 关系型数据库 MySQL
|
1天前
|
SQL 监控 关系型数据库
|
19天前
|
关系型数据库 MySQL 数据库
mysql数据库bin-log日志管理
mysql数据库bin-log日志管理