开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第二阶段):网站流量日志分析--数据预处理--点击流模型概念】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/694/detail/12190
网站流量日志分析--数据预处理--点击流模型概念
内容介绍
一、 概述
二、 点击流模型和原始网站日志数据的区别
三、 会话
四、 总结
一、 概述
点击流模型,客观来说是不存在的,这个模型是由一堆业务概念堆积而成的。
它主要是对于后面一些指标的计算比较方便。点击模型的概念从字面上可以看出来,点击流当中的流好像是一条线的存在,点击流模型强调的是用户在网站上面持续访问的轨迹,用户在页面上浏览,每次的行为都可以产生一条记录,比如打开首页一条日志,然后点新闻的话就会产生一条记录,如果把用户的这些行为数据按照时间的先后顺序串起来,就会由点构成了一条线,这一条线就是用户持续访问的轨迹,这个轨迹线称之为点击流。
点击流模型,并不是一个从无到有变出来可以采集到的模型,而是通过对原始数据梳理完成的模型。
小结:
(1) 点击流模型是业务模型,客观并不存在,其模型是由一堆业务模型指标堆积而成。
(2) 点击流模型所描述的是在网站持续访问的一条轨迹,是一个线的概念。
二、 点击流模型和原始网站日志数据的区别
点击流模型的数据和收集到的原始数据之间的立场不同。原始的网站日志,它是站在网站的角度在访问行为,就是说只要访问一次,就会产生一条记录。
按照时间属性的不断追加,在访问的同时,别人也可能再过来访问,比如说用户的一天或者所有的访问记录会随着时间的追加被分散在一个日志当中的不同部分,可能这里有记录,然后下面某个地方也有,这样看起来数据就变成散点状数据。如果站在用户的角度看行为,把这个用户的所有的数据串起来,就会变成一条线,就构成了点击流线,所以点击流模型数据是来自于网站的梳理。
主要区别是立场不同。
(1) 原始访问日志是站在网站的角度看待用户访问行为,数据是按照时间追加的,是散点状的数据;
(2) 点击流模型数据是站在用户的角度看待用户的访问行为,数据线是一条持续的轨迹线;
(3) 点击流模型数据可以通过原始日志数据梳理而来,这样就理解
了一个非常重要的业务模型概念,能够使后面分析的时候好多指标计算比较方便。比如查看用户今天是哪个页面来的,哪个页面离开的,符合哪个页面,是不是回头访客,这些指标的计算非常依赖点击流模型。
三、 会话
会话的概念
点击流模型当中最重要的一个概念就是点击流模型会默认存在会话的概念,这个会话直接影响到这条线应该怎么去画,可以想到,找到第一条记录和最后一条记录,按时间排序一画就变成一条线了。问题在于,比如今天小明来到网站访问,上午他打开了三个页面,下午打开两个页面,晚上打开了四个页面,他今天一共访问了十个页面,但是是分为上午下午晚上来访问的,那么今天小明同学的这个轨迹线是应该画一条线还是画上午,下午,晚上三条线。
这时候发现当中产生了歧义:这个是一天的记录,可以画一条线;但上午下午晚上的时间间隔太大应该画三条线,这个背后的争端所隐藏的知识点就是筛选会话。
会话的筛选
会话指的是来到网站上的一系列反应,一系列操作叫做一个会话,问题在于会话时间到底是多与少。
举个例子:比如现在打开主页,形成了一条日志,然后迅速叠加新闻,形成另一条记录,这两个记录应该算一个会话还是两个会话,;再举个例子:打开首页,接下来用户起床出去了,今天再也不动了,然后过了20小时,过了两天或者过了三天,回来再接着去访问,这个时候到底是属于同一个会话操作,还是一个不同会话操作,识别会话的关键就在于时间间隔。
通常是以前后两条的时间差,是否在30分钟以内做划分,所以说这条线怎么画是依据隐藏的概念叫做会话的概念,会话的英文叫做session,通常业界以前后两条记录的时间差是否在30分钟以内作为绘画判断的标准,如果小于30分钟,就属于同一个会话;反之如果大于30分钟就是一个新的会话开始。
点击流模型指的是在一个会话内的持续访问轨迹线。根据这个标准,小明同学应该画三条线,上午、中午、晚上就有三个会话了,时间上应该是在30分钟以上,具体情况具体判断。
这背后有一个非常重要的概念叫会话筛选法,它直接框住了这条线到底一笔到底还是分为每个会话来画,这背后就是点击流模型。
这个图非常生动的描绘出来持它持续访问线的概念,比如用户是从这个页面来的,然后访问这些页面,最后从这个页面离开的,总共这一过程当中访问了四步,对于后面的分析处理非常重要。
四、 总结
本节课所学习的业务模型,叫做点击的模型,这个模型客观并不存在,而是有业务指定存在的,它描述用户在网站上的一条持续访问的轨迹叫做点击流。