网站流量日志分析--数据预处理--点击流模型之 visit 模型| 学习笔记-阿里云开发者社区

网站流量日志分析--数据预处理--点击流模型之 visit 模型| 学习笔记

2022-11-22 139

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习网站流量日志分析--数据预处理--点击流模型之 visit 模型

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战（第二阶段）：网站流量日志分析--数据预处理--点击流模型之 visit 模型】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/694/detail/12192

网站流量日志分析--数据预处理--点击流模型之 visit 模型

visit 模型专注于每次会话 session 内起始、结束的访问情况信息。起始和结束指的是，在一个会话内用户可能访问一步，可能访问多步，无论用户访问几步，我们只关注于他起始结束的情况。例如说什么时间进来，什么页面进来的，什么时间走的，什么页面走的。那么这样的指标都是起始和结束的情况。那么接下来看一下该如何去生成点击流模型 visit。

首先这个就产生了第一个问题，visit模型该用什么数据生成呢？

众做周知，用我们的原始数据也可以一步步生成，但是当中我们发现，他要想识别每个会话内的起始结束情况，首先需要去识别每个会话，针对会话的识别，在pageviews模型中做了相关的梳理，更加方便的是通过pageviews模型直接找到会话，提取第一步和最后一步，就可以解决。

打开画图板把讲义上侧重点粘贴复制出来。将visit模型专注于每次会话 session 内起始、结束的访问情况信息复制到画板上。选择蓝色线框，圈选出起始和结束的信息。因起始和会话相关，此时，我们更加方便通过 pageviews 模型生成 visit 模型。此时我们已经生成了 pageviews 模型，为了更加方便，我们把 pageviews 模型做一个具体的描述，除了有会话1外，还有会话2。

将会话2中的数据粘贴复制到pageviews模型中的会话1中，把session2也粘贴在pageviews模型中session1的下方。页面、时间、步骤和停留时间的复制步骤也是如上述相同。此时我们把生成的 pageviews模型粘贴复制到旁边的位置。

此时，我们就可以分析如何用 pageviews 模型生成visit模型，在 pageviews 中有很多种用户的不同会话，此时我们关注的不再是用户，因为用户的会话我们已经通过pageviews模型识别出，此时我们关注的是visit模型中会话的起始和结束。此时，第一步需要我们做的是找出属于同一个会话的所有记录。

我们在空白处创建一个空白框，在里面边上写上1.找出属于同一个会话session的所有访问记录。属于同一个会话肯定是同一个用户。在图中，有多个用户的会话，再在下边写上：在mr编程中，以session作为key，相同的key就会按照mr的属性分到同一组当中进行相关的处理即可。pageviews模型的图会分为两种，一种是会话1，另一种是会话2。我们需要找出同一组会话中的起始结束情况，当中我们可排序，也可不排序。

直接根据步骤号找第一步和提后一步，接下来第2步，叫做在同一个会话记录内，找出第一步操作和最后一步操作。接下来，为了方便，我们把visit模型的几个指标填写下来。我们需要填写 sessionID、ip、intime、outtime、inpage、totalpage。

我们把上述表中的 session1对应的数据填写上去，其中，若我们把最后 session1的时间粘贴复制下来，明显不符合逻辑，因为这个时间表示的是我们进去最后一步的时间，那么，计算他离开页面的时间，需要我们用进去最后一步的时间，加上在最后页面上停留的时间，此时就是他离开页面的时间，那么我们就可以通过数据处理出来了。离开页面数据的时间为了更加精准，把进入的时间加上我们停留的60s，正好就是离开的时间，最后把停留的步数3再粘贴复制在 totalpage下，此时，这两步就统计出第一个会话内的起始结束情况。

第二个会话也可以方便的得到，我们把 session2中数据一一粘贴复制下来，与步骤一相同，如此我们便得到了第二个模型：visit 模型。

这就是点击流中的两种模型，这两种模型完全是由一堆业物指标堆积而来。

例如，回头访客至少产生两个会话，我们根据 ip 去统计 session 的个数，属于同一个 ip 的会话如果有两个及以上就是回头访客，如果只有一个就是单只访客。

如果我们用原始数据统计，我们会发现非常的麻烦，这就是点击流概率模型当中的两个模型，可以结合讲义去熟悉步骤。

网站流量日志分析--数据预处理--点击流模型之 visit 模型| 学习笔记

网站流量日志分析--数据预处理--点击流模型之 visit 模型

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

相关实验场景