网站流量日志分析--统计分析--复合指标分析--平均访问频度|学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习网站流量日志分析--统计分析--复合指标分析--平均访问频度

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第四阶段)网站流量日志分析--统计分析--复合指标分析--平均访问频度】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/696/detail/12216


网站流量日志分析--统计分析--复合指标分析--平均访问频度


内容介绍

一、平均访问频度

二、梳理

 

一、平均访问频度

平均每个独立访客天一天内访问网站的次数(产生的 session 个数),产生的会话多频度就高产生的会话少频度就低如果计算平均访问频度就需要把总的访问次数计算出来除以今天来的人就可以得到指标

 

二、梳理

1、平均访问频度: 天之内访问访问人均产生的会话次数( session 次数)

=总的会话次数/独立的访客人数

针对这两个指标就是之前计算的基础指标总的会话数计算出来是 vv独立访客数是今天之中不重复的用户数是 uv两个指标相除最终得到平均访问频度

=vv/uv

2、数据表:; dw_ webflow_ basic_ info (基础指标信息表)

基础指标直接用来计算

回到数仓发现记录了 basic_info 基础信息表正好与计算出来的 uv pv vv 各种指标直接相除即可

image.png

第一种方式直接用基础指标信息表因为当中它既有 uv pv 和 vv所有的基础指标都可以使用不需要再计算

3、分组字段分区表,时间( day ) day 比较特殊还是表的分区字段通过 where 分区过滤即可。

4、度量值vv/uv 两个指标相除

Select

vv/uv

from dw_webflow_ basic_ info t where t . datestr="20181101" ;起别名 t

5、执行指标计算出来是0.055,指标不管怎么计算在业务含义下不可能小于1,来一次才能计算一次会话所以不准确sql 没有问题sql只是把基础信息表中的两个指标进行相除应该是 vv/uv 出现错误uv 是独立访客以宽表计算的从宽表中根据去重的 ip 数vv 是点击率模型 visit 模型进行计算回到代码预处理阶段当生成 pageviews 模型当读取数据输出时做出一个判断if (v.isVaild

()) {,用一个标记v表示数据是否合法只有合法的数据为 true 的数据才能进行处理在预处理中原数据没有过滤静态资源点击流模型是过滤完静态资源再进行处理在计算 uv 和 vv 时uv 使用的是宽表没有过滤静态资源而 vv 是点击流模型是过滤过静态资源

---上述指标不符合客观规律这种错误在企业中很难发现

---原因:在计算基础指标的时候 uv 使用的宽表的数据没有进行静态资源的过滤。

---vv 使用的点击流模型数据在数据预处理阶段进行了静态资源的过滤。

---一个采用过滤的一个不采用过滤的计算的指标出现了谬论。

如果统一采用未过滤静态资源都是用未过滤的要想过滤都用过滤的不要一个过滤一个没有过滤

---统一以静态资源过滤之后的模型进行计算因为需要会话指标

原来的宽表不考虑因为没有 session 的概念不好统计 uvvv这里有点击率模型 pageviews 和 visit区别在于 visit 根据pageviews做了一个聚集pageviews 里面有重复的visit没有重复所以使用 visit 进行计算 ods_ click_ stream_ visit。查看表数据如果想要获得复合指标平均访问频度需要 vv 今 天总的会话次数里面有字段 session针对 session 做 count 统计就是今天的 vv里面没有重复的 session根据 pageviews 聚集的uv是独立访客的人ip 表示人IP 可能会产生重复的比如张三产生了会话下午又产生了会话晚上也产生会话张三今天提供多个会话统计独立访客人时要对 ip 进行去重

6、使用点击流模型 visit 表进行计算进行过滤vv 就是 session 的次数这个指标的得出来就是今天总的会话数两个相除得到的就是统一的过滤静态资源之后的指标

select

count(t.session)/count(distinct t.remote_ addr)

from ods_ c1ick_ stream_ visit t where t.datestr="20181101";

7、sql 执行得到的是1.075,今天来到网站的用户平均每个人都会产生1.075个会话大于一个可能产生两个产生三个指标从数据本身看是符合客观规律的没有小于1。

image.png

8、理清业务的同时考虑哪个数据表能够计算出来如果 sql 没有出错最后计算的结果可能也会出错而这个错误是逻辑上的错误一定要认真梳理

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
2天前
|
监控 安全 Linux
启用Linux防火墙日志记录和分析功能
为iptables启用日志记录对于监控进出流量至关重要
|
24天前
|
运维 监控 Cloud Native
一行代码都不改,Golang 应用链路指标日志全知道
本文将通过阿里云开源的 Golang Agent,帮助用户实现“一行代码都不改”就能获取到应用产生的各种观测数据,同时提升运维团队和研发团队的幸福感。
|
23天前
|
监控 应用服务中间件 定位技术
要统计Nginx的客户端IP,可以通过分析Nginx的访问日志文件来实现
要统计Nginx的客户端IP,可以通过分析Nginx的访问日志文件来实现
|
1月前
|
存储 SQL 监控
|
1月前
|
运维 监控 安全
|
1月前
|
监控 关系型数据库 MySQL
分析慢查询日志
【10月更文挑战第29天】分析慢查询日志
45 3
|
1月前
|
监控 关系型数据库 数据库
怎样分析慢查询日志?
【10月更文挑战第29天】怎样分析慢查询日志?
48 2
|
2月前
|
PyTorch 算法框架/工具
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
本文介绍了PyTorch中的F.softmax()和F.log_softmax()函数的语法、参数和使用示例,解释了它们在进行归一化处理时的作用和区别。
506 1
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
|
2月前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1709 14
|
2月前
|
存储 消息中间件 大数据
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
大数据-69 Kafka 高级特性 物理存储 实机查看分析 日志存储一篇详解
50 4