网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计|学习笔记

简介: 快速学习网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第四阶段) 网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/696/detail/12221


网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计


1、计算每天的 pvs

已经计算出一天当中的每个小时的 pvs计算每一天就出来了因此针对指标的计算可以采用很多方式进行计算

已经计算出一天当中每个小时的 pvs比如一点两点三点四点直接把字段求和即可

image.png

--方式一dw_pvs_everyhour_oneday针对每个小时的 pv 进行 sum 求和

Selectsum(pvs) from 根据时间分股的表 dw_pvs_everyhour_oneday wheredatestr=”20181101“保证得到的是今天的

打开 hive 终端进行执行计算结果是13770,采用的是第一种方式在一天中每小时求和得到一天把每一天加以来等于每个月把每个月加起来等于每一年

2、以宽表为依据除了它是个普通的数据表最重要的它是分区表根据天进行分区指标要计算天指标的力度和分区的力度达到一致打开 node-1-50070,浏览 hive 默认的路径点击 userhivewarehouse,itheima.db,dw _weblog_ detail,以天做分区只有一个分区20181101,只需要统计20181101下的数据即可

image.png

--方式二:dw _weblog_ detail 分区和需求一致 基于分区进行 count 即可

select count (*)from dw_weblog detail where datestr ="20181101";

执行看结果,13770,多种方式计算的好处是可以从侧面见证计算的结果是否正确

3、现在的表是分区表可能会产生影响假如宽表不是分区表没有根据天进行分区数据里面每一天每个小时都有根据小时分组

--方式三如果数据不是分区表直接根据 day 进行分组前提是它不是分区表不能进行分组查询

select

t . month,t. day,count(*) as pvs

from dw_weblog_ detail t where t.datestr ="20181101" group by t . month,t. day;

不需要分组到 hour去掉 hour这样写的前提是 t.datestr ="20181101"  表不是分区表但是客观知道这个表是分区表所以保留虽然是在1101的分析数据里面人为的有意识的把一些数据变成了2在这个前提下忽略分区的影响看是否能查出每一天的数据,复制在hive中进行执行按照正常套路因为加了分区字段根据day进行分但是没有分都是1101,为了sql演示方便强制把一部分数据变成1102,就会得到01数据10777,02数据2993,加起来就是13770的数据如果一个表的数据不是分区表或者分区跟查询操作没有过多的需求需要到哪个力度就直接 groupby 分到哪个力度这是第三种方式在弄清楚需求的情况下结合已有的数据结合表结构可以从不同的思路进行计算同一个指标也可以验证 sql 计算的结果是否正确

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
相关文章
|
PyTorch 算法框架/工具
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
本文介绍了PyTorch中的F.softmax()和F.log_softmax()函数的语法、参数和使用示例,解释了它们在进行归一化处理时的作用和区别。
1531 1
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
|
jenkins 持续交付
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
|
安全 Linux 调度
【后台开发】TinyWebser学习笔记(4)定时器、日志系统(单例模式)、封装互斥锁信号量
【后台开发】TinyWebser学习笔记(4)定时器、日志系统(单例模式)、封装互斥锁信号量
148 1
|
存储 Java 关系型数据库
基于JSP的九宫格日志网站
基于JSP的九宫格日志网站
|
JSON 中间件 数据格式
Gin框架学习笔记(六)——gin中的日志使用
Gin框架学习笔记(六)——gin中的日志使用
1188 0
|
C++ 索引
【Qt 学习笔记】如何在Qt中打印日志 | qDebug的使用 | Assistant的使用
【Qt 学习笔记】如何在Qt中打印日志 | qDebug的使用 | Assistant的使用
2252 0
|
小程序 Linux 数据安全/隐私保护
Linux学习笔记十六:日志管理
Linux学习笔记十六:日志管理
148 0
|
监控 安全 前端开发
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
Nginx 访问日志中有 Get 别的网站的请求是什么原因?
285 0