网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计|学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第四阶段) 网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/696/detail/12221


网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计


1、计算每天的 pvs

已经计算出一天当中的每个小时的 pvs计算每一天就出来了因此针对指标的计算可以采用很多方式进行计算

已经计算出一天当中每个小时的 pvs比如一点两点三点四点直接把字段求和即可

image.png

--方式一dw_pvs_everyhour_oneday针对每个小时的 pv 进行 sum 求和

Selectsum(pvs) from 根据时间分股的表 dw_pvs_everyhour_oneday wheredatestr=”20181101“保证得到的是今天的

打开 hive 终端进行执行计算结果是13770,采用的是第一种方式在一天中每小时求和得到一天把每一天加以来等于每个月把每个月加起来等于每一年

2、以宽表为依据除了它是个普通的数据表最重要的它是分区表根据天进行分区指标要计算天指标的力度和分区的力度达到一致打开 node-1-50070,浏览 hive 默认的路径点击 userhivewarehouse,itheima.db,dw _weblog_ detail,以天做分区只有一个分区20181101,只需要统计20181101下的数据即可

image.png

--方式二:dw _weblog_ detail 分区和需求一致 基于分区进行 count 即可

select count (*)from dw_weblog detail where datestr ="20181101";

执行看结果,13770,多种方式计算的好处是可以从侧面见证计算的结果是否正确

3、现在的表是分区表可能会产生影响假如宽表不是分区表没有根据天进行分区数据里面每一天每个小时都有根据小时分组

--方式三如果数据不是分区表直接根据 day 进行分组前提是它不是分区表不能进行分组查询

select

t . month,t. day,count(*) as pvs

from dw_weblog_ detail t where t.datestr ="20181101" group by t . month,t. day;

不需要分组到 hour去掉 hour这样写的前提是 t.datestr ="20181101"  表不是分区表但是客观知道这个表是分区表所以保留虽然是在1101的分析数据里面人为的有意识的把一些数据变成了2在这个前提下忽略分区的影响看是否能查出每一天的数据,复制在hive中进行执行按照正常套路因为加了分区字段根据day进行分但是没有分都是1101,为了sql演示方便强制把一部分数据变成1102,就会得到01数据10777,02数据2993,加起来就是13770的数据如果一个表的数据不是分区表或者分区跟查询操作没有过多的需求需要到哪个力度就直接 groupby 分到哪个力度这是第三种方式在弄清楚需求的情况下结合已有的数据结合表结构可以从不同的思路进行计算同一个指标也可以验证 sql 计算的结果是否正确

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
5天前
|
存储 运维 监控
API明细日志及运维统计日志全面提升API可运维性
在数字化转型的大潮中,数据已成为企业最宝贵的资产之一。而数据服务API可快速为数据应用提供数据接口。面对越来越多的API以及越来越多的应用调用,如何快速查看API的服务情况、异常情况及影响范围,以及查看API的调用详情,进行API的性能优化、错误排查变得越来越重要,本文将介绍如何配置和开通API运维统计及明细日志,以及如何查看日志进行介绍。
|
1月前
|
PyTorch 算法框架/工具
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
本文介绍了PyTorch中的F.softmax()和F.log_softmax()函数的语法、参数和使用示例,解释了它们在进行归一化处理时的作用和区别。
386 1
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
|
1月前
|
数据可视化
Tensorboard可视化学习笔记(一):如何可视化通过网页查看log日志
关于如何使用TensorBoard进行数据可视化的教程,包括TensorBoard的安装、配置环境变量、将数据写入TensorBoard、启动TensorBoard以及如何通过网页查看日志文件。
197 0
|
3月前
|
jenkins 持续交付
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
|
1月前
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
3月前
|
应用服务中间件 Linux nginx
在Linux中,如何统计ip访问情况?分析 nginx 访问日志?如何找出访问页面数量在前十位的ip?
在Linux中,如何统计ip访问情况?分析 nginx 访问日志?如何找出访问页面数量在前十位的ip?
|
13天前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
123 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
1月前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
226 3
|
3月前
|
Kubernetes Ubuntu Windows
【Azure K8S | AKS】分享从AKS集群的Node中查看日志的方法(/var/log)
【Azure K8S | AKS】分享从AKS集群的Node中查看日志的方法(/var/log)
131 3
|
1月前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1631 14