网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计|学习笔记

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 快速学习网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第四阶段) 网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/696/detail/12221


网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计


1、计算每天的 pvs

已经计算出一天当中的每个小时的 pvs计算每一天就出来了因此针对指标的计算可以采用很多方式进行计算

已经计算出一天当中每个小时的 pvs比如一点两点三点四点直接把字段求和即可

image.png

--方式一dw_pvs_everyhour_oneday针对每个小时的 pv 进行 sum 求和

Selectsum(pvs) from 根据时间分股的表 dw_pvs_everyhour_oneday wheredatestr=”20181101“保证得到的是今天的

打开 hive 终端进行执行计算结果是13770,采用的是第一种方式在一天中每小时求和得到一天把每一天加以来等于每个月把每个月加起来等于每一年

2、以宽表为依据除了它是个普通的数据表最重要的它是分区表根据天进行分区指标要计算天指标的力度和分区的力度达到一致打开 node-1-50070,浏览 hive 默认的路径点击 userhivewarehouse,itheima.db,dw _weblog_ detail,以天做分区只有一个分区20181101,只需要统计20181101下的数据即可

image.png

--方式二:dw _weblog_ detail 分区和需求一致 基于分区进行 count 即可

select count (*)from dw_weblog detail where datestr ="20181101";

执行看结果,13770,多种方式计算的好处是可以从侧面见证计算的结果是否正确

3、现在的表是分区表可能会产生影响假如宽表不是分区表没有根据天进行分区数据里面每一天每个小时都有根据小时分组

--方式三如果数据不是分区表直接根据 day 进行分组前提是它不是分区表不能进行分组查询

select

t . month,t. day,count(*) as pvs

from dw_weblog_ detail t where t.datestr ="20181101" group by t . month,t. day;

不需要分组到 hour去掉 hour这样写的前提是 t.datestr ="20181101"  表不是分区表但是客观知道这个表是分区表所以保留虽然是在1101的分析数据里面人为的有意识的把一些数据变成了2在这个前提下忽略分区的影响看是否能查出每一天的数据,复制在hive中进行执行按照正常套路因为加了分区字段根据day进行分但是没有分都是1101,为了sql演示方便强制把一部分数据变成1102,就会得到01数据10777,02数据2993,加起来就是13770的数据如果一个表的数据不是分区表或者分区跟查询操作没有过多的需求需要到哪个力度就直接 groupby 分到哪个力度这是第三种方式在弄清楚需求的情况下结合已有的数据结合表结构可以从不同的思路进行计算同一个指标也可以验证 sql 计算的结果是否正确

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
2月前
|
PyTorch 算法框架/工具
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
本文介绍了PyTorch中的F.softmax()和F.log_softmax()函数的语法、参数和使用示例,解释了它们在进行归一化处理时的作用和区别。
515 1
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
|
4月前
|
jenkins 持续交付
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
|
2月前
|
数据可视化
Tensorboard可视化学习笔记(一):如何可视化通过网页查看log日志
关于如何使用TensorBoard进行数据可视化的教程,包括TensorBoard的安装、配置环境变量、将数据写入TensorBoard、启动TensorBoard以及如何通过网页查看日志文件。
281 0
|
2月前
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
6月前
|
JSON 中间件 数据格式
Gin框架学习笔记(六)——gin中的日志使用
Gin框架学习笔记(六)——gin中的日志使用
284 0
|
7月前
|
安全 Linux 调度
【后台开发】TinyWebser学习笔记(4)定时器、日志系统(单例模式)、封装互斥锁信号量
【后台开发】TinyWebser学习笔记(4)定时器、日志系统(单例模式)、封装互斥锁信号量
44 1
|
1月前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
361 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
15天前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
|
2月前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
336 3
|
25天前
|
存储 监控 安全
什么是事件日志管理系统?事件日志管理系统有哪些用处?
事件日志管理系统是IT安全的重要工具,用于集中收集、分析和解释来自组织IT基础设施各组件的事件日志,如防火墙、路由器、交换机等,帮助提升网络安全、实现主动威胁检测和促进合规性。系统支持多种日志类型,包括Windows事件日志、Syslog日志和应用程序日志,通过实时监测、告警及可视化分析,为企业提供强大的安全保障。然而,实施过程中也面临数据量大、日志管理和分析复杂等挑战。EventLog Analyzer作为一款高效工具,不仅提供实时监测与告警、可视化分析和报告功能,还支持多种合规性报告,帮助企业克服挑战,提升网络安全水平。