网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计|学习笔记

简介: 快速学习网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计

开发者学堂课程【大数据分析之企业级网站流量运营分析系统开发实战(第四阶段) 网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/696/detail/12221


网站流量日志分析--统计分析--多维统计分析--时间维度--每天 pv 统计


1、计算每天的 pvs

已经计算出一天当中的每个小时的 pvs计算每一天就出来了因此针对指标的计算可以采用很多方式进行计算

已经计算出一天当中每个小时的 pvs比如一点两点三点四点直接把字段求和即可

image.png

--方式一dw_pvs_everyhour_oneday针对每个小时的 pv 进行 sum 求和

Selectsum(pvs) from 根据时间分股的表 dw_pvs_everyhour_oneday wheredatestr=”20181101“保证得到的是今天的

打开 hive 终端进行执行计算结果是13770,采用的是第一种方式在一天中每小时求和得到一天把每一天加以来等于每个月把每个月加起来等于每一年

2、以宽表为依据除了它是个普通的数据表最重要的它是分区表根据天进行分区指标要计算天指标的力度和分区的力度达到一致打开 node-1-50070,浏览 hive 默认的路径点击 userhivewarehouse,itheima.db,dw _weblog_ detail,以天做分区只有一个分区20181101,只需要统计20181101下的数据即可

image.png

--方式二:dw _weblog_ detail 分区和需求一致 基于分区进行 count 即可

select count (*)from dw_weblog detail where datestr ="20181101";

执行看结果,13770,多种方式计算的好处是可以从侧面见证计算的结果是否正确

3、现在的表是分区表可能会产生影响假如宽表不是分区表没有根据天进行分区数据里面每一天每个小时都有根据小时分组

--方式三如果数据不是分区表直接根据 day 进行分组前提是它不是分区表不能进行分组查询

select

t . month,t. day,count(*) as pvs

from dw_weblog_ detail t where t.datestr ="20181101" group by t . month,t. day;

不需要分组到 hour去掉 hour这样写的前提是 t.datestr ="20181101"  表不是分区表但是客观知道这个表是分区表所以保留虽然是在1101的分析数据里面人为的有意识的把一些数据变成了2在这个前提下忽略分区的影响看是否能查出每一天的数据,复制在hive中进行执行按照正常套路因为加了分区字段根据day进行分但是没有分都是1101,为了sql演示方便强制把一部分数据变成1102,就会得到01数据10777,02数据2993,加起来就是13770的数据如果一个表的数据不是分区表或者分区跟查询操作没有过多的需求需要到哪个力度就直接 groupby 分到哪个力度这是第三种方式在弄清楚需求的情况下结合已有的数据结合表结构可以从不同的思路进行计算同一个指标也可以验证 sql 计算的结果是否正确

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
存储 运维 监控
API明细日志及运维统计日志全面提升API可运维性
在数字化转型的大潮中,数据已成为企业最宝贵的资产之一。而数据服务API可快速为数据应用提供数据接口。面对越来越多的API以及越来越多的应用调用,如何快速查看API的服务情况、异常情况及影响范围,以及查看API的调用详情,进行API的性能优化、错误排查变得越来越重要,本文将介绍如何配置和开通API运维统计及明细日志,以及如何查看日志进行介绍。
628 0
|
9月前
|
存储 监控 算法
基于 PHP 语言的滑动窗口频率统计算法在公司局域网监控电脑日志分析中的应用研究
在当代企业网络架构中,公司局域网监控电脑系统需实时处理海量终端设备产生的连接日志。每台设备平均每分钟生成 3 至 5 条网络请求记录,这对监控系统的数据处理能力提出了极高要求。传统关系型数据库在应对这种高频写入场景时,性能往往难以令人满意。故而,引入特定的内存数据结构与优化算法成为必然选择。
252 3
|
监控 应用服务中间件 定位技术
要统计Nginx的客户端IP,可以通过分析Nginx的访问日志文件来实现
要统计Nginx的客户端IP,可以通过分析Nginx的访问日志文件来实现
1071 3
|
PyTorch 算法框架/工具
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
本文介绍了PyTorch中的F.softmax()和F.log_softmax()函数的语法、参数和使用示例,解释了它们在进行归一化处理时的作用和区别。
1352 1
Pytorch学习笔记(七):F.softmax()和F.log_softmax函数详解
|
jenkins 持续交付
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
jenkins学习笔记之三:使用jenkins共享库实现日志格式化输出
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
7月前
|
监控 容灾 算法
阿里云 SLS 多云日志接入最佳实践:链路、成本与高可用性优化
本文探讨了如何高效、经济且可靠地将海外应用与基础设施日志统一采集至阿里云日志服务(SLS),解决全球化业务扩展中的关键挑战。重点介绍了高性能日志采集Agent(iLogtail/LoongCollector)在海外场景的应用,推荐使用LoongCollector以获得更优的稳定性和网络容错能力。同时分析了多种网络接入方案,包括公网直连、全球加速优化、阿里云内网及专线/CEN/VPN接入等,并提供了成本优化策略和多目标发送配置指导,帮助企业构建稳定、低成本、高可用的全球日志系统。
834 54
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
370 9

热门文章

最新文章