开发者社区> 科技小能手> 正文

利用pig分析cdn访问日志内指定时间段的url访问次数

简介:
+关注继续查看

需求说明:

由于cdn收费是按照最高带宽收费的,但是公司平台平均使用cdn带宽为100M多,但是有几个时间点的带宽,突然涨到300M,但是不到5分钟就回落下来了,但就是为5分钟的高出的带宽,公司就要多付费用,不划算,所以要配合研发分析峰值左右前后5分钟的url访问次数,定位问题!


cdn流量图如下:

wKioL1RTA66DqRavAAGSPt1IPvo698.jpg


目标:通过分析cdn日志中10点整到10点50之间的url访问次数,来判定故障源!


具体实现方式:



#以","为分割符,加载日志文件大排变量a

grunt> a = load '/user/hadoop/input/16456_2014102710_enclf.log'

>> using PigStorage(' ')

>> AS (a1,a2,a3,time,a5,a6,url,a8); 


#过滤一行日志,只要time,和url列

grunt> b = foreach a generate time, url;


#只要时间是:10:40到10:50之间的行

grunt> b1 = filter b by time matches '.*2014:10:(40|41|42|43|44|45|46|47|48|49|50).*'; 


ps:下面的用的正则表达式(任选一个):

grunt> b1 = filter b by time matches '\\[27/Oct/2014:(10:4[1-9]):.*'; 


#过滤出url

grunt> b2 = foreach b1 generate url;


grunt> c = group b2 by url;


#计算出相同url的访问次数;

grunt> d = foreach c generate group,COUNT($1);


#按照url访问次数从大到小排序

grunt> e = order d by $1 desc;


#显示变量e(结果)

grunt> dump e


#存储结果到hdfs相关目录中:

store e into '/user/hadoop/output/1027_1045.log';


ps:1027_1045.log 是一个目录,不是文件;


#把hdfs文件copy到本地目录中

copyToLocal 16456_2014102710_order.log /home/hadoop/.


#本地查看分析结果

[hadoop@node1 ~]$ cd 1027_1045.log

[hadoop@node1 1027_1045.log]$ cat part-r-00000 |more


wKioL1RW4HnSasj2AAVjhkXV2Yw662.jpg


本文转自 shine_forever 51CTO博客,原文链接:http://blog.51cto.com/shineforever/1571124


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
日志分析实战之清洗日志小实例6:获取uri点击量排序并得到最高的url
日志分析实战之清洗日志小实例6:获取uri点击量排序并得到最高的url
33 0
日志分析实战之清洗日志小实例5:实现获取不能访问url
日志分析实战之清洗日志小实例5:实现获取不能访问url
32 0
Springboot Http文件的访问 Url 转换 MultipartFile ,File 转 MultipartFile
Springboot Http文件的访问 Url 转换 MultipartFile ,File 转 MultipartFile
125 0
整合FastDFS与Nginx,使生成的文件URL能够通过浏览器访问
整合FastDFS与Nginx,使生成的文件URL能够通过浏览器访问
103 0
网站漏洞检测服务对URL跳转漏洞检测分析
网站渗透测试是指在没有获得网站源代码以及服务器的情况下,模拟入侵者的攻击手法对网站进行漏洞检测,以及渗透测试,可以很好的对网站安全进行全面的安全检测,把安全做到最大化。在挖掘网站漏洞的时候我们发现很多网站存在域名跳转的情况,下面我们来详细的讲解一下。
159 0
如何通过url访问的方式获取HANA report的元数据metadata
如何通过url访问的方式获取HANA report的元数据metadata
38 0
如何通过url访问的方式获取HANA report的元数据metadata
如何通过url访问的方式获取HANA report的元数据metadata
36 0
SAP C4C里没有选择Port binding的url Mashup行为分析
SAP C4C里没有选择Port binding的url Mashup行为分析
47 0
日志服务查询分析支持IP、域名、URL安全识别
日志服务依托全球白帽子共享安全资产库,提供安全检测函数,用户只需要将日志中任意的IP、域名或者URL传给安全检测函数,即可检测是否安全。
1959 0
文章
问答
文章排行榜
最热
最新
相关电子书
更多
构建智能化的视频系统 阿里云CDN的进化
立即下载
CDN数据化实践
立即下载
CDN技术架构
立即下载