开发者社区> 科技小能手> 正文

利用pig分析cdn访问日志内指定时间段的url访问次数

简介:
+关注继续查看

需求说明:

由于cdn收费是按照最高带宽收费的,但是公司平台平均使用cdn带宽为100M多,但是有几个时间点的带宽,突然涨到300M,但是不到5分钟就回落下来了,但就是为5分钟的高出的带宽,公司就要多付费用,不划算,所以要配合研发分析峰值左右前后5分钟的url访问次数,定位问题!


cdn流量图如下:

wKioL1RTA66DqRavAAGSPt1IPvo698.jpg


目标:通过分析cdn日志中10点整到10点50之间的url访问次数,来判定故障源!


具体实现方式:



#以","为分割符,加载日志文件大排变量a

grunt> a = load '/user/hadoop/input/16456_2014102710_enclf.log'

>> using PigStorage(' ')

>> AS (a1,a2,a3,time,a5,a6,url,a8); 


#过滤一行日志,只要time,和url列

grunt> b = foreach a generate time, url;


#只要时间是:10:40到10:50之间的行

grunt> b1 = filter b by time matches '.*2014:10:(40|41|42|43|44|45|46|47|48|49|50).*'; 


ps:下面的用的正则表达式(任选一个):

grunt> b1 = filter b by time matches '\\[27/Oct/2014:(10:4[1-9]):.*'; 


#过滤出url

grunt> b2 = foreach b1 generate url;


grunt> c = group b2 by url;


#计算出相同url的访问次数;

grunt> d = foreach c generate group,COUNT($1);


#按照url访问次数从大到小排序

grunt> e = order d by $1 desc;


#显示变量e(结果)

grunt> dump e


#存储结果到hdfs相关目录中:

store e into '/user/hadoop/output/1027_1045.log';


ps:1027_1045.log 是一个目录,不是文件;


#把hdfs文件copy到本地目录中

copyToLocal 16456_2014102710_order.log /home/hadoop/.


#本地查看分析结果

[hadoop@node1 ~]$ cd 1027_1045.log

[hadoop@node1 1027_1045.log]$ cat part-r-00000 |more


wKioL1RW4HnSasj2AAVjhkXV2Yw662.jpg


本文转自 shine_forever 51CTO博客,原文链接:http://blog.51cto.com/shineforever/1571124


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
新功能:日志服务命令行工具ETL发布!
日志服务命令行工具ETL发布,解决数据采集、分析查询、投递归档、外部整合过程中的数据规整痛点,提供实时、可靠、可扩展、可管理的运行模式支持,以及全面简单的ETL规则,并支持丰富的扩展支持。
3165 0
日志服务查询分析支持IP、域名、URL安全识别
日志服务依托全球白帽子共享安全资产库,提供安全检测函数,用户只需要将日志中任意的IP、域名或者URL传给安全检测函数,即可检测是否安全。
1898 0
目标设定与时间管理
目标的设定   目标 目标是一种未来的远景,为了实现它,人们愿意做些努力。如果说你没有去做努力,那只不过是一个企图。   【案例】 1953年,美国耶鲁大学对应届毕业生做了一项研究调查,他们发现有3%的同学还没有毕业就设定了他们人生的目标,20年后,也就是1973年,这3%的同学比其他97%的同学更显得富裕。
746 0
从日志到双十一大屏只要一步:LOG/SLS+DataV 打通
简介 日志服务从5月份开始提供了SQL查询功能,可以在1秒内快速分析1亿条日志。强大的统计分析能力,加上一些可视化手段,可以帮助开发者快速分析自己的日志。 在双十一这一个关键的节点,我们需要实时的关注自己的业务量,这时候配置一个可视化大屏就很关键,在一个大屏里展示所有的指标。
10035 0
【51开放平台日志 2009年03月03日】51开放平台第三方小应用停机维护时间建议
【51开放平台日志 2009年03月03日】51开放平台第三方小应用停机维护时间建议 出自51.com developers wiki 跳转到: 导航, 搜索 通过我们的数据分析,51用户最少的时间段集中在:每天的凌晨4点~7点。
544 0
23705
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
OceanBase 入门到实战教程
立即下载
阿里云图数据库GDB,加速开启“图智”未来.ppt
立即下载
实时数仓Hologres技术实战一本通2.0版(下)
立即下载