网站每日PV/IP统计/总带宽/URL统计脚本分享(依据网站访问日志)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介:

在平时的运维工作中,我们运维人员需要清楚自己网站每天的总访问量、总带宽、ip统计和url统计等。
虽然网站已经在服务商那里做了CDN加速,所以网站流量压力都在前方CDN层了
像每日PV,带宽,ip统计等数据也都可以在他们后台里查看到的。

======================================================================
通过下面的方法,可以快速根据子网掩码算出它的掩码位:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
子网掩码            掩码位
255.255.255.0       24位    (最后一个数是0,则256-0=256=2^8,一共32位,则该掩码位是32-8=24)
255.255.255.248     29位    (256-248=8=2^3,则该掩码位是32-3=29)
255.255.255.224     27位    (256-224=32=2^5,则该掩码位是32-5=27)
255.255.252.0       22位    (256-0=256=2^8,256-252=4=2^2,则该掩码位是32-8-2=22位)
255.255.224.0       19位    (256-0=256=2^8,256-224=32=2^5,则该掩码位是32-8-5=19位)
 
也可以根据掩码位快速算出它的子网掩码
掩码位    子网掩码
28位      255.255.255.240  (32-28=4,2^4=16,256-16=240,则该子网掩码为255.255.255.240)
30位      255.255.255.252  (32-30=2,2^2=4,256-4=252,则该子网掩码为255.255.255.252)
21位      255.255.248.0    (32-21=11=3+8,2^3=8,256-8=248,2^8=256,256-256=0,则该子网掩码为255.255.248.0)
18位      255.255.192.0    (32-18=14=6+8,2^6=64,256-64=192,2^8=256,256-256=0,则该子网掩码为255.255.192.0)
11位      255.224.0.0      (32-11=21=5+8+8,2^5=32,256-32=224,2^8=256,256-256=0,2^8=256,256-256=0,则该子网掩码为255.224.0.0)

---------------------------------------------------------------------------------------------------------------------
在这里,还是分享一个很早前用到过的shell统计脚本,可以结合crontab计划任务,每天给你的邮箱发送一个统计报告~【前提是本机已安装sendmail并启动】
脚本统计了:
1)总访问量
2)总带宽
3)独立访客量
4)访问IP统计
5)访问url统计
6)来源统计
7)404统计
8)搜索引擎访问统计(谷歌,百度)
9)搜索引擎来源统计(谷歌,百度)

[root@115r ~]# cat tongji.sh     //脚本如下

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
#!/bin/bash
log_path= /Data/logs/nginx/www .huanqiu.com /access .log
domain= "huanqiu.com"
email= "wangshibo@huanqiuc.com"
maketime=` date  +%Y-%m-%d " " %H ":" %M`
logdate=` date  -d  "yesterday"  +%Y-%m-%d`
total_visit=` wc  -l ${log_path} |  awk  '{print $1}' `
total_bandwidth=` awk  - v  total=0  '{total+=$10}END{print total/1024/1024}'  ${log_path}`
total_unique=` awk  '{ip[$1]++}END{print asort(ip)}'  ${log_path}`
ip_pv=` awk  '{ip[$1]++}END{for (k in ip){print ip[k],k}}'  ${log_path} |  sort  -rn |  head  -20`
url_num=` awk  '{url[$7]++}END{for (k in url){print url[k],k}}'  ${log_path} |  sort  -rn |  head  -20`
referer=` awk  - v  domain=$domain  '$11 !~ /http:\/\/[^/]*' "$domain" '/{url[$11]++}END{for (k in url){print url[k],k}}'  ${log_path} |  sort  -rn |  head  -20`
notfound=` awk  '$9 == 404 {url[$7]++}END{for (k in url){print url[k],k}}'  ${log_path} |  sort  -rn |  head  -20`
spider=` awk  -F '"'  '$6 ~ /Baiduspider/ {spider["baiduspider"]++} $6 ~ /Googlebot/ {spider["googlebot"]++}END{for (k in spider){print k,spider[k]}}'  ${log_path}`
search=` awk  -F '"'  '$4 ~ /http:\/\/www\.baidu\.com/ {search["baidu_search"]++} $4 ~ /http:\/\/www\.google\.com/ {search["google_search"]++}END{for (k in search){print k,search[k]}}'  ${log_path}`
echo  -e  "概况\n报告生成时间:${maketime}\n总访问量:${total_visit}\n总带宽:${total_bandwidth}M\n独立访客:${total_unique}\n\n访问IP统计\n${ip_pv}\n\n访问url统计\n${url_num}\n\n来源页面统计\n${referer}\n\n404统计\n${notfound}\n\n蜘蛛统计\n${spider}\n\n搜索引擎来源统计\n${search}"  | mail -s  "$domain $logdate log statistics"  ${email}

上述脚本可适用于其他网站的统计。只需要修改上面脚本中的三个变量即可:
log_path
domain
email
把此脚本添加到计划任务,就可以每天接收到统计的数据了。

执行上面的脚本,去wangshibo@huanqiu.com邮箱里查看统计报告:
[root@115r ~]# sh tongji.sh

[root@115r ~]#crontab -e
#每天凌晨按时统计一次
59 23 * * * /bin/bash -x /root/tongji.sh >/dev/null 2>&1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
------------------------------------------------------------------------------------------------------------------------------
上面是单个url的统计情况,如果时多个网站的访问情况(使用 for  do  done 语句做shell脚本),则脚本如下:
  
[root@web ~] # cat all_wang_access.sh
#!/bin/bash
for  log_path  in  /data/nginx/logs/athena_access .log  /data/nginx/logs/ehr_access .log  /data/nginx/logs/im_access .log  /data/nginx/logs/www_access .log  /data/nginx/logs/zrx_access .log
  
do
  
domain=` echo  $( echo  ${log_path}| cut  -d "_"  -f1| awk  -F "/"  '{print $5}' ).wang.com`
email= "shibo.wang@wang.com daiying.qi@wang.com nan.li@wang.com"
maketime=` date  +%Y-%m-%d " " %H ":" %M`
logdate=` date  -d  "yesterday"  +%Y-%m-%d`
total_visit=` wc  -l ${log_path} |  awk  '{print $1}' `
total_bandwidth=` awk  - v  total=0  '{total+=$10}END{print total/1024/1024}'  ${log_path}`
total_unique=` awk  '{ip[$1]++}END{print asort(ip)}'  ${log_path}`
ip_pv=` awk  '{ip[$1]++}END{for (k in ip){print ip[k],k}}'  ${log_path} |  sort  -rn |  head  -20`
url_num=` awk  '{url[$7]++}END{for (k in url){print url[k],k}}'  ${log_path} |  sort  -rn |  head  -20`
referer=` awk  - v  domain=$domain  '$11 !~ /http:\/\/[^/]*' "$domain" '/{url[$11]++}END{for (k in url){print url[k],k}}'  ${log_path} |  sort  -rn |  head  -20`
notfound=` awk  '$9 == 404 {url[$7]++}END{for (k in url){print url[k],k}}'  ${log_path} |  sort  -rn |  head  -20`
spider=` awk  -F '"'  '$6 ~ /Baiduspider/ {spider["baiduspider"]++} $6 ~ /Googlebot/ {spider["googlebot"]++}END{for (k in spider){print k,spider[k]}}'  ${log_path}`
search=` awk  -F '"'  '$4 ~ /http:\/\/www\.baidu\.com/ {search["baidu_search"]++} $4 ~ /http:\/\/www\.google\.com/ {search["google_search"]++}END{for (k in search){print k,search[k]}}'  ${log_path}`
  
echo  -e  "-----------------------------------$domain访问概况-----------------------------------\n报告生成时间:${maketime}\n总访问量:${total_visit}\n总带宽:${total_bandwidth}M\n独立访客:${total_unique}\n\n访问IP统计\n${ip_pv}\n\n访问url统计\n${url_num}\n\n来源页面统计\n${referer}\n\n404统计\n${notfound}\n\n蜘蛛统计\n${spider}\n\n搜索引擎来源统计\n${search}"  | mail -s  "$domain $logdate log statistics"  ${email}
  
done
  
使用 crontab 做定时任务
[root@web ~] # crontab -l
#网站访问情况统计
50 23 * * *  /bin/bash  -x  /opt/wang .com_access /all_wang_access .sh >  /dev/null  2>&1
***************当你发现自己的才华撑不起野心时,就请安静下来学习吧***************

本文转自散尽浮华博客园博客,原文链接:http://www.cnblogs.com/kevingrace/p/5886130.html ,如需转载请自行联系原作者
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
10天前
|
存储 运维 监控
API明细日志及运维统计日志全面提升API可运维性
在数字化转型的大潮中,数据已成为企业最宝贵的资产之一。而数据服务API可快速为数据应用提供数据接口。面对越来越多的API以及越来越多的应用调用,如何快速查看API的服务情况、异常情况及影响范围,以及查看API的调用详情,进行API的性能优化、错误排查变得越来越重要,本文将介绍如何配置和开通API运维统计及明细日志,以及如何查看日志进行介绍。
|
1月前
|
Java Shell
「sh脚步模版自取」测试线排查的三个脚本:启动、停止、重启、日志保存
「sh脚步模版自取」测试线排查的三个脚本:启动、停止、重启、日志保存
38 1
|
1月前
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
2月前
|
缓存 监控 算法
分析慢日志文件来优化 PHP 脚本的性能
分析慢日志文件来优化 PHP 脚本的性能
|
2月前
|
JavaScript 前端开发
在url中取ip或者键值对、手机号脱敏、电话号脱敏、身份证脱敏、银行卡号脱敏、身份证校验
本文提供了JavaScript代码示例,用于从URL中提取IP地址、键值对,以及对手机号、电话号码、身份证号和银行卡号进行脱敏处理,还包含了身份证号的校验方法。
59 0
|
3月前
|
应用服务中间件 Linux nginx
在Linux中,如何统计ip访问情况?分析 nginx 访问日志?如何找出访问页面数量在前十位的ip?
在Linux中,如何统计ip访问情况?分析 nginx 访问日志?如何找出访问页面数量在前十位的ip?
|
3月前
|
Java Shell Linux
【Linux入门技巧】新员工必看:用Shell脚本轻松解析应用服务日志
关于如何使用Shell脚本来解析Linux系统中的应用服务日志,提供了脚本实现的详细步骤和技巧,以及一些Shell编程的技能扩展。
56 0
【Linux入门技巧】新员工必看:用Shell脚本轻松解析应用服务日志
|
3月前
|
运维 监控 Ubuntu
一键启动日志魔法:揭秘ELK自动安装脚本的神秘面纱!
【8月更文挑战第9天】在数据驱动时代,高效处理日志至关重要。ELK Stack(Elasticsearch、Logstash、Kibana)是强大的日志分析工具,但其复杂的安装配置常让初学者望而却步。本文介绍如何编写ELK自动安装脚本,简化部署流程。脚本适用于Ubuntu系统,自动完成ELK下载、安装及基本配置,包括依赖项安装、服务启动及自启设置,极大降低了使用门槛,助力运维人员和开发者轻松构建日志分析平台。
157 6
|
3月前
|
运维 监控 数据可视化
自动化运维:使用Python脚本进行日志分析
【8月更文挑战第31天】当系统出现问题时,我们通常会查看日志寻找线索。然而,手动阅读大量日志既费时又易出错。本文将介绍如何使用Python脚本自动分析日志,快速定位问题,提高运维效率。我们将从简单的日志读取开始,逐步深入到复杂的正则表达式匹配和错误统计,最后实现一个自动化的日志监控系统。无论你是新手还是老手,这篇文章都将为你提供有价值的参考。让我们一起探索如何用代码解放双手,让运维工作变得更加轻松吧!
|
4月前
|
Shell 测试技术 Linux
Shell 脚本循环遍历日志文件中的值进行求和并计算平均值,最大值和最小值
Shell 脚本循环遍历日志文件中的值进行求和并计算平均值,最大值和最小值
60 3
下一篇
无影云桌面