企业shell脚本分析及切割apache日志实战

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介:

企业shell脚本分析apache日志实战


一,分析apache日志

1,有一个文件shell.sh,内容如下:
[root@test3root]#catshell.sh
http://www.baidu.com/index.html
http://www.google.com/index.html
http://www.baidu.com/get.html
http://www.baidu.com/set.html
http://www.google.com/index.html
http://www.yahoo.com.cn/put.html
现要求将该文件中的域名截取出来,统计重复域名出现的次数,然后按次数进行降序排列,统计后的结果如下:
3www.baidu.com
2www.google.com
1www.yahoo.com.

sort将文件的每一行作为一个单位,相互比较,比较原则是从首字符向后,依次按ASCII码值进行比较,最后将他们按升序输出,uniq是去除紧挨着的相同的行只保留一行

1
2
3
4
[root@test3 ~]# awk -F  "/" '{print $3}'  shell.sh |sort |uniq  -c
3  www.baidu.com
2  www.google.com
1  www.yahoo.com.cn

2,在apachelog中找出访问次数最多的10个IP

/usr/local/apache2/logs/access_log的格式如下

192.168.46.1-chen[21/Sep/2013:14:04:48+0800]"GET/phpmyadmin/themes/pmahomme/img/tab_hover_bg.pngHTTP/1.1"200502

1
2
3
[root@test3 ~]# awk  '{print $1}'  /usr/local/apache2/logs/access_log |sort|uniq -c|head -n  10
7  127.0 . 0.1
228  192.168 . 46.1

3.在apache日志中找出访问次数最多的几个分钟

/usr/local/apache2/logs/access_log的格式如下

192.168.46.1-chen[21/Sep/2013:14:04:48+0800]"GET/phpmyadmin/themes/pmahomme/img/tab_hover_bg.pngHTTP/1.1"200502

1
2
3
4
5
6
7
8
9
10
11
[root@test3 ~]# awk  '{print $4}'  /usr/local/apache2/logs/access_log|cut -c  14 - 18  |sort|uniq -c|sort -nr|head
33  13 : 55
30  13 : 35
19  13 : 22
15  13 : 54
15  13 : 45
15  13 : 38
15  13 : 36
13  13 : 04
10  12 : 59
9  13 : 18

4.在apache日志中找到访问最多的页面

/usr/local/apache2/logs/access_log的格式如下

192.168.46.1-chen[21/Sep/2013:14:04:48+0800]"GET/phpmyadmin/themes/pmahomme/img/tab_hover_bg.pngHTTP/1.1"200502

1
2
3
4
5
6
7
8
9
10
11
[root@test3 ~]# awk  '{print $7}'  /usr/local/apache2/logs/access_log |sort|uniq -c|sort -nr|head
46  /
44  /phpmyadmin/
10  /phpmyadmin/js/jquery/jquery- 1.6 . 2 .js?ts= 1359376847
9  /phpmyadmin/js/update-location.js?ts= 1359376847
9  /phpmyadmin/js/jquery/jquery-ui- 1.8 . 16 .custom.js?ts= 1359376847
9  /phpmyadmin/js/jquery/jquery.qtip- 1.0 . 0 -rc3.js?ts= 1359376847
9  /phpmyadmin/js/functions.js?ts= 1359376847
8  /phpmyadmin/js/cross_framing_protection.js?ts= 1359376847
7  /phpmyadmin/themes/pmahomme/jquery/jquery-ui- 1.8 . 16 .custom.css
7  /phpmyadmin/themes/pmahomme/img/sprites.png

5,在apache日志中找出访问次数最多(负载最重)的几个时间段(以分钟为单位),然后在看看这些时间哪几个IP访问的最多?

/usr/local/apache2/logs/access_log的格式如下

192.168.46.1-chen[21/Sep/2013:14:04:48+0800]"GET/phpmyadmin/themes/pmahomme/img/tab_hover_bg.pngHTTP/1.1"200502

1
2
3
4
5
6
7
8
9
10
11
12
如下是时间段的访问量情况
[root@test3 ~]# awk  '{print $4}'  /usr/local/apache2/logs/access_log |cut -c   9 - 18  |uniq -c|sort -nr|head
33  2013 : 13 : 55
30  2013 : 13 : 35
19  2013 : 13 : 22
15  2013 : 13 : 54
15  2013 : 13 : 45
15  2013 : 13 : 38
15  2013 : 13 : 36
10  2013 : 12 : 59
9  2013 : 13 : 18
9  2013 : 13 : 16

6,apache相关的系统操作

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1 ,查看apache进程:
ps aux | grep httpd | grep -v grep | wc -l
2 ,查看 80 端口的tcp连接:
netstat -tan | grep  "ESTABLISHED"  | grep  ":80"  | wc -l
3 ,通过日志查看当天ip连接数,过滤重复:
cat access_log | grep  "19/May/2011"  | awk  '{print $2}'  | sort | uniq -c | sort -nr
4 ,当天ip连接数最高的ip都在干些什么(原来是蜘蛛):
cat access_log | grep  "19/May/2011:00"  | grep  "61.135.166.230"  | awk  '{print $8}'  | sort | uniq -c | sort -nr | head -n  10
5 ,当天访问页面排前 10 的url:
cat access_log | grep  "19/May/2010:00"  | awk  '{print $8}'  | sort | uniq -c | sort -nr | head -n  10
6 ,用tcpdump嗅探 80 端口的访问看看谁最高
tcpdump -i eth0 -tnn dst port  80  -c  1000  | awk -F "."  '{print $1"."$2"."$3"."$4}'  | sort | uniq -c | sort -nr
接着从日志里查看该ip在干嘛:
cat access_log | grep  220.181 . 38.183 | awk  '{print $1"/t"$8}'  | sort | uniq -c | sort -nr | less
7 ,查看某一时间段的ip连接数:
grep  "2006:0[7-8]"  www20110519.log | awk  '{print $2}'  | sort | uniq -c| sort -nr | wc -l
8 ,当前WEB服务器中联接次数最多的 20 条ip地址:
netstat -ntu |awk  '{print $5}'  |sort | uniq -c| sort -n -r | head -n  20
9 ,查看日志中访问次数最多的前 10 个IP
cat access_log |cut -d  ' '  -f  1  |sort |uniq -c | sort -nr | awk  '{print $0 }'  | head -n  10  |less
10 ,查看日志中出现 100 次以上的IP
cat access_log |cut -d  ' '  -f  1  |sort |uniq -c | awk  '{if ($1 > 100) print $0}' |sort -nr |less
11 ,查看最近访问量最高的文件
cat access_log |tail - 10000 |awk  '{print $7}' |sort|uniq -c|sort -nr|less
12 ,查看日志中访问超过 100 次的页面
cat access_log | cut -d  ' '  -f  7  | sort |uniq -c | awk  '{if ($1 > 100) print $0}'  | less
13 ,列出传输时间超过  30  秒的文件
cat access_log|awk  '($NF > 30){print $7}' |sort -n|uniq -c|sort -nr|head - 20
14 ,列出最最耗时的页面(超过 60 秒的)的以及对应页面发生次数
cat access_log |awk  '($NF > 60 && $7~//.php/){print $7}' |sort -n|uniq -c|sort -nr|head - 100

二、日志切割
  安装cronolog
CentOS6.0中编译安装Apache默认日志是不切割的,需要用用工具Cronnolog进行日志切割
1.下载及安装
wgethttp://cronolog.org/download/cronolog-1.6.2.tar.gz
tarzxvfcronolog-1.6.2.tar.gz
cdcronolog-1.6.2
./configure
make&&makeinstall
2.用which命令查看路径验证安装
whichcronolog
默认路径为:/usr/local/sbin/cronolog
3.配置
vi/usr/local/apache/conf/httpd.conf
CustomLog“|/usr/local/sbin/cronolog/usr/local/apache/logs/access_%Y%m%d.log”combined定义访问日志
ErrorLog“|/usr/local/sbin/cronolog/home/www/ex/log/error_%Y%m%d.log”定义错误日志
保存配置文件后,重新加载或重启apache服务即可生效。
servicehttpdrestart
还有另外一种使用rotatelogs方法:
Linux系统配置方法:
将其改为
ErrorLog"|/usr/local/apache/bin/rotatelogs/usr/local/apache/logs/%Y_%m_%d_error_log86400480"
CustomLog"|/usr/local/apache/bin/rotatelogs/usr/local/apache/logs/%Y_%m_%d_access_log86400480"common
Windows系统下配置方法:
#ErrorLog"|bin/rotatelogs.exelogs/error-%y%m%d.log86400480"
#CustomLog"|bin/rotatelogs.exelogs/access-%y%m%d.log86400480"common
、apache日志切割
辑Apache的主配置文件,更改内容如下:
注释掉如下两行
ErrorLoglogs/error_log
CustomLoglogs/access_logcommon
然后添加如下两行
ErrorLog"|/usr/local/apache/bin/rotatelogs/usr/local/apache/logs/errorlog.%Y-%m-%d-%H_%M_%S2M+480"
CustomLog"|/usr/local/apache/bin/rotatelogs/usr/local/apache/logs/accesslog.%Y-%m-%d-%H_%M_%S2M+480"common
意义如下:
errorlog.%Y-%m-%d-%H_%M_%S为生成日志的格式,类似于这样:errorlog.2010-04-15-11_32_30,以年月日时分秒为单位的,
2M为日志的大小,即为日志达到多大后生成新的日志文件,支持的单位为K,M,G,本处为2M
+480为时差,文件的时间为美国时间,中国的时差要比美国多8个小时也就是480分钟,所以要加上480分钟
还有其他的设置方法如下:
每天生成一个错误日志文件
ErrorLog"|bin/rotatelogs.exe-llogs/error-%Y-%m-%d.log86400"
其中86400为轮转的时间单位为秒
参考:http://hi.baidu.com/jiaofu1127/blog/item/15fed5fa19895b47342acc4a.html
参考:http://man.chinaunix.net/newsoft/ApacheMenual_CN_2.2new/programs/rotatelogs.html
rotatelogs-滚动Apache日志的管道日志程序
rotatelogs是一个配合Apache管道日志功能使用的简单程序。举例:
CustomLog"|bin/rotatelogs/var/logs/logfile86400"common
此配置会建立文件"/var/logs/logfile.nnnn",其中的nnnn是名义上的日志启动时的系统时间(此时间总是滚动时间的倍数,可以用于cron脚本的同步)。在滚动时间到达时(在此例中是24小时以后),会产生一个新的日志。
CustomLog"|bin/rotatelogs/var/logs/logfile5M"common
此配置会在日志文件大小增长到5兆字节时滚动该日志。
ErrorLog"|bin/rotatelogs/var/logs/errorlog.%Y-%m-%d-%H_%M_%S5M"
此配置会在错误日志大小增长到5兆字节时滚动该日志,日志文件名后缀会按照如下格式创建:errorlog.YYYY-mm-dd-HH_MM_SS。
语法
rotatelogs[-l]logfile[rotationtime[offset]]|[filesizeM]
选项
-l
使用本地时间代替GMT时间作为时间基准。注意:在一个改变GMT偏移量(比如夏令时)的环境中使用-l会导致不可预料的结果。
logfile
它加上基准名就是日志文件名。如果logfile中包含"%",则它会被视为用于strftime()的格式字符串;否则它会被自动加上以秒为单位的".nnnnnnnnnn"后缀。这两种格式都表示新的日志开始使用的时间。
rotationtime
日志文件滚动的以秒为单位的间隔时间。
offset
相对于UTC的时差的分钟数。如果省略,则假定为"0"并使用UTC时间。比如,要指定UTC时差为"-5小时"的地区的当地时间,则此参数应为"-300"。
filesizeM
指定以filesizeM文件大小滚动,而不是按照时间或时差滚动。
可移植性
下列日志文件格式字符串可以为所有的strftime()实现所支持,见各种扩展库对应的strftime()的手册。


%A

星期名全称(本地的)

%a

3个字符的星期名(本地的)

%B

月份名的全称(本地的)

%b

3个字符的月份名(本地的)

%c

日期和时间(本地的)

%d

2位数的一个月中的日期数

%H

2位数的小时数(24小时制)

%I

2位数的小时数(12小时制)

%j

3位数的一年中的日期数

%M

2位数的分钟数

%m

2位数的月份数

%p

am/pm12小时制的上下午(本地的)

%S

2位数的秒数

%U

2位数的一年中的星期数(星期天为一周的第一天)

%W

2位数的一年中的星期数(星期一为一周的第一天)

%w

1位数的星期几(星期天为一周的第一天)

%X

时间(本地的)

%x

日期(本地的)

%Y

4位数的年份

%y

2位数的年份

%Z

时区名

%%

符号"%"本身



本文转自陈仲阳0 51CTO博客,原文链接:http://blog.51cto.com/wolfword/1299831

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
6月前
|
关系型数据库 MySQL Shell
MySQL 备份 Shell 脚本:支持远程同步与阿里云 OSS 备份
一款自动化 MySQL 备份 Shell 脚本,支持本地存储、远程服务器同步(SSH+rsync)、阿里云 OSS 备份,并自动清理过期备份。适用于数据库管理员和开发者,帮助确保数据安全。
|
4月前
|
存储 Unix Shell
确定Shell脚本在操作系统中的具体位置方法。
这对于掌握Linux的文件系统组织结构和路径方面的理解很有帮助,是我们日常工作和学习中都可能使用到的知识。以上讲解详细清晰,应用简便,是每一个想要精通操作系统的计算机爱好者必备的实用技能。
99 17
|
4月前
|
Linux Shell
Centos或Linux编写一键式Shell脚本删除用户、组指导手册
Centos或Linux编写一键式Shell脚本删除用户、组指导手册
116 4
|
4月前
|
Linux Shell 数据安全/隐私保护
Centos或Linux编写一键式Shell脚本创建用户、组、目录分配权限指导手册
Centos或Linux编写一键式Shell脚本创建用户、组、目录分配权限指导手册
256 3
|
5月前
|
Linux Shell
在Linux、CentOS7中设置shell脚本开机自启动服务
以上就是在CentOS 7中设置shell脚本开机自启动服务的全部步骤。希望这个指南能帮助你更好地管理你的Linux系统。
408 25
|
3月前
|
人工智能 运维 监控
Aipy实战:分析apache2日志中的网站攻击痕迹
Apache2日志系统灵活且信息全面,但安全分析、实时分析和合规性审计存在较高技术门槛。为降低难度,可借助AI工具如aipy高效分析日志,快速发现攻击痕迹并提供反制措施。通过结合AI与学习技术知识,新手运维人员能更轻松掌握复杂日志分析任务,提升工作效率与技能水平。
|
5月前
|
监控 安全 BI
优化 Apache 日志记录的 5 个最佳实践
Apache 日志记录对于维护系统运行状况和网络安全至关重要,其核心包括访问日志与错误日志的管理。通过制定合理的日志策略,如选择合适的日志格式、利用条件日志减少冗余、优化日志级别、使用取证模块提升安全性及实施日志轮换,可有效提高日志可用性并降低系统负担。此外,借助 Eventlog Analyzer 等专业工具,能够实现日志的高效收集、可视化分析与威胁检测,从而精准定位安全隐患、评估服务器性能,并满足合规需求,为强化网络安全提供有力支持。
127 0
优化 Apache 日志记录的 5 个最佳实践
|
11月前
|
Shell
一个用于添加/删除定时任务的shell脚本
一个用于添加/删除定时任务的shell脚本
281 1
|
7月前
|
Shell Linux
【linux】Shell脚本中basename和dirname的详细用法教程
本文详细介绍了Linux Shell脚本中 `basename`和 `dirname`命令的用法,包括去除路径信息、去除后缀、批量处理文件名和路径等。同时,通过文件备份和日志文件分离的实践应用,展示了这两个命令在实际脚本中的应用场景。希望本文能帮助您更好地理解和应用 `basename`和 `dirname`命令,提高Shell脚本编写的效率和灵活性。
571 32
|
6月前
|
关系型数据库 Shell 网络安全
定期备份数据库:基于 Shell 脚本的自动化方案
本篇文章分享一个简单的 Shell 脚本,用于定期备份 MySQL 数据库,并自动将备份传输到远程服务器,帮助防止数据丢失。

推荐镜像

更多