分析和排查系统故障

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介:

分析日志;排查系统故障
1.分析日志:
1)了解日志:
日志:记录系统和程序运行的信息,用于排查故障和诊断系统状态。
日志的分类:内核及系统日志一般有rsyslog进行统一管理;用户日志记录用户行为日志;程序日志一般独立管理。
2)常见的日志文件及其作用:
/var/log/messages 包括内核及系统日志,大多的日志都在这文件中。推荐使用命令:tail -f /var/log/messages 或者:less /var/log/messages
/var/log/cron 计划任务的日志
/var/log/dmesg 启动过程的日志,一般系统的硬件加载过程中的信息都会被记录。推荐命令:grep error /var/log/dmesg(检查启动过程是否有错误)
/var/log/secure 用户认证相关的信息

3)内核、系统、用户日志的的集中管理:rsyslog
rpm -qa |grep rsyslog
rpm -ql rsyslog
man 5 rsyslog.conf ##配置文件的帮助
vi /etc/rsyslog.conf ##调整日志的记录行为
#rules(规则):
设备.优先级 日志存放位置(文件/IP)
设备:auth(认证,与security相同),cron(计划任务),kern(内核),mail(邮件),user(用户),local0-local7(用户自定义日志存放位置)
优先级:严重级别重第到高--debug(调试)--info(信息)--notice(注意)--warn(提醒)--error(错误)--crit(严重)--alert(警告)--emerg(紧急,等于panic(恐慌))
:可以表示所有的设备或者优先级
;--》隔开多个区域
.info;mail.none;authpriv.none;cron.none /var/log/messages #将所有设备产生的info及以上级别的日志记录在/var/log/messages中,但mail.none等排除了邮件、计划任务、认证日志。
authpriv.* /var/log/secure ##将所有认证日志记录在文件中
:wq
/etc/init.d/rsyslog restart
chkconfig rsyslog on ##设置为开机启动
4)查看日志文件:
tail -1 /var/log/messages
时间标签:主机名或IP:程序或设备:日志内容
tail -2 /var/log/secure ##查看登陆日志
last ##查看登陆成功日志
lastb ##查看登陆失败的日志
常用分析日志的工具:vi,less,tail,awk,sed,其他编程工具。
5)日志管理策略:
备份,控制访问权限,集中管理,延长保留期限。
经常关注:联网日志、文件传输日志、用户登陆记录日志。

修改root密码:
reboot-->按下键-->e-->下键选择kernel-->e-->输入空格1-->回车-->b-->进入单用户模式:passwd root修改密码-->init 3











本文转自信自己belive51CTO博客,原文链接:http://blog.51cto.com/11638205/2043786 ,如需转载请自行联系原作者


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
运维 监控 安全
应急实战 | 记一次日志缺失的挖矿排查
应急实战 | 记一次日志缺失的挖矿排查
192 0
|
SQL 监控 网络协议
线上故障如何快速排查?来看这套技巧大全
有哪些常见的线上故障?如何快速定位问题?本文详细总结工作中的经验,从服务器、Java应用、数据库、Redis、网络和业务六个层面分享线上故障排查的思路和技巧。较长,同学们可收藏后再看。
线上故障如何快速排查?来看这套技巧大全
|
6月前
|
网络安全
LabVIEW崩溃后如何排查故障
LabVIEW崩溃后如何排查故障
47 0
|
6月前
|
SQL 运维 监控
如何排查线上问题的?
在当今的互联网时代,线上问题对企业的业务连续性和用户体验产生的影响越来越大。无论是网站崩溃、应用性能下降,还是服务中断,这些问题都可能对企业的声誉和用户满意度造成严重影响。因此,快速、准确地排查并解决线上问题变得至关重要。本文将介绍一些高效的线上问题排查方法,帮助您在面对线上问题时,迅速定位并解决问题。我们将在接下来的内容中详细讨论如何利用日志分析、监控系统、代码审查等手段,以及如何制定有效的应急预案。通过这些策略的实施,您将能够提高线上问题的解决速度,减少对业务的影响,并提高用户满意度。
156 2
|
运维 监控 前端开发
记一次线上 bug 的排查分析过程及总结
记一次线上 bug 的排查分析过程及总结
记一次线上 bug 的排查分析过程及总结
|
Prometheus Cloud Native 安全
硬件故障诊断:快速定位问题
硬件故障诊断:快速定位问题
188 0
|
Java
【线上问题排查】内存泄漏排查(模拟真实环境)
【线上问题排查】内存泄漏排查(模拟真实环境)
197 0
|
SQL 存储 运维
能解决 80% 故障的排查思路 ,建议大家收藏。。
能解决 80% 故障的排查思路 ,建议大家收藏。。
259 0
能解决 80% 故障的排查思路 ,建议大家收藏。。
|
SQL 缓存 监控
聊聊什么是慢查、如何监控?如何排查?
今天我要跟你分享的话题是:“聊聊什么是慢查、如何监控?如何排查?”
290 0
|
6月前
|
运维 监控 Java
线上故障突突突?如何紧急诊断、排查与恢复
本文简单介绍了阿里云上关于故障恢复、诊断的一些最佳实践。
线上故障突突突?如何紧急诊断、排查与恢复