总结一些线上问题排查的命令,可能用得到!

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
日志服务 SLS,月写入数据量 50GB 1个月
简介: 开发运维,统计所遇到的运维问提。运维问提排查,以下场景,你可能遇到?

一、了解机器连接数情况;

问题:1.2.3.4的sshd的监听端口是22,如何统计1.2.3.4的sshd服务各种连接状态(TIME_WAIT/ CLOSE_WAIT/ ESTABLISHED)的连接数。

netstat -n | grep 1.2.3.4:22 | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}’
netstat -lnpta | grep ssh | egrep “TIME_WAIT | CLOSE_WAIT | ESTABLISHED”
n [阿里云运维可用]

说明:netstat是追查网络连接问题常用工具,和grep/awk结合更是神器,当然如果在阿里云上,还有更方便的方法,对于不会awk编程,有兴趣可以在慕课网上学习;

二、从已经备份好的日志中查询数据;

问题:从已备份的mysql.2020-04-25.log.bz2日志中,找出包含关键字1.2.3.4的日志有多少条;

mysql.2020-04-25.log.bz2 | grep '1.2.3.4' | wc -l
bzgrep '1.2.3.4' mysql.2020-04-25.log.bz2 | wc -l
less mysql.2020-04-25.log.bz2 | grep '10.37.9.11' | wc -l

说明:线上日志文件一般以bz2 压缩之后保留,如果解压查询,非常耗空间与时间,bzcat和bzgrep是PHP开发必须掌握的工具。

三、备份服务的技巧

问题:打包备份/www/wwwroot/c69p目录,排除掉目录中的logs和目录,打包好的文件存放在/www/backup目录下;

tar -zcvf /www/wwwroot/c69p  -exclude /www/wwwroot/c69p/storage/logs

说明:这个命令线上应用较为频繁,在项目需要打包迁移时,常常需要排除掉日志目录,-exclude是需要掌握的参数

四、查询线程数

问题:查询服务器运行服务的总线程数,当机器线程数超报警阀值时,能快速查出相关进程及线程信息;

ps -eLf | wc -l
pstree -p | wc -l
ps -ef --forest [查看进程树]

五、磁盘IO异常排查

问题:磁盘IO异常如何排查,类似写入慢或当前使用率较高,请查出导致磁盘IO异常高的进程ID;
第一步:

iotop -o

查看当前正在写磁盘操作的所有进程ID信息;
第二步:如果此时各项写入指标都很低,基本没有大的写入操作,则需要排查磁盘自身。可以查看系统
dmesg

cat /var/log/message

看看是否有相关的磁盘异常报错,同时可以在写入慢的磁盘上touch一个空文件看看,是否磁盘故障导致无法写入。

六、显示文件,过滤注释

问题:显示server.conf 文件,屏蔽掉#号开头的注释行;

sed -n '/^[#]/!p' server.conf
sed -e '/^#/d' server.conf
grep -v "^#" server.conf

说明:sed的命令很强大,开发人员应该掌握;

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
4月前
|
消息中间件 Java 调度
一次线上服务CPU100%的排查过程
文章记录了一次线上服务CPU使用率达到100%的排查过程,通过使用top命令和jstack工具确定了导致高CPU使用的线程,并分析了Disruptor组件的不当配置是问题原因,通过修改组件的策略成功解决了问题。
101 0
|
7月前
|
SQL
线上问题排查日志实战
线上问题排查日志实战
53 1
|
7月前
|
SQL 监控 数据库
线上服务假死排查
线上服务假死排查
56 0
|
7月前
|
SQL 运维 监控
如何排查线上问题的?
在当今的互联网时代,线上问题对企业的业务连续性和用户体验产生的影响越来越大。无论是网站崩溃、应用性能下降,还是服务中断,这些问题都可能对企业的声誉和用户满意度造成严重影响。因此,快速、准确地排查并解决线上问题变得至关重要。本文将介绍一些高效的线上问题排查方法,帮助您在面对线上问题时,迅速定位并解决问题。我们将在接下来的内容中详细讨论如何利用日志分析、监控系统、代码审查等手段,以及如何制定有效的应急预案。通过这些策略的实施,您将能够提高线上问题的解决速度,减少对业务的影响,并提高用户满意度。
172 2
|
监控 NoSQL Java
【线上问题】服务CPU彪高排查
后端程序员出去面试经常会有面试官喜欢问你有没有排查过线上问题,遇到后怎么排查的。
547 0
【线上问题】服务CPU彪高排查
|
运维 监控 前端开发
记一次线上 bug 的排查分析过程及总结
记一次线上 bug 的排查分析过程及总结
记一次线上 bug 的排查分析过程及总结
|
网络协议 Java Shell
线上问题排查常用命令,总结太全了,建议收藏!!(2)
线上问题排查常用命令,总结太全了,建议收藏!!(2)
476 0
线上问题排查常用命令,总结太全了,建议收藏!!(2)
|
运维 监控 NoSQL
一次线上问题排查所引发的思考
之前或多或少分享过一些内存模型、对象创建之类的内容,其实大部分人看完都是懵懵懂懂,也不知道这些的实际意义。
|
SQL Java 数据库连接
线上运行的项目突然变得很卡如何排查?
线上运行的项目突然变得很卡如何排查?
|
缓存 算法 Java
线上问题排查常用命令,总结太全了,建议收藏!!(1)
线上问题排查常用命令,总结太全了,建议收藏!!(1)
236 0
下一篇
DataWorks