解决CPU与带宽高使用率问题:深入分析与应对策略

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 引言:性能问题的诊断与优化在运维工作中,操作系统性能问题如影随形,典型代表是CPU使用率高和带宽使用率高的问题,它们直接影响应用的性能和响应时间。这篇记录将逐个分析这两个问题的产生原因和解决方法。

cpu.jpeg

解决CPU与带宽高使用率问题:深入分析与应对策略


引言:性能问题的诊断与优化

在运维工作中,操作系统性能问题如影随形,典型代表是CPU使用率高和带宽使用率高的问题,它们直接影响应用的性能和响应时间。这篇记录将逐个分析这两个问题的产生原因和解决方法。


一、CPU使用率问题的全面剖析

排查分析

  1. 解决CPU使用率高的第一步是登录到服务器操作系统并执行top命令,该命令能实时显示系统中各个进程的资源占用情况。通过分析top命令的输出结果,可以确定哪些进程消耗了过多的CPU资源。

top

  1. 查看显示结果。
  • 命令回显第一行:20:56:02 up 37 days,1 user, load average: 0.00, 0.01, 0.05的每个字段含义如下:

系统当前时间为20:56:02,该云服务器已运行37天,当前共有1个用户登录, 最近1分钟、最近5分钟和最近15分钟的CPU平均负载。

  • 命令回显第三行:CPU资源总体使用情况。
  • 命令回显第四行:内存资源总体使用情况。
  • 回显最下方显示各进程的资源占用情况。

如下补充说明:

  • 在top页面,可以直接输入小写“q”或者在键盘上按“Ctrl+C”退出。
  • 在top运行中常用的内容命令如下:

  1. 通过ll /proc/PID/exe命令可以查看每个进程ID对应的程序文件。

ll /proc/PID/exe


问题处理

  1. 异常进程处理:如果发现某个进程的CPU占用率异常高,可以直接通过top命令中的k选项终止该进程。
  • 具体操作为在top界面中按k键,输入进程的PID,然后回车确认。进程的PID为top命令回显的第一列数值。例如,要终止PID为52的进程,直接输入“52”后回车。

  • 操作成功后,会出现如下图所示类似信息,按回车确认。

  1. 内存泄漏问题:如发现kswapd0进程频繁运行,说明系统可能在进行大量的页面交换操作,这通常与物理内存不足有关。
  • 通过top命令查看kswapd0进程的资源使用。
  • 如果kswapd0进程持续处于非睡眠状态,且运行时间较长,可以初步判定系统在持续的进行换页操作,可以将问题转向内存不足的原因来排查。

  • 通过vmstat命令进一步查看系统虚拟内存的使用情况。如果si和so的值也比较高,说明系统存在频繁的换页操作,系统物理内存不足。
  • si:每秒从交换区写到内存的大小,由磁盘调入内存。
  • so:每秒写入交换区的内存大小,由内存调入磁盘。
  • 解决这个问题的方法包括:
  • 临时解决方案:在业务低峰期重启应用或系统来临时释放内存。
  • 长期解决方案:从根本上解决内存不足的问题,需要对服务器内存进行扩容,扩大内存空间。如果不具备扩容的条件,可通过优化应用程序,以及配置使用大页内存来进行缓解。


二、带宽使用率高问题的策略分析

对于带宽使用率高的问题,首先要区分是正常的业务需求还是非正常访问(如恶意攻击)。


排查工具

使用nethogs工具可以帮助实时监测各个进程的带宽使用情况。安装nethogs后,通过简单的命令即可监控指定网络接口的流量使用情况,定位高带宽使用的进程。


问题处理

一、正常业务导致的高带宽使用:如果是由于正常业务增长导致的带宽使用率高,应考虑升级服务器的网络带宽。
二、非正常访问导致的问题
  1. 执行以下命令,安装nethogs工具。

yum install nethogs -y

安装成功后可以通过netgos命令查看网络带宽的使用情况。

nethogs命令常用参数说明如下:

  • d:设置刷新的时间间隔,默认为 1s。
  • t:开启跟踪模式。
  • c:设置更新次数。
  • device:设置要监测的网卡,默认是eth0。

运行时可以输入以下参数完成相应的操作:

  • q:退出nethogs工具。
  • s:按发送流量大小的顺序排列进程列表。
  • r:按接收流量大小的顺序排列进程列表。
  • m:切换显示计量单位,切换顺序依次为KB/s、KB、B、MB。
  1. 执行以下命令,查看指定的网络端口每个进程的网络带宽使用情况。

nethogs eth1

回显参数说明如下:

  • PID:进程 ID。
  • USER:运行该进程的用户。
  • PROGRAM:进程或连接双方的IP地址和端口,前面是服务器的IP和端口,后面是客户端的IP和端口。
  • DEV:流量要去往的网络端口。
  • SENT:进程每秒发送的数据量。
  • RECEIVED:进程每秒接收的数据量。
  1. 如果确认大量占用网络带宽的进程是恶意进程,可以使用kill PID命令终止恶意进程。
  2. 针对特定IP的恶意访问,可以使用iptables对恶意IP进行屏蔽或限速。


最后:持续监控与优化

解决CPU和带宽使用率高的问题不是一蹴而就的,需要持续监控和及时调整。通过定期检查系统性能和使用情况,可以及时发现潜在问题并进行优化。

此外,利用工具如topnethogs能够帮助运维人员快速定位问题源头,而合适的处理策略则能够确保系统的稳定运行。


最后~欢迎关注我! @Linux学习的那些事儿

我的个人资源整理,满满都是干货: 无任何套路,有需要可以访问领取

200T免费资源专区,持续发布中...

如果本文对你有帮助,欢迎点赞、收藏、转发给朋友,让我有持续创作的动力!

相关文章
|
2月前
|
消息中间件 Java 应用服务中间件
我是如何通过火焰图分析让应用CPU占用下降近20%的
分享作者在使用Arthas火焰图工具进行Java应用性能分析和优化的经验。
|
2月前
|
缓存 运维 监控
CPU被打满/CPU 100%:高效应对策略与技术干货分享
【10月更文挑战第3天】在信息技术高速发展的今天,无论是开发人员、运维人员还是数据分析师,都可能遇到CPU被打满(即CPU使用率达到100%)的情况。这不仅会影响系统的响应速度,严重时甚至会导致服务中断。本文将从诊断、分析与解决三个方面,详细介绍处理CPU 100%问题的技术干货。
120 3
|
2月前
线程CPU异常定位分析
【10月更文挑战第3天】 开发过程中会出现一些CPU异常升高的问题,想要定位到具体的位置就需要一系列的分析,记录一些分析手段。
77 0
|
17天前
|
存储 缓存 监控
Docker容器性能调优的关键技巧,涵盖CPU、内存、网络及磁盘I/O的优化策略,结合实战案例,旨在帮助读者有效提升Docker容器的性能与稳定性。
本文介绍了Docker容器性能调优的关键技巧,涵盖CPU、内存、网络及磁盘I/O的优化策略,结合实战案例,旨在帮助读者有效提升Docker容器的性能与稳定性。
50 7
|
14天前
|
开发框架 .NET PHP
网站应用项目如何选择阿里云服务器实例规格+内存+CPU+带宽+操作系统等配置
对于使用阿里云服务器的搭建网站的用户来说,面对众多可选的实例规格和配置选项,我们应该如何做出最佳选择,以最大化业务效益并控制成本,成为大家比较关注的问题,如果实例、内存、CPU、带宽等配置选择不合适,可能会影响到自己业务在云服务器上的计算性能及后期运营状况,本文将详细解析企业在搭建网站应用项目时选购阿里云服务器应考虑的一些因素,以供参考。
|
28天前
|
缓存 监控 负载均衡
CPU占用率爆表:高效诊断与解决策略
面对CPU占用率飙升至100%的情况,系统管理员和开发人员需要迅速采取行动以避免性能瓶颈和系统崩溃。本文将提供一系列诊断和解决CPU占用过高问题的实用方法。
50 4
|
3月前
|
算法 Java 程序员
解锁Python高效之道:并发与异步在IO与CPU密集型任务中的精准打击策略!
在数据驱动时代,高效处理大规模数据和高并发请求至关重要。Python凭借其优雅的语法和强大的库支持,成为开发者首选。本文将介绍Python中的并发与异步编程,涵盖并发与异步的基本概念、IO密集型任务的并发策略、CPU密集型任务的并发策略以及异步IO的应用。通过具体示例,展示如何使用`concurrent.futures`、`asyncio`和`multiprocessing`等库提升程序性能,帮助开发者构建高效、可扩展的应用程序。
140 0
|
4月前
|
监控 Java Linux
CPU被打满/CPU 100%:高效诊断与优化策略
【8月更文挑战第28天】在日常的工作与学习中,遇到CPU使用率飙升至100%的情况时,往往意味着系统性能受到严重影响,甚至可能导致程序响应缓慢或系统崩溃。本文将围绕这一主题,分享一系列高效诊断与优化CPU使用的技术干货,帮助大家快速定位问题并恢复系统性能。
275 1
|
4月前
|
缓存 Linux 调度
Linux服务器如何查看CPU占用率、内存占用、带宽占用
Linux服务器如何查看CPU占用率、内存占用、带宽占用
1145 0
|
5月前
|
监控 算法 Java