CPU扛不住了-阿里云开发者社区

开发者社区> 通用行业开发部-郭振辉> 正文

CPU扛不住了

简介: 这是一篇根据生活编撰的一个小故事,讲述了一个比较少见的服务器问题——CPU利用率过高。文中包含了从CPU过高告警,到一步步定位到导致CPU过高的代码的追溯过程。 前面是故事,最后面是定位的总结,根据需要酌情使用。 声明:故事很小,如有雷同,纯属虚构。 原文链接:https://developer.aliyun.com/article/826467?spm=a2c6h.12873581.0.dArticle826467.1f535ba5VstHaU&groupCode=gts_whale
+关注继续查看

前言

这是一篇根据生活编撰的一个小故事,讲述了一个比较少见的服务器问题——CPU利用率过高。文中包含了从CPU过高告警,到一步步定位到导致CPU过高的代码的追溯过程。

前面是小故事,算是场景引入,如无兴趣可绕过从后记部分开始。郑重声明:故事很小,如有雷同,纯属虚构。


正文

“快看看,CPU利用率爆红了,看着要扛不住了!”小P打电话吼道,小P是服务器的监控。

“什么鬼?”,正准备睡觉的小码爬了起来,小码是系统的开发者。

“我一个没多少计算的应用服务怎么就扛不住了,一定是其他服务导致的!”小码嘀咕道。


开机!

登录VPN!

打开finalShell,ssh服务器一气呵成。

看着自己娴熟的操作,小码的嘴角漏出了一丝丝骄傲。

top # Linux系统下,可以查询当前正在运行任务,包含CPU利用率、内存等信息,类似于Windows任务管理器

啪,回车的声音依然清脆,仿佛在迎合着小码的自信。

“我丢@@@”CPU使用率排行第一个是一个Java应用,进程ID 136018,“不会吧...”,嘴角微微抖了一下。

ps -aux | grep xxx-manager.jar #说明:查询服务的进程,xxx-manager.jar是服务包名,端口也可

果然,136018!136018!136018... 通过多次仔细比对CPU利用率top1的进程号和自己服务的进程号,确定是小码负责的服务!小码后背一下凉了半截。

“赶快排查排查,趁服务还没宕机”

top -H -p 136018 #说明:-H开启线程模式,-p指定服务进程号

然后找到疯狂占用CPU的线程ID: 136086

printf %x 136086 #说明:此命令是将10进制转换为16进制,因为jstack中线程ID是16进制。136086转换后是0x21396

jcmd Thread.print > jstack.out # 说明:jcmd是jdk自带的分析工具,此命令会将当前jvm栈信息输出到jstack.out文件中。

最后,vim进入jstack.out文件,搜索0x21396,找到线程栈信息,就看到了业务代码。

业务伪代码

for(int i = 0; i < 65535, i++){

methodB(i)

}

void methodB(int i){

for(int j = 0 ; j < 10086; j++){

...

}

}


"这...",循环调用了一个方法methodB,该方法里面还有个循环,类似于循环嵌套循环。外层遍历次数6万+,嵌套循环次数1万+,MD这一个来回就是6亿多次。再看看接口调用方,是页面初始化加载...

“我......”,小码看着祖传代码陷入沉思,“难怪号称宇宙第一块的CPU都扛不住了”。


正在思考解决办法的时候...,“醒醒...小码!你电话响了!”,同事叫醒了呼呼大睡的小码。

看着午睡宝上面一滩口水,小码心里庆幸到:“哦,原来是一场梦啊!”。

“电话!小码!你的电话!!”

来不及去回味残余的一丝丝侥幸,小码赶快看了看手机:【13个未接来电,来自客户老总】。

“我丢@@@”,不会真扛不住了吧...


后记

本文通过一个小故事,讲述了一个比较少见的问题-CPU利用率过高的问题,包含了发现CPU过高告警,到找到导致CPU过高的代码的追溯过程。

定位步骤:

1.首先查看CPU高占用率的进程号,根据进程号查询CPU高占用率的线程ID,使用top命令。

2.快照当前服务端栈信息,线程ID转为16进制在栈信息文件里查找对应线程栈,即可找到导致CPU疯狂飙升的代码了。

3.然后根据需要,进行业务或者算法上面的调整优化。

最后

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

作者高分内容
更多
CPU扛不住了 694
相关文章
使用NAT网关轻松为单台云服务器设置多个公网IP
在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。 具体如何操作呢,有了NAT网关这个也不是难题。
26746 0
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
9594 0
阿里云服务器ECS远程登录用户名密码查询方法
阿里云服务器ECS远程连接登录输入用户名和密码,阿里云没有默认密码,如果购买时没设置需要先重置实例密码,Windows用户名是administrator,Linux账号是root,阿小云来详细说下阿里云服务器远程登录连接用户名和密码查询方法
11305 0
windows server 2008阿里云ECS服务器安全设置
最近我们Sinesafe安全公司在为客户使用阿里云ecs服务器做安全的过程中,发现服务器基础安全性都没有做。为了为站长们提供更加有效的安全基础解决方案,我们Sinesafe将对阿里云服务器win2008 系统进行基础安全部署实战过程! 比较重要的几部分 1.
9079 0
阿里云服务器如何登录?阿里云服务器的三种登录方法
购买阿里云ECS云服务器后如何登录?场景不同,阿里云优惠总结大概有三种登录方式: 登录到ECS云服务器控制台 在ECS云服务器控制台用户可以更改密码、更换系.
13304 0
阿里云服务器ECS登录用户名是什么?系统不同默认账号也不同
阿里云服务器Windows系统默认用户名administrator,Linux镜像服务器用户名root
4109 0
阿里云ECS云服务器初始化设置教程方法
阿里云ECS云服务器初始化是指将云服务器系统恢复到最初状态的过程,阿里云的服务器初始化是通过更换系统盘来实现的,是免费的,阿里云百科网分享服务器初始化教程: 服务器初始化教程方法 本文的服务器初始化是指将ECS云服务器系统恢复到最初状态,服务器中的数据也会被清空,所以初始化之前一定要先备份好。
7017 0
+关注
通用行业开发部-郭振辉
浩鲸智能-郑州研发中心
2
文章
0
问答
作者高分内容
更多
CPU扛不住了 694
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载