线上服务器CPU100%的真相排查【Bug利器Arthas】

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 这起CPU100%的事故,由某个客户演示的bug暴露出来,气氛比较尴尬....
今日下午,因给业务部门演示一个小功能点的使用,由于该功能数据异常未能达到预期效果,而终止了演示,并且叫开发人员进行数据的可靠性进行自查,同时回到工位后的我也打开了电脑去查看数据,发现数据并未被定时跑批或是跑批终止,于是上线拉取关键日志,原定15分钟定时执行的任务,却并没有执行。难道是定时任务出问题了?

项目背景

由于是单体应用部署多个节点,并没有使用XXL-JOB这种,为了控制定时任务多节点只能一次执行,采用了SchedulerLock的方式(基于分布式锁)来实现定时任务的执行。

一开始怀疑Redis分布式锁出现了死锁问题,导致定时任务无法抢占到锁资源,没有执行定时任务,但在我观察了分布式锁后,发现并没有问题,而且这个方案已经上线2个多月,如果有问题早发生了。此时我观察了下生产2台服务器的CPU,均达到了100%,此时我知道大概率是代码存在死循环了,为了搞清真相,开始排查问题原因。

这里我采用2种方式去排查

  • jstack命令(网上非常多的吹牛案例均采用此方案)
  • Arthas工具(阿里开源诊断工具)

定时任务代码如下,此处代码并无问题

    /**
     * 潜客分配每15分钟执行一次
     *
     * lockAtMostFor:最长释放时间
     * lockAtLeastFor:拥有锁的最小时间
     */
    @Scheduled(cron = "0 0/15 * * * ?")
    @SchedulerLock(name = "startDistribution", lockAtMostFor = "20M", lockAtLeastFor = "12M")
    public void startDistribution() throws Exception {
        log.info("【分配潜客名单】开始执行");
        //业务代码
        log.info("【分配潜客名单】执行结束");
    }

Jstack排查

  1. 使用top命令观察CPU占用高的进程
    image.png
  2. 根据进程ID进一步查看占用线程

    # 命令:top -H -p PID
    $ top -H -p 1379
  3. 将线程ID转换为16进制串输出(用于抓取线程ID堆栈信息)

    # 命令 printf "%x\n" 线程ID 
    $ printf "%x\n" 1449
    5a9
  4. 使用jstack命令抓取堆栈信息(利用16进制)

    # 命令:jstack 进程ID | grep 线程ID16进制 -A行数
    $ jstack 1379 | grep 5a9 -A90

    输出结果:

    [tfuser@web01 root]$ jstack 1379 | grep 5a9 -A90
    "Job-Thread-3" #29 prio=5 os_prio=0 tid=0x00007f6ec6aee000 nid=0x5a9 runnable   [0x00007f6e351f5000]
       java.lang.Thread.State: RUNNABLE
        at  com.tifang.market.service.impl.MarketWeightServiceImpl.startDistribution(MarketWeightServiceImpl.java:154)
        at com.tifang.market.service.impl.MarketWeightServiceImpl$$FastClassBySpringCGLIB$$3b5113e6.invoke(<generated>)
        at org.springframework.cglib.proxy.MethodProxy.invoke(MethodProxy.java:218)
        at org.springframework.aop.framework.CglibAopProxy$DynamicAdvisedInterceptor.intercept(CglibAopProxy.java:684)
        at com.tifang.market.service.impl.MarketWeightServiceImpl$$EnhancerBySpringCGLIB$$53eb6d9c.startDistribution(<generate
        at com.tifang.core.quartz.MarketWeightTask.startDistribution(MarketWeightTask.java:62)
        at com.tifang.core.quartz.MarketWeightTask$$FastClassBySpringCGLIB$$d4f16575.invoke(<generated>)
        at org.springframework.cglib.proxy.MethodProxy.invoke(MethodProxy.java:218)
        at org.springframework.aop.framework.CglibAopProxy$CglibMethodInvocation.invokeJoinpoint(CglibAopProxy.java:749)
        at org.springframework.aop.framework.ReflectiveMethodInvocation.proceed(ReflectiveMethodInvocation.java:163)
        at net.javacrumbs.shedlock.spring.aop.MethodProxyScheduledLockAdvisor$LockingInterceptor$$Lambda$806/1180241420.call(U
        at net.javacrumbs.shedlock.core.DefaultLockingTaskExecutor.executeWithLock(DefaultLockingTaskExecutor.java:73)
        at net.javacrumbs.shedlock.spring.aop.MethodProxyScheduledLockAdvisor$LockingInterceptor.invoke(MethodProxyScheduledLo
        at org.springframework.aop.framework.ReflectiveMethodInvocation.proceed(ReflectiveMethodInvocation.java:186)
        at org.springframework.aop.framework.CglibAopProxy$DynamicAdvisedInterceptor.intercept(CglibAopProxy.java:688)
        at com.tifang.core.quartz.MarketWeightTask$$EnhancerBySpringCGLIB$$cceb1e7a.startDistribution(<generated>)
        at sun.reflect.GeneratedMethodAccessor3355.invoke(Unknown Source)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.springframework.scheduling.support.ScheduledMethodRunnable.run(ScheduledMethodRunnable.java:84)

到此,我们已经获取到了详细的信息,此时我们应该转场到Java代码中去查看该行代码...
其实代码中俨然已经存在了问题,不知道大家能不能一眼看出,接下来我们再用神器Arthas来排查

阿里Arthas

阿里Arthas号称Bug排查神器,功能非常强大,此文我不做过多介绍,后续有时间单独拎一篇文章对其详细讲解。这里,我只用到了2个命令就能定位到错误问题代码位置。

  1. 在服务器上下载arthas-boot.jar

    $ wget https://arthas.gitee.io/arthas-boot.jar
  2. 授予执行权限

    $ chmod 777 ./arthas-boot.jar
  3. 使用生产服务采用同一用户启动arthas,并选择对应的生产服务

    $ java -jar arthas-boot.jar
    [INFO] arthas-boot version: 3.3.9
    [INFO] Found existing java process, please choose one and input the serial number of the process, eg : 1. Then hit ENTER
    * 1: 1944 /data/app/tfteacher/tfteacher.jar
      2: 8349 /data/app/tfoaserver/tfoaserver.jar
  4. 选择对应的生产服务,这里我需要调试第二个java服务,所以我输入2,接下来会进入到arthas的用户进程命令中

    2
    [INFO] local lastest version: 3.3.9, remote lastest version: 3.4.0, try to download from remote.
    [INFO] Start download arthas from remote server:   https://arthas.aliyun.com/download/3.4.0?mirror=aliyun
    [INFO] Download arthas success.
    [INFO] arthas home: /home/tfuser/.arthas/lib/3.4.0/arthas
    [INFO] Try to attach process 8349
    [INFO] Attach process 8349 success.
    [INFO] arthas-client connect 127.0.0.1 3658
      ,---.  ,------. ,--------.,--.  ,--.  ,---.   ,---.                           
     /  O  \ |  .--. ''--.  .--'|  '--'  | /  O  \ '   .-'                          
    |  .-.  ||  '--'.'   |  |   |  .--.  ||  .-.  |`.  `-.                          
    |  | |  ||  |\  \    |  |   |  |  |  ||  | |  |.-'    |                         
    `--' `--'`--' '--'   `--'   `--'  `--'`--' `--'`-----'                          
    
    wiki      https://arthas.aliyun.com/doc                                         
    tutorials https://arthas.aliyun.com/doc/arthas-tutorials.html                   
    version   3.4.0                                                                 
    pid       8349                                                                  
    time      2020-09-03 21:09:41                                                   
    
    [arthas@8349]$  //此处的用户发生变化,变为了arthas

    重点来了,这里我输入thread来查看当前服务的线程情况

    [arthas@8349]$ thread

    image.png

    可以看到,上图ID为22的线程,占用着99%的CPU资源,并且已经持续运行654分钟,太吓人了,10多个小时了

    此处可以输入很多命令, 详见arthas教程
  5. 打印出线程ID为22的详细信息,看看究竟干了什么见不得人的事

    [arthas@8349]$ thread 22
    "Job-Thread-1" Id=22 RUNNABLE
      at com.tifang.market.service.impl.MarketWeightServiceImpl.startDistribution(MarketWeightServiceImpl.java:154)
      at com.tifang.market.service.impl.MarketWeightServiceImpl$$FastClassBySpringCGLIB$$3b5113e6.invoke(<generated>)
      at org.springframework.cglib.proxy.MethodProxy.invoke(MethodProxy.java:218)
      at org.springframework.aop.framework.CglibAopProxy$DynamicAdvisedInterceptor.intercept(CglibAopProxy.java:684)
      at com.tifang.market.service.impl.MarketWeightServiceImpl$$EnhancerBySpringCGLIB$$48c8daec.startDistribution(<generated>)
      at com.tifang.core.quartz.MarketWeightTask.startDistribution(MarketWeightTask.java:62)
      at com.tifang.core.quartz.MarketWeightTask$$FastClassBySpringCGLIB$$d4f16575.invoke(<generated>)
      at org.springframework.cglib.proxy.MethodProxy.invoke(MethodProxy.java:218)

    image.png

    再结合日志文件进行排查,但只有开始日志,没有结束日志,日志抓取输出如下:

    $ grep -A 20 -B 10 -i "分配潜客名单】" info.log

    该项目是10:00~22:00执行,每15分钟执行一次,初步估计10:45是该节点第一次获取到redis任务锁,第一次执行,在进入到方法后进行了死循环,导致一直没有打印结束日志

  6. 到此,我们继续回到项目代码中,找到MarketWeightServiceImpl的154行

    一般造成CPU过高的原因大多数是死循环,通过这个思路,其实我们可以看出,假定业务逻辑没有问题的情况下,这里的单break并不能跳出双层循环

  7. 问题定位到了,改造代码
    image.png
  8. 提交至master,通过jenkins再次发布生产环境通过观察生产环境的CPU,未再次发现问题,业务正常运转

总结

以上只是使用arthas最基础的功能进行线上问题排查,arthas还有很多功能强大的指令供我们使用。在没有arthas之前,我们只能使用jvm提供的指令进行排查,过程复杂很容易错过生产事故的第一现场,arthas的出现极大的提升问题排查的效率,但arthas也有不足的地方,对于tomcat的web服务监听似乎就比较局限了。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
3月前
|
存储 固态存储 安全
阿里云4核CPU云服务器价格参考,最新收费标准和活动价格
阿里云4核CPU云服务器多少钱?阿里云服务器核数是指虚拟出来的CPU处理器的核心数量,准确来讲应该是vCPU。CPU核心数的大小代表了云服务器的运算能力,CPU越高,云服务器的性能越好。阿里云服务器1核CPU就是一个超线程,2核CPU2个超线程,4核CPU4个超线程,这样云服务器可以同时处理多个任务,计算性能更强。如果网站流程较小,少量图片展示的企业网站,建议选择2核及以上CPU;如果网站流量较大,动态页面比较多,有视频等,建议选择4核、8核以上CPU。
阿里云4核CPU云服务器价格参考,最新收费标准和活动价格
|
3天前
|
SQL 存储 缓存
什么?部署ClickHouse的服务器CPU利用率100%了?
什么?部署ClickHouse的服务器CPU利用率100%了?
|
23天前
|
Linux
查看服务器的配置,系统,cpu等信息
查看服务器的配置,系统,cpu等信息
39 8
|
20天前
|
弹性计算 运维 Linux
云服务器 ECS产品使用问题之幻兽帕鲁服务器远程连接无法连通该如何排查
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
23天前
|
缓存 Linux 虚拟化
linux 查看服务器cpu 与内存配置
linux 查看服务器cpu 与内存配置
48 4
|
20天前
|
弹性计算 Linux 云计算
云服务器 ECS产品使用问题之未部署成功该如何进行排查
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
20天前
|
弹性计算 运维 定位技术
云服务器 ECS产品使用问题之通义灵码不稳定、反复出现回答超时,该如何排查?
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
23天前
|
存储 弹性计算 固态存储
阿里云服务器CPU内存配置怎么选?ECS实例规格有啥区别?
阿里云服务器配置选择需考虑ECS实例规格、CPU内存、公网带宽与系统盘。个人开发者或中小企业推荐轻量应用服务器或ECS经济型e实例(2核2G3M带宽,99元/年),适合搭建低流量网站。企业用户应选择企业级独享型如通用算力型u1、计算型c7或通用型g7实例,至少2核4G内存起,推荐5M公网带宽以平衡成本与性能。系统盘推荐ESSD云盘以获得更好的性能。更多详情及链接参见原文。
40 3
|
25天前
|
存储 弹性计算 程序员
新手程序员如何阿里云服务器配置?新人开发者CPU内存带宽存储怎么选?
对于新手开发者、个人或学生选择阿里云服务器,推荐ECS经济型e实例(ecs.e-c1m1.large),适用于小型网站或轻量应用。配置2核2G内存、3M固定带宽、40G ESSD系统盘,仅99元/年且续费同价。
|
17天前
|
弹性计算 固态存储 ice
阿里云服务器2核16G、4核32G、8核64G配置不同ECS实例规格收费标准和CPU性能差异
2024年阿里云提供2核16G、4核32G及8核64G等多种服务器配置,用户可根据需求选择不同实例规格如内存型r8i、通用算力型u1等。以华北2(北京)为例,2核16G月费从286.2至385.99元不等;4核32G为572.4至771.97元;8核64G则在1144.8至1543.94元区间。公网带宽与系统盘(如ESSD云盘)亦有多样化选择与价格方案。长期租赁可享折扣,具体价格请访问阿里云官网确认。
43 7