磁盘占用高生产故障复盘总结

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 磁盘占用高生产故障复盘总结

生产故障复盘总结

故障发现

在2021年5月28日(上线次日)清晨6点,收到监控告警,磁盘已经达到90%使用率。

故障定位

  1. 排查磁盘大文件,占用率大的文件夹。
  • 通过命令df -h 确定挂载根目录的文件夹占用率过高。
  • 通过命令du -h 以及du -sh ,在应用用户xxxx拥有写权限的*/home/cloud* 以及*/home/logs* 中查看占用,发现用于存放xxl-job日志的文件夹占用很大。其中从5.21日开始,每天的日志磁盘占用有7GB,每个日期文件夹下,日志文件有2万多个。
  1. 查看日志
    可以发现,即使是5.21日的日志,其仍然会被继续在5.28追加日志,日志内容如下:
<br>------- xxl-job callback fail, callbackResult:ReturnT [code=500], msg=xxl-rpc remoting fail, StatusCode(413) invalid. for url:xxx
  1. 判断xxl-job出现了问题,服务端调度中心在处理执行器回调时抛出异常。
  2. 查看调度中心日志
    发现调度记录是一秒一次,和原先的配置不同,点开任务配置查看,任务执行周期的确发生了改变,修改者并不明确。

尝试修复

  1. 将执行周期配置从一秒一次更改回半小时一次。
    修复失败,原先一直在新增日志的文件继续在刷日志,磁盘占用率继续快速提升。
  2. 申请操作权限的账号后,删除日志文件。
    修复失败,会继续追加。
  3. 在xxl-job管理台中,手动中止进行中任务,并将任务阻塞处理策略从“单机串行”修改为“丢弃后续调度”。
    有3000多条任务,无法手动批量中止。暂时放弃该方案的尝试。
  4. 根据错误提示,判断错误发生在执行器回调调度中心的过程,且发现xxl-job日志目录中还有一个callbackLog文件夹,其大小约为1.8 GB。将其删除,并在调度中心-调度日志-清理中,将全部日志数据全部清理。
    完成修复,日志不再新增。

追踪原因

从源码角度追踪问题,在xxl-job v2.2.0中,回调部分如下:

// com.xxl.job.core.thread.TriggerCallbackThread#doCallback
    /**
     * do callback, will retry if error
     * @param callbackParamList
     */
    private void doCallback(List<HandleCallbackParam> callbackParamList){
        boolean callbackRet = false;
        // callback, will retry if error
        for (AdminBiz adminBiz: XxlJobExecutor.getAdminBizList()) {
            try {
                ReturnT<String> callbackResult = adminBiz.callback(callbackParamList);
                if (callbackResult!=null && ReturnT.SUCCESS_CODE == callbackResult.getCode()) {
                    callbackLog(callbackParamList, "<br>----------- xxl-job job callback finish.");
                    callbackRet = true;
                    break;
                } else {
                    callbackLog(callbackParamList, "<br>----------- xxl-job job callback fail, callbackResult:" + callbackResult);
                }
            } catch (Exception e) {
                callbackLog(callbackParamList, "<br>----------- xxl-job job callback error, errorMsg:" + e.getMessage());
            }
        }
        if (!callbackRet) {
            appendFailCallbackFile(callbackParamList);
        }
    }

当回调任务失败时,就会一直重试,且不会停。

从代码中可以看到,下面这行代码输出的是根本原因:

callbackLog(callbackParamList, "<br>----------- xxl-job job callback fail, callbackResult:" + callbackResult);

继续查找其RPC调用失败日志:

// com.xxl.job.core.util.XxlJobRemotingUtil#postBody
            // valid StatusCode
            int statusCode = connection.getResponseCode();
            if (statusCode != 200) {
                return new ReturnT<String>(ReturnT.FAIL_CODE, "xxl-rpc remoting fail, StatusCode("+ statusCode +") invalid. for url : " + url);
            }

根据HTTP CODE 413 定义可知,是上传的报文过大导致的。结合callbackLog文件的大小可知,的确是超过了限制。因此出现循环重试失败,并且打印日志的问题!

总结经验

  1. xxl-job作为开源工程,其活跃度已经较低,且在issue中存留较多问题,生产使用需谨慎。
  2. xxl-job任务配置时弄清任务阻塞处理策略,尽量不要使用单机串行。
  3. xxl-job上线后,用户密码上收,谨防他人错误修改。
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
6月前
|
缓存 Linux
kswapd0内存过高排查经历
kswapd0内存过高排查经历
436 1
|
4月前
|
缓存 Java Linux
开发与运维内存问题之线上遇到故障,使用jstat命令发现Old区持续增长如何解决
开发与运维内存问题之线上遇到故障,使用jstat命令发现Old区持续增长如何解决
46 2
|
4月前
|
Java BI 运维
开发与运维配置问题之升级机器配置后出现频繁的GC问题和超长的GC时间如何解决
开发与运维配置问题之升级机器配置后出现频繁的GC问题和超长的GC时间如何解决
35 1
|
6月前
|
存储 缓存 Java
线上机器 swap 过高导致告警
线上机器 swap 过高导致告警
|
6月前
|
运维 Kubernetes Docker
k8s运维—系统磁盘资源占用率过高
k8s运维—系统磁盘资源占用率过高
138 0
|
监控 固态存储
Backblaze发布2022 Q3 硬盘故障质量报告
随着Q3质量报告的发布,我们继续解读质量报告,重点关注Q3质量的表现,以及SSD的故障率是否出现较大的波动,特别是在NAND寿命磨穿以后,会不会有故障飙升。
|
存储 缓存 API
案例23-服务出现频繁掉线情况
服务出现频繁掉线情况
238 0
|
缓存 监控 算法
案例20-内存长期占用导致系统慢
内存长期占用导致系统慢
|
SQL Arthas 存储
再一次生产 CPU 高负载排查实践
前几日早上打开邮箱收到一封监控报警邮件:某某 ip 服务器 CPU 负载较高,请研发尽快排查解决,发送时间正好是凌晨。 其实早在去年我也处理过类似的问题,并记录下来:《一次生产 CPU 100% 排查优化实践》 不过本次问题产生的原因却和上次不太一样,大家可以接着往下看。
|
Java Linux
线上故障快速定位及恢复(上)
线上故障快速定位及恢复(上)
229 0
线上故障快速定位及恢复(上)