磁盘占用高生产故障复盘总结

简介: 磁盘占用高生产故障复盘总结

生产故障复盘总结

故障发现

在2021年5月28日(上线次日)清晨6点,收到监控告警,磁盘已经达到90%使用率。

故障定位

  1. 排查磁盘大文件,占用率大的文件夹。
  • 通过命令df -h 确定挂载根目录的文件夹占用率过高。
  • 通过命令du -h 以及du -sh ,在应用用户xxxx拥有写权限的*/home/cloud* 以及*/home/logs* 中查看占用,发现用于存放xxl-job日志的文件夹占用很大。其中从5.21日开始,每天的日志磁盘占用有7GB,每个日期文件夹下,日志文件有2万多个。
  1. 查看日志
    可以发现,即使是5.21日的日志,其仍然会被继续在5.28追加日志,日志内容如下:
<br>------- xxl-job callback fail, callbackResult:ReturnT [code=500], msg=xxl-rpc remoting fail, StatusCode(413) invalid. for url:xxx
  1. 判断xxl-job出现了问题,服务端调度中心在处理执行器回调时抛出异常。
  2. 查看调度中心日志
    发现调度记录是一秒一次,和原先的配置不同,点开任务配置查看,任务执行周期的确发生了改变,修改者并不明确。

尝试修复

  1. 将执行周期配置从一秒一次更改回半小时一次。
    修复失败,原先一直在新增日志的文件继续在刷日志,磁盘占用率继续快速提升。
  2. 申请操作权限的账号后,删除日志文件。
    修复失败,会继续追加。
  3. 在xxl-job管理台中,手动中止进行中任务,并将任务阻塞处理策略从“单机串行”修改为“丢弃后续调度”。
    有3000多条任务,无法手动批量中止。暂时放弃该方案的尝试。
  4. 根据错误提示,判断错误发生在执行器回调调度中心的过程,且发现xxl-job日志目录中还有一个callbackLog文件夹,其大小约为1.8 GB。将其删除,并在调度中心-调度日志-清理中,将全部日志数据全部清理。
    完成修复,日志不再新增。

追踪原因

从源码角度追踪问题,在xxl-job v2.2.0中,回调部分如下:

// com.xxl.job.core.thread.TriggerCallbackThread#doCallback
    /**
     * do callback, will retry if error
     * @param callbackParamList
     */
    private void doCallback(List<HandleCallbackParam> callbackParamList){
        boolean callbackRet = false;
        // callback, will retry if error
        for (AdminBiz adminBiz: XxlJobExecutor.getAdminBizList()) {
            try {
                ReturnT<String> callbackResult = adminBiz.callback(callbackParamList);
                if (callbackResult!=null && ReturnT.SUCCESS_CODE == callbackResult.getCode()) {
                    callbackLog(callbackParamList, "<br>----------- xxl-job job callback finish.");
                    callbackRet = true;
                    break;
                } else {
                    callbackLog(callbackParamList, "<br>----------- xxl-job job callback fail, callbackResult:" + callbackResult);
                }
            } catch (Exception e) {
                callbackLog(callbackParamList, "<br>----------- xxl-job job callback error, errorMsg:" + e.getMessage());
            }
        }
        if (!callbackRet) {
            appendFailCallbackFile(callbackParamList);
        }
    }

当回调任务失败时,就会一直重试,且不会停。

从代码中可以看到,下面这行代码输出的是根本原因:

callbackLog(callbackParamList, "<br>----------- xxl-job job callback fail, callbackResult:" + callbackResult);

继续查找其RPC调用失败日志:

// com.xxl.job.core.util.XxlJobRemotingUtil#postBody
            // valid StatusCode
            int statusCode = connection.getResponseCode();
            if (statusCode != 200) {
                return new ReturnT<String>(ReturnT.FAIL_CODE, "xxl-rpc remoting fail, StatusCode("+ statusCode +") invalid. for url : " + url);
            }

根据HTTP CODE 413 定义可知,是上传的报文过大导致的。结合callbackLog文件的大小可知,的确是超过了限制。因此出现循环重试失败,并且打印日志的问题!

总结经验

  1. xxl-job作为开源工程,其活跃度已经较低,且在issue中存留较多问题,生产使用需谨慎。
  2. xxl-job任务配置时弄清任务阻塞处理策略,尽量不要使用单机串行。
  3. xxl-job上线后,用户密码上收,谨防他人错误修改。
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
2月前
|
缓存 Linux
kswapd0内存过高排查经历
kswapd0内存过高排查经历
20 1
|
2月前
|
存储 缓存 Java
线上机器 swap 过高导致告警
线上机器 swap 过高导致告警
|
10月前
|
存储 缓存 API
案例23-服务出现频繁掉线情况
服务出现频繁掉线情况
174 0
|
10月前
|
缓存 监控 算法
案例20-内存长期占用导致系统慢
内存长期占用导致系统慢
|
10月前
|
Java
项目实战20—内存长期占用导致系统缓慢
项目实战20—内存长期占用导致系统缓慢
69 0
|
监控 固态存储
Backblaze发布2022 Q3 硬盘故障质量报告
随着Q3质量报告的发布,我们继续解读质量报告,重点关注Q3质量的表现,以及SSD的故障率是否出现较大的波动,特别是在NAND寿命磨穿以后,会不会有故障飙升。
|
SQL Arthas 存储
再一次生产 CPU 高负载排查实践
前几日早上打开邮箱收到一封监控报警邮件:某某 ip 服务器 CPU 负载较高,请研发尽快排查解决,发送时间正好是凌晨。 其实早在去年我也处理过类似的问题,并记录下来:《一次生产 CPU 100% 排查优化实践》 不过本次问题产生的原因却和上次不太一样,大家可以接着往下看。
|
运维 Java
线上故障快速定位及恢复(下)
线上故障快速定位及恢复(下)
156 0
线上故障快速定位及恢复(下)
|
Java Linux
线上故障快速定位及恢复(上)
线上故障快速定位及恢复(上)
189 0
线上故障快速定位及恢复(上)
|
JSON 运维 网络协议
平稳运行半年的系统宕机了,记录一次排错调优的全过程!
最近发生了一件很让人头疼的事情,已经上线半年且平稳运行半年系统在年后早高峰的使用时发生了濒临宕机的情况。访问速度特别慢,后台查到大量time_wait的连接,从代码层面到架构层面到网络层面排查了几天几夜,总算是有了结果。