生产故障复盘总结
故障发现
在2021年5月28日(上线次日)清晨6点,收到监控告警,磁盘已经达到90%使用率。
故障定位
- 排查磁盘大文件,占用率大的文件夹。
- 通过命令df -h 确定挂载根目录的文件夹占用率过高。
- 通过命令du -h 以及du -sh ,在应用用户xxxx拥有写权限的*/home/cloud* 以及*/home/logs* 中查看占用,发现用于存放xxl-job日志的文件夹占用很大。其中从5.21日开始,每天的日志磁盘占用有7GB,每个日期文件夹下,日志文件有2万多个。
- 查看日志
可以发现,即使是5.21日的日志,其仍然会被继续在5.28追加日志,日志内容如下:
<br>------- xxl-job callback fail, callbackResult:ReturnT [code=500], msg=xxl-rpc remoting fail, StatusCode(413) invalid. for url:xxx
- 判断xxl-job出现了问题,服务端调度中心在处理执行器回调时抛出异常。
- 查看调度中心日志
发现调度记录是一秒一次,和原先的配置不同,点开任务配置查看,任务执行周期的确发生了改变,修改者并不明确。
尝试修复
- 将执行周期配置从一秒一次更改回半小时一次。
修复失败,原先一直在新增日志的文件继续在刷日志,磁盘占用率继续快速提升。 - 申请操作权限的账号后,删除日志文件。
修复失败,会继续追加。 - 在xxl-job管理台中,手动中止进行中任务,并将任务阻塞处理策略从“单机串行”修改为“丢弃后续调度”。
有3000多条任务,无法手动批量中止。暂时放弃该方案的尝试。 - 根据错误提示,判断错误发生在执行器回调调度中心的过程,且发现xxl-job日志目录中还有一个callbackLog文件夹,其大小约为1.8 GB。将其删除,并在调度中心-调度日志-清理中,将全部日志数据全部清理。
完成修复,日志不再新增。
追踪原因
从源码角度追踪问题,在xxl-job v2.2.0中,回调部分如下:
// com.xxl.job.core.thread.TriggerCallbackThread#doCallback /** * do callback, will retry if error * @param callbackParamList */ private void doCallback(List<HandleCallbackParam> callbackParamList){ boolean callbackRet = false; // callback, will retry if error for (AdminBiz adminBiz: XxlJobExecutor.getAdminBizList()) { try { ReturnT<String> callbackResult = adminBiz.callback(callbackParamList); if (callbackResult!=null && ReturnT.SUCCESS_CODE == callbackResult.getCode()) { callbackLog(callbackParamList, "<br>----------- xxl-job job callback finish."); callbackRet = true; break; } else { callbackLog(callbackParamList, "<br>----------- xxl-job job callback fail, callbackResult:" + callbackResult); } } catch (Exception e) { callbackLog(callbackParamList, "<br>----------- xxl-job job callback error, errorMsg:" + e.getMessage()); } } if (!callbackRet) { appendFailCallbackFile(callbackParamList); } }
当回调任务失败时,就会一直重试,且不会停。
从代码中可以看到,下面这行代码输出的是根本原因:
callbackLog(callbackParamList, "<br>----------- xxl-job job callback fail, callbackResult:" + callbackResult);
继续查找其RPC调用失败日志:
// com.xxl.job.core.util.XxlJobRemotingUtil#postBody // valid StatusCode int statusCode = connection.getResponseCode(); if (statusCode != 200) { return new ReturnT<String>(ReturnT.FAIL_CODE, "xxl-rpc remoting fail, StatusCode("+ statusCode +") invalid. for url : " + url); }
根据HTTP CODE 413 定义可知,是上传的报文过大导致的。结合callbackLog文件的大小可知,的确是超过了限制。因此出现循环重试失败,并且打印日志的问题!
总结经验
- xxl-job作为开源工程,其活跃度已经较低,且在issue中存留较多问题,生产使用需谨慎。
- xxl-job任务配置时弄清任务阻塞处理策略,尽量不要使用单机串行。
- xxl-job上线后,用户密码上收,谨防他人错误修改。