你以为的Bug VS 实际的Bug
我遇到过的很多问题,不能在第一时间定位到故障原因,主要是因为出现了问题以后现场被破坏导致,导致这个问题的主要原因是1、由于不好定位或者是因为生产系统要快速恢复运营,系统马上被重启了;2、自以为需要的资料已经采集全了,快速重启了系统3、由于日志打印不全,认为已经没有有价值的材料可以收集了,快速重启系统。其实现代系统已经在HA方面做了很多工作。在出现问题的情况下,只要系统整体能够提供服务的情况下,没必要马上进行重启,大部分异常情况下是可以通过引流和隔离的方式,将流量引入正常节点,为排查和分析过程留下更多的分析时间。般情况下,我们需要采集的资料包括但不限于:应用日志、im线程和内存的dump文件(每10-30秒截取一次,建议截取3次),中间件、数据库日志、cpu、物理内存、网络带宽、磁盘io等。
赞8
踩0