【小家java】记录Java守护线程使用时因忽略细节,导致的一个线上问题的排查过程(守护线程异常退出)

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
日志服务 SLS,月写入数据量 50GB 1个月
简介: 【小家java】记录Java守护线程使用时因忽略细节,导致的一个线上问题的排查过程(守护线程异常退出)

前言


记得我在之前某一篇博文里讲到过一个案例:使用java的守护线程来模拟redis缓存的过期时间设定。


然后线程这个也是老生常谈的一个问题,守护线程也不陌生,在Jvm里就有大量的守护线程的使用。然后本文主要记录一下我在工作中使用守护线程完成业务逻辑,忽略了一点从而导致一个线上问题,进而记录排查这个过程:


基础知识:【小家java】Java里的进程、线程、协程 、Thread、守护线程、join线程的总结


业务背景


业务背景为一个供需关系模型:老师和学生


模型相当于:老师和学生都在指定一段时间里向系统签到,然后我们应用会定期的(比如20s一次)的把学生和老师撮合在一起,然后经过我们的黑匣子算法进行供需匹配,进而组成一个班级。


然后本场景的重点就在于这个每隔20s撮合一次。针对这个模型,我一下子想到的是两种方案:


  • 方案一:被动式。也就是借助调度系统,设置一个定时器被动的、盲目的每20s就去老师、学生签到队列里看一次。有就都拿出来然后经过算法组班即可。

显然,该方法有它的优势,那就是简单粗暴的处理得非常的简单,也非常容易理解。但是弊端也很明显:主动扫描我们发现绝大部分请求可能都是浪费掉了的,1%利用上的可能都不到,会消耗掉系统大量的资源。比如我们只能全天扫,20s扫一次,说实话是个非常非常大的量了。

倘若你还记录一些请求日志之类的,我相信它会对你跟踪对应系统别的功能的日志信息带来极其的不便。而且这种频率的日志输出,也给网络流量、以及磁盘IO带来了不小的负担~


  • 方案二:主动式。顾名思义,就是我有学生了主动告知你,然后你来个倒计时20s就去触发对应的组班动作即可。倘若在这20s期间有其余同学进来,那也会被一起成班嘛,这就是我们最希望的效果。


这种方式的优势:刚好就是弥补了上一种方式的不足,不用频繁的去耗费系统资源了,处理起来也更加的优雅。但是,它的实现方式就会稍微麻烦点,有两个最大的痛点吧。

第一:就是第一个人临界情况,需要考虑并发性。

第二:倒计时怎么倒?然后倒计时到了又怎么样触发对应的动作呢?

可能有人会想到,可以借助MQ中间件的延迟队列功能来做。

答:我也想过,但奈何那时候我们的技术栈还是ActiveMQ,显然是不支持的。另外说一句:即使MQ有延迟队列这样的功能,但一般MQ的官方都说了,如果是些重要的、敏感的数据,不推荐使用。


最终,我采用的是JDK的延迟队列+守护线程的方式去实现


实现方式


废话少说,show me the code(伪代码如下):

  private static final DelayQueue<RoomDelayer> CATEGORY_QUEUE = new DelayQueue<>();
    /**
     * 给处理器赋值 启动守护线程
     */
    @PostConstruct
    public void postConstruct() {
        setOperLong = redisTemplate.opsForSet();
        valueOperLong = redisTemplate.opsForValue();
        hashOperLongInt = redisTemplate.opsForHash();
        //启用一个守护线程 去监听延迟队列执行任务
        Thread t = new Thread(() -> {
            while (true) {
                RoomDelayer roomDelayer = null;
                try {
                    roomDelayer = CATEGORY_QUEUE.take();
                } catch (Exception e) {
                    log.error("take出错了", e);
                }
                if (roomDelayer == null) {
                    continue;
                }
                //获取到延迟的任务后  交给service去执行任务
                Integer configType = roomDelayer.getConfigType();
                Long courseId = roomDelayer.getCourseId();
                Long startTime = roomDelayer.getStartTime();
                Long lessonId = roomDelayer.getLessonId();
                String key = genRoomCategoryStuKey(configType, courseId, startTime, lessonId);
                try {
                    log.info("延迟队列[" + key + "]执行start...");
                    pullQueueDataPersistRoom(configType, courseId, startTime, lessonId);
                    log.info("延迟队列[" + key + "]执行end...");
                } catch (Exception e) {
                    //处理一下,万一获取锁等待超时了,导致队列丢失的问题
                    if (e instanceof RedisLockException) { //若是获取锁超时的异常 那就放进去 等待下次继续尝试
                        long execTimeAt = addEleIntoDelayQueue(configType, courseId, startTime, lessonId);
                        log.warn("因为获取执行锁超时,补贴一个延迟队列元素,信息如下: {} {} {} {} 执行时间为:{}", configType,
                                courseId, startTime, lessonId, DateUtils.date2Str(new Date(execTimeAt)));
                    } else {
                        log.info("延迟队列持久化的时候报错,key为 " + key, e);
                    }
                }
                try {
                    TimeUnit.SECONDS.sleep(1);
                } catch (InterruptedException e) {
                    log.error("sleep出错了", e);
                }
            }
        });
        t.setName("daemon thread for CATEGORY_QUEUE");
        t.setDaemon(true);
        t.start();
    }


咋一看,这个应该是没有问题的。但是昨晚,我们的reids出问题了,导致我经常获取不到连接,有不少的报错。

然后到第二天,我在监控日志,发现守护线程竟然没有动静了,所以猜测是死翘翘了。


问题查找


找同事协助用jmx连上这台机器看看:如下图


image.png


再看另外一台(服务是好使的,守护线程正常):


image.png


发现这台机器的守护线程很正常的运行着。这符合我表面上看到的现象,那到底是怎么回事呢?导致线程就这么退出了?


刚开始怀疑是不是可能是内存溢出、或者内存漏洞、或者线程其它原因。所以我们尝试这看了dump日志,把日志文件down下来,本地分析。

结果为:没有找到任何名称为此的线程相关信息~


定位到原因


最后,我想。守护线程再怎么说也是个线程啊,如果执行过程中抛出异常,那就会退出线程了。然后我分析了日志,根据线程名去找该下城下的报错:


grep "daemon thread for CATEGORY_QUEUE] ERROR" /opt/g


果然找到了:


image.png


然后跟踪代码,本以为自己都给try住了,但是还是有一失误啊。


image.png


解决方案


该解决方案也是以后各位使用守护线程一定一定要注意必须做的一个方案:最外层用try包裹住,防止里面一切可能出现但又忘记了的运行时异常发生,从而终止了守护线程。那就影响非常之大了

伪代码如下:

 //启用一个守护线程 去监听延迟队列执行任务
Thread t = new Thread(() -> {
    while (true) {
          try {
             // 在这里面书写你的最核心逻辑。。。。里面抛出任何异常,我都不怕了
          } catch (Exception e) {
              log.error("daemon thread for CATEGORY_QUEUE 执行失败", e);
          }
      }
    });


总结


没什么好总结的,一句话:当你使用守护线程去处理逻辑,而必须确保此守护线程不能退出时,请无比使用try,不允许任何异常抛出~来终止守护线程即可


image.png


相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore &nbsp; &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
16天前
|
监控 Java
java异步判断线程池所有任务是否执行完
通过上述步骤,您可以在Java中实现异步判断线程池所有任务是否执行完毕。这种方法使用了 `CompletionService`来监控任务的完成情况,并通过一个独立线程异步检查所有任务的执行状态。这种设计不仅简洁高效,还能确保在大量任务处理时程序的稳定性和可维护性。希望本文能为您的开发工作提供实用的指导和帮助。
74 17
|
27天前
|
Java
Java—多线程实现生产消费者
本文介绍了多线程实现生产消费者模式的三个版本。Version1包含四个类:`Producer`(生产者)、`Consumer`(消费者)、`Resource`(公共资源)和`TestMain`(测试类)。通过`synchronized`和`wait/notify`机制控制线程同步,但存在多个生产者或消费者时可能出现多次生产和消费的问题。 Version2将`if`改为`while`,解决了多次生产和消费的问题,但仍可能因`notify()`随机唤醒线程而导致死锁。因此,引入了`notifyAll()`来唤醒所有等待线程,但这会带来性能问题。
Java—多线程实现生产消费者
|
12天前
|
缓存 安全 算法
Java 多线程 面试题
Java 多线程 相关基础面试题
|
29天前
|
安全 Java Kotlin
Java多线程——synchronized、volatile 保障可见性
Java多线程中,`synchronized` 和 `volatile` 关键字用于保障可见性。`synchronized` 保证原子性、可见性和有序性,通过锁机制确保线程安全;`volatile` 仅保证可见性和有序性,不保证原子性。代码示例展示了如何使用 `synchronized` 和 `volatile` 解决主线程无法感知子线程修改共享变量的问题。总结:`volatile` 确保不同线程对共享变量操作的可见性,使一个线程修改后,其他线程能立即看到最新值。
|
29天前
|
消息中间件 缓存 安全
Java多线程是什么
Java多线程简介:本文介绍了Java中常见的线程池类型,包括`newCachedThreadPool`(适用于短期异步任务)、`newFixedThreadPool`(适用于固定数量的长期任务)、`newScheduledThreadPool`(支持定时和周期性任务)以及`newSingleThreadExecutor`(保证任务顺序执行)。同时,文章还讲解了Java中的锁机制,如`synchronized`关键字、CAS操作及其实现方式,并详细描述了可重入锁`ReentrantLock`和读写锁`ReadWriteLock`的工作原理与应用场景。
|
29天前
|
安全 Java 编译器
深入理解Java中synchronized三种使用方式:助您写出线程安全的代码
`synchronized` 是 Java 中的关键字,用于实现线程同步,确保多个线程互斥访问共享资源。它通过内置的监视器锁机制,防止多个线程同时执行被 `synchronized` 修饰的方法或代码块。`synchronized` 可以修饰非静态方法、静态方法和代码块,分别锁定实例对象、类对象或指定的对象。其底层原理基于 JVM 的指令和对象的监视器,JDK 1.6 后引入了偏向锁、轻量级锁等优化措施,提高了性能。
57 3
|
29天前
|
存储 安全 Java
Java多线程编程秘籍:各种方案一网打尽,不要错过!
Java 中实现多线程的方式主要有四种:继承 Thread 类、实现 Runnable 接口、实现 Callable 接口和使用线程池。每种方式各有优缺点,适用于不同的场景。继承 Thread 类最简单,实现 Runnable 接口更灵活,Callable 接口支持返回结果,线程池则便于管理和复用线程。实际应用中可根据需求选择合适的方式。此外,还介绍了多线程相关的常见面试问题及答案,涵盖线程概念、线程安全、线程池等知识点。
160 2
|
1月前
|
安全 Java API
java如何请求接口然后终止某个线程
通过本文的介绍,您应该能够理解如何在Java中请求接口并根据返回结果终止某个线程。合理使用标志位或 `interrupt`方法可以确保线程的安全终止,而处理好网络请求中的各种异常情况,可以提高程序的稳定性和可靠性。
53 6
|
1月前
|
安全 算法 Java
Java多线程编程中的陷阱与最佳实践####
本文探讨了Java多线程编程中常见的陷阱,并介绍了如何通过最佳实践来避免这些问题。我们将从基础概念入手,逐步深入到具体的代码示例,帮助开发者更好地理解和应用多线程技术。无论是初学者还是有经验的开发者,都能从中获得有价值的见解和建议。 ####
|
1月前
|
Java 调度
Java中的多线程编程与并发控制
本文深入探讨了Java编程语言中多线程编程的基础知识和并发控制机制。文章首先介绍了多线程的基本概念,包括线程的定义、生命周期以及在Java中创建和管理线程的方法。接着,详细讲解了Java提供的同步机制,如synchronized关键字、wait()和notify()方法等,以及如何通过这些机制实现线程间的协调与通信。最后,本文还讨论了一些常见的并发问题,例如死锁、竞态条件等,并提供了相应的解决策略。
66 3

热门文章

最新文章