【揭秘】ForkJoinPool全面解析

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: ForkJoinPool是Java中的并行计算框架,其优点在于能够高效利用多核处理器资源,它采用分治策略将大任务拆分成小任务,通过工作窃取算法平衡负载,从而实现任务的并行执行和快速完成,此外,ForkJoinPool还提供了简洁的API和丰富的任务控制机制,支撑开发人员开发高效的并行代码。

【揭秘】ForkJoinPool全面解析 - 程序员古德

文章摘要

ForkJoinPool是Java中的并行计算框架,其优点在于能够高效利用多核处理器资源,它采用分治策略将大任务拆分成小任务,通过工作窃取算法平衡负载,从而实现任务的并行执行和快速完成,此外,ForkJoinPool还提供了简洁的API和丰富的任务控制机制,支撑开发人员开发高效的并行代码。

核心概念

ForkJoinPool 是 Java 并发包 java.util.concurrent 中的一个类,它主要用于解决可以通过分治策略(Divide-and-Conquer)来并行处理的问题,这类问题通常可以被分解为更小的子问题,子问题和原问题在结构上相同或类似,只不过规模不同,通过递归地将问题分解为更小的部分,ForkJoinPool 可以利用多核处理器并行地处理这些子问题,然后再将结果合并起来,从而高效地解决问题。

ForkJoinPool 的主要特点包括:

  1. 工作窃取算法(Work-Stealing Algorithm):当一个线程完成了自己的任务后,它可以从其他线程的任务队列中“窃取”任务来执行,这有助于平衡负载和提高处理器的利用率。
  2. 递归分解与合并:非常适合处理可以递归分解的问题,如排序、搜索、数值计算等,开发者需要实现 ForkJoinTask 接口(通常使用它的子类 RecursiveAction 用于无返回值的任务,或使用 RecursiveTask 用于有返回值的任务)来定义问题的分解和结果的合并。
  3. 非阻塞设计:使用内部队列来管理任务,避免了使用锁或其他同步机制,从而减少了线程间的竞争和阻塞。
  4. 并行度控制:允许开发者控制并行执行的线程数量,可以根据处理器的核心数来优化性能。

ForkJoinPool 适用于那些可以自然分解为多个独立子任务,并且这些子任务之间不需要太多通信或同步的问题,常见的使用场景包括并行数组处理(如排序、过滤、映射)、并行集合处理(如归约操作)、科学计算中的并行算法(如矩阵乘法、快速傅里叶变换)等。

代码案例

import java.util.concurrent.ForkJoinPool;  
import java.util.concurrent.RecursiveAction;  

public class ForkJoinSumCalculator {
   
     

    public static void main(String[] args) {
   
     
        // 定义一个需要求和的数组  
        int[] numbers = {
   
   1, 2, 3, 4, 5, 6, 7, 8, 9, 10};  

        // 创建一个ForkJoinPool实例,它将使用可用的所有处理器  
        ForkJoinPool pool = new ForkJoinPool();  

        // 创建一个ForkJoinTask来执行求和操作  
        SumTask task = new SumTask(numbers, 0, numbers.length);  

        // 提交任务到ForkJoinPool并等待它的完成  
        pool.invoke(task);  

        // 输出最终求和结果  
        System.out.println("Sum of all numbers: " + task.getSum());  

        // 关闭ForkJoinPool(虽然在这个例子中它并不是严格必要的,因为程序即将退出)  
        pool.shutdown();  
    }  

    // 定义一个继承自RecursiveAction的任务类  
    static class SumTask extends RecursiveAction {
   
     
        private static final long serialVersionUID = 1L;  

        // 阈值,当数组长度小于这个值时,直接计算结果而不再拆分  
        private static final int THRESHOLD = 5;  

        private int[] numbers;  
        private int startIndex;  
        private int endIndex;  
        private int sum; // 存储子数组的和  

        public SumTask(int[] numbers, int startIndex, int endIndex) {
   
     
            this.numbers = numbers;  
            this.startIndex = startIndex;  
            this.endIndex = endIndex;  
        }  

        // 获取当前任务计算的和  
        public int getSum() {
   
     
            return sum;  
        }  

        @Override  
        protected void compute() {
   
     
            // 如果任务足够小,直接计算  
            if (endIndex - startIndex <= THRESHOLD) {
   
     
                sum = calculateDirectly();  
            } else {
   
     
                // 否则,拆分任务  
                int middleIndex = startIndex + (endIndex - startIndex) / 2;  
                SumTask leftTask = new SumTask(numbers, startIndex, middleIndex);  
                SumTask rightTask = new SumTask(numbers, middleIndex, endIndex);  

                // 递归执行任务  
                invokeAll(leftTask, rightTask);  

                // 合并结果  
                sum = leftTask.getSum() + rightTask.getSum();  
            }  
        }  

        // 直接计算子数组的和  
        private int calculateDirectly() {
   
     
            int localSum = 0;  
            for (int i = startIndex; i < endIndex; i++) {
   
     
                localSum += numbers[i];  
            }  
            return localSum;  
        }  
    }  
}

在上面代码中,SumTask类有一个sum字段来存储计算的和,以及一个getSum方法来检索它,在compute方法中,如果任务的大小超过阈值,任务将被拆分为两个子任务,并且递归地执行,然后,将子任务的结果合并以计算总和,如果任务的大小小于或等于阈值,将直接计算子数组的和。

核心API

ForkJoinPool 提供了一个框架,用于将大任务分解成小任务,然后并行地执行这些小任务,最后再将结果合并起来,它提供的方法主要涉及到任务的提交、执行、管理和配置等方面,下面是一些常用方法的简要说明。

构造方法

  1. ForkJoinPool(): 创建一个默认并行级别的 ForkJoinPool,通常使用可用的处理器数量作为并行级别。
  2. ForkJoinPool(int parallelism): 创建一个具有指定并行级别的 ForkJoinPool

任务提交

  1. invoke(ForkJoinTask<?> task): 同步执行指定的任务,并等待其完成。

  2. submit(ForkJoinTask<?> task): 异步提交一个任务以供执行,并返回一个表示该任务的 Future

  3. execute(ForkJoinTask<?> task): 安排一个任务的执行,但不等待其完成。

任务管理

  1. awaitQuiescence(long timeout, TimeUnit unit): 等待所有任务完成执行,或者直到超时。
  2. shutdown(): 可能启动有序关闭,在该过程中执行现有任务但不接受新任务。
  3. shutdownNow(): 试图停止所有正在执行的活动任务,暂停处理正在等待的任务,并返回等待执行的任务列表。
  4. isShutdown(): 如果此池已关闭或正在关闭,则返回 true
  5. isTerminated(): 如果关闭后所有任务都已完成,则返回 true
  6. awaitTermination(long timeout, TimeUnit unit): 请求关闭并等待所有任务完成执行,或者直到超时。

获取任务结果

  1. 对于 RecursiveTask(有返回值的任务),通常会在调用任务的 join 方法时获取任务结果。

配置和状态

  1. getParallelism(): 返回此 ForkJoinPool 的并行级别。
  2. getPoolSize(): 返回此 ForkJoinPool 中的活动线程估计数。
  3. getActiveThreadCount(): 返回此 ForkJoinPool 中当前活动的线程数。
  4. getRunningThreadCount(): 返回此 ForkJoinPool 中正在运行任务的线程数。
  5. getQueuedTaskCount(): 返回此 ForkJoinPool 工作队列中待处理的任务数估计值。
  6. getStealCount(): 返回从此 ForkJoinPool 中成功窃取的任务数估计值。

核心总结

【揭秘】ForkJoinPool全面解析 - 程序员古德

ForkJoinPool是Java并行计算的利器,其优点在于能高效地将大任务拆成小任务,通过工作窃取机制充分利用多核处理器,加速任务执行,但它也有缺点,比如任务划分不均可能导致部分处理器闲置,且更适合计算密集型而非IO密集型任务,使用时,建议合理划分任务,保持任务均衡,同时注意异常处理和线程资源管理。

关注我,每天学习互联网编程技术 - 程序员古德

相关文章
|
5月前
|
存储 缓存 安全
(八)深入并发之Runnable、Callable、FutureTask及CompletableFuture原理分析
关于Runnable、Callable接口大家可能在最开始学习Java多线程编程时,都曾学习过一个概念:在Java中创建多线程的方式有三种:继承Thread类、实现Runnable接口以及实现Callable接口。但是实则不然,真正创建多线程的方式只有一种:继承Thread类,因为只有`new Thread().start()`这种方式才能真正的映射一条OS的内核线程执行,而关于实现Runnable接口以及实现Callable接口创建出的Runnable、Callable对象在我看来只能姑且被称为“多线程任务”,因为无论是Runnable对象还是Callable对象,最终执行都要交由Threa
|
缓存 Java 调度
优雅的自定义 ThreadPoolExecutor 线程池
优雅的自定义 ThreadPoolExecutor 线程池
|
Java
ExecutorService、Callable、Future实现有返回结果的多线程原理解析
ExecutorService、Callable、Future实现有返回结果的多线程原理解析
76 0
|
安全 Java
Java并发 之 线程池系列 (2) 使用ThreadPoolExecutor构造线程池
Java并发 之 线程池系列 (2) 使用ThreadPoolExecutor构造线程池
192 0
Java并发 之 线程池系列 (2) 使用ThreadPoolExecutor构造线程池
|
分布式计算 Java 大数据
ForkJoinPool线程池
ForkJoinPool线程池
|
消息中间件 安全 搜索推荐
【小家java】Java线程池之---ForkJoinPool线程池的使用以及原理(下)
【小家java】Java线程池之---ForkJoinPool线程池的使用以及原理(下)
【小家java】Java线程池之---ForkJoinPool线程池的使用以及原理(下)
|
存储 缓存 安全
Executor - 一文搞懂 ThreadPoolExecutor 与 BlockingQueue
ThreadPool 是 java 的一种多线程处理方式,和前面提到了 RedisPool 类似,即通过一个 pool 批量管理,ThreadPool 管理线程,RedisPool 管理 Jedis 连接。下面主要介绍 ThreadPool 的参数含义,BlockingQueue 的几种类型以及 Executors 下 newCachedThreadPool、newFixedThreadPool、newSingleThreadPool 以及 newScheduleThreadPool 的使用与不同。....
201 0
Executor - 一文搞懂 ThreadPoolExecutor 与 BlockingQueue
|
缓存 Java API
如何优雅的自定义ThreadPoolExecutor 线程池
java 中经常需要用到多线程来处理一些业务,非常不建议单纯使用继承Thread或者实现Runnable接口的方式来创建线程,那样势必有创建及销毁线程耗费资源、线程上下文切换问题。同时创建过多的线程也可能引发资源耗尽的风险,这个时候引入线程池比较合理,方便线程任务的管理
1119 0
|
算法 Java
【小家java】Java线程池之---ForkJoinPool线程池的使用以及原理(中)
【小家java】Java线程池之---ForkJoinPool线程池的使用以及原理(中)
【小家java】Java线程池之---ForkJoinPool线程池的使用以及原理(中)