Parallel中分区器Partitioner的简单使用

简介: Partitioner.Create(1,10,4).GetDynamicPartitions()为长度为10的序列创建分区,每个分区至多4个元素,分区方法及结果:Partitioner.
Partitioner.Create(1,10,4).GetDynamicPartitions()
为长度为10的序列创建分区,每个分区至多4个元素,分区方法及结果:Partitioner.Create(0, 10, 4).GetDynamicPartitions()
得到3个前闭后开区间: [0, 4)即{0, 1, 2, 3}, [4, 8)即{4, 5, 6, 7}, [8, 10)即{8, 9},  注意被枚举的数字均为数组下标
为长度为10的序列创建分区,至多4个分区,分区方法及结果: Partitioner.Create(0, 10, 3).GetDynamicPartitions()
得到4个前闭后开区间: [0,3)即{0, 1, 2}, [3, 6)即{3, 4, 5}, [6, 9)即{6, 7, 8}, [9, 10)即{9}, 注意被枚举的数字均为数组下标
定义分区个数 = 定义并发线程(笔者这样讲并不严格), 故定义方法如下:
private static void NewMethod<T>(IList<T> array, Int32 rangeCount) {
    var rangeSize = (Int32)Math.Ceiling(array.Count / (Double)rangeCount);
    var part = Partitioner.Create(0, array.Count, rangeSize);
    Parallel.ForEach(part, (range, state, rangeIndex) => {
        for (Int32 index = range.Item1; index < range.Item2; index++) {
            Console.WriteLine("[{0,2}] {1} {2}", Thread.CurrentThread.ManagedThreadId, rangeIndex, index);
        }
    });
}
对于分区个数定义为3, 可以看到线程ID 在1,3,4中切换, 线程[1]遍历了4个元素, 线程[3]遍历了4个元素, 线程[4]遍历了2个元素
对于分区个数定义为4, 可以看到线程ID 在1, 3, 4, 5中切换, 线程[1]遍历了3个元素, 线程[3]遍历了3个元素, 线程[4]遍历了3个元素, 线程5遍历了1个元素.
目录
相关文章
|
分布式计算
29 MAPREDUCE中的分区Partitioner
29 MAPREDUCE中的分区Partitioner
80 0
|
6月前
|
分布式计算
MapReduce【自定义分区Partitioner】
MapReduce【自定义分区Partitioner】
|
分布式计算 Spark
Spark 中的 Rebalance 操作以及与Repartition操作的区别
Spark 中的 Rebalance 操作以及与Repartition操作的区别
922 0
|
分布式计算 并行计算 Spark
|
缓存 分布式计算 Hadoop
Partitioner与自定义Partitioner
Partitioner与自定义Partitioner
76 0
|
存储 分布式计算 Hadoop
Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中,设置自定义Partitioner、Partition 分区案例
Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中,设置自定义Partitioner、Partition 分区案例
Hadoop中的MapReduce框架原理、Shuffle机制、Partition分区、自定义Partitioner步骤、在Job驱动中,设置自定义Partitioner、Partition 分区案例
|
分布式计算 算法 大数据
Spark - RangePartitioner rangeBounds 生成 源码分析 & 实践
本文主要探索RangePartitioner 源码中rangeBounds 的生成,rangeBounds 用于对 key 进行范围分区,通过源码可以学习到如何在分布式大数据下采样并获取近似均分的范围。
201 0
Spark - RangePartitioner rangeBounds 生成 源码分析 & 实践
|
存储 分布式计算 Scala
Spark - 一文搞懂 Partitioner
spark 处理 RDD 时提供了 foreachPartition 和 mapPartition 的方法对 partition 进行处理,一个 partition 内可能包含一个文件或者多个文件的内容,Partitioner 可以基于 pairRDD 的 key 实现自定义partition 的内容。
311 0
Spark - 一文搞懂 Partitioner
|
存储 SQL JSON
Spark - Task 与 Partition 一一对应与参数详解
使用 spark 读取 parquet 文件,共有 M个 parquet 文件,于是启动了 PExecutor x QCores 进行如下 WordCount 代码测试,其中 P x Q = M 即 Core 数目与 parquet 文件数一一对应。
631 0
Spark - Task 与 Partition 一一对应与参数详解
|
SQL 分布式计算 IDE
Spark AQE中的CoalesceShufflePartitions和OptimizeLocalShuffleReader
Spark AQE中的CoalesceShufflePartitions和OptimizeLocalShuffleReader
446 0
Spark AQE中的CoalesceShufflePartitions和OptimizeLocalShuffleReader