Spark PruneDependency 依赖关系 RangePartitioner

简介: Spark PruneDependency 依赖关系 RangePartitionerRepresents a dependency between the PartitionPruningRDD and its parent.

Spark PruneDependency 依赖关系 RangePartitioner

  • Represents a dependency between the PartitionPruningRDD and its parent. In this
    case, the child RDD contains a subset of partitions of the parents’.

更多资源

youtub视频演示

输入数据

List(("a",2),("d",1),("b",8),("d",3)

处理程序scala


package com.opensource.bigdata.spark.local.rdd.operation.dependency.narrow.n_03_pruneDependency.n_02_filterByRange

import com.opensource.bigdata.spark.local.rdd.operation.base.BaseScalaSparkContext

object Run  extends BaseScalaSparkContext{

  def main(args: Array[String]): Unit = {

    val sc = pre()
    val rdd1 = sc.parallelize(List(("a",2),("d",1),("b",8),("d",3)),2)  //ParallelCollectionRDD
    val rdd1Sort = rdd1.sortByKey()   //ShuffleRDD
    val rdd2 =rdd1Sort.filterByRange("a","b")  //MapParttionsRDD

    println("rdd \n" + rdd2.collect().mkString("\n"))

    sc.stop()
  }

}


数据处理图

PruneDependency依赖关系图

RangePartitioner范围分区器

相关文章
|
2月前
|
存储 缓存 分布式计算
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
|
5月前
|
SQL 分布式计算 大数据
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
108 0
|
9月前
|
存储 缓存 分布式计算
Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化(二)
Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化(二)
|
9月前
|
存储 缓存 分布式计算
Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化(一)
Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化(一)
|
分布式计算 大数据 Scala
Spark 原理_逻辑图_窄依赖的分类_看源码 | 学习笔记
快速学习 Spark 原理_逻辑图_窄依赖的分类_看源码
68 0
Spark 原理_逻辑图_窄依赖的分类_看源码 | 学习笔记
|
分布式计算 大数据 Spark
Spark 原理_逻辑图_窄依赖的分类_分析 | 学习笔记
快速学习 Spark 原理_逻辑图_窄依赖的分类_分析
118 0
Spark 原理_逻辑图_窄依赖的分类_分析 | 学习笔记
|
分布式计算 大数据 Spark
Spark 原理_逻辑图_窄依赖_分析 | 学习笔记
快速学习 Spark 原理_逻辑图_窄依赖_分析
91 0
Spark 原理_逻辑图_窄依赖_分析 | 学习笔记
|
分布式计算 大数据 Spark
Spark 原理_逻辑图_窄依赖_案例 | 学习笔记
快速学习 Spark 原理_逻辑图_窄依赖_案例
67 0
Spark 原理_逻辑图_窄依赖_案例 | 学习笔记
|
分布式计算 大数据 Spark
Spark 原理_逻辑图_宽窄依赖判断 | 学习笔记
快速学习 Spark 原理_逻辑图_宽窄依赖判断
75 0
Spark 原理_逻辑图_宽窄依赖判断 | 学习笔记
|
分布式计算 算法 大数据
Spark - RangePartitioner rangeBounds 生成 源码分析 & 实践
本文主要探索RangePartitioner 源码中rangeBounds 的生成,rangeBounds 用于对 key 进行范围分区,通过源码可以学习到如何在分布式大数据下采样并获取近似均分的范围。
133 0
Spark - RangePartitioner rangeBounds 生成 源码分析 & 实践