大数据Spark RDD 函数 1

2023-09-16 114

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 大数据Spark RDD 函数

1 函数分类

有一定开发经验的读者应该都使用过多线程，利用多核 CPU 的并行能力来加快运算速率。在开发并行程序时，可以利用类似 Fork/Join 的框架将一个大的任务切分成细小的任务，每个小任务模块之间是相互独立的，可以并行执行，然后将所有小任务的结果汇总起来，得到最终的结果。一个非常好的例子便是归并排序。对整个序列进行排序时，可以将序列切分成多个子序列进行排序，然后将排好序的子序列归并起来得到最终的结果。

对 Hadoop 有所了解的读者都知道 map、reduce 操作。对于大量的数据，我们可以通过map 操作让不同的集群节点并行计算，之后通过 reduce 操作将结果整合起来得到最终输出。

对于 Spark 处理的大量数据而言，会将数据切分后放入RDD作为Spark 的基本数据结构，开发者可以在 RDD 上进行丰富的操作，之后 Spark 会根据操作调度集群资源进行计算。总结起来，RDD 的操作主要可以分为 Transformation 和 Action 两种。

官方文档：http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-operations

RDD中操作（函数、算子）分为两类：

1）、Transformation转换操作：返回一个新的RDD

which create a new dataset from an existing one

所有Transformation函数都是Lazy，不会立即执行，需要Action函数触发

2）、Action动作操作：返回值不是RDD(无返回值或返回其他的)

which return a value to the driver program after running a computation on the datase

所有Action函数立即执行（Eager），比如count、first、collect、take等

此外注意RDD中函数细节：

第一点：RDD不实际存储真正要计算的数据，而是记录了数据的位置在哪里，数据的转换关系(调用了什么方法，传入什么函数)；

第二点：RDD中的所有转换都是惰性求值/延迟执行的，也就是说并不会直接计算。只有当发生一个要求返回结果给Driver的Action动作时，这些转换才会真正运行。之所以使用惰性求值/

延迟执行，是因为这样可以在Action时对RDD操作形成DAG有向无环图进行Stage的划分和并行优化，这种设计让Spark更加有效率地运行。

2 Transformation函数

在Spark中Transformation操作表示将一个RDD通过一系列操作变为另一个RDD的过程，这个操作可能是简单的加减操作，也可能是某个函数或某一系列函数。值得注意的是Transformation操作并不会触发真正的计算，只会建立RDD间的关系图。

如下图所示，RDD内部每个方框是一个分区。假设需要采样50%的数据，通过sample函数，从 V1、V2、U1、U2、U3、U4 采样出数据 V1、U1 和 U4，形成新的RDD。

常用Transformation转换函数，加上底色为重要函数，重点讲解常使用函数：

3 Action函数

不同于Transformation操作，Action操作代表一次计算的结束，不再产生新的 RDD，将结果返回到Driver程序或者输出到外部。所以Transformation操作只是建立计算关系，而Action 操作才是实际的执行者。每个Action操作都会调用SparkContext的runJob 方法向集群正式提交请求，所以每个Action操作对应一个Job。常用Action执行函数，加上底色为重要函数，后续重点讲解。

4 重要函数

RDD中包含很多函数，主要可以分为两类：Transformation转换函数和Action函数。

主要常见使用函数如下，一一通过演示范例讲解。

4.1 基本函数

RDD中map、filter、flatMap及foreach等函数为最基本函数，都是都RDD中每个元素进行操作，将元素传递到函数中进行转换。

map 函数：

map(f:T=>U) : RDD[T]=>RDD[U]，表示将 RDD 经由某一函数 f 后，转变为另一个RDD。

flatMap 函数：

flatMap(f:T=>Seq[U]) : RDD[T]=>RDD[U])，表示将 RDD 经由某一函数 f 后，转变为一

个新的 RDD，但是与 map 不同，RDD 中的每一个元素会被映射成新的 0 到多个元素

（f 函数返回的是一个序列 Seq）。

filter 函数：

filter(f:T=>Bool) : RDD[T]=>RDD[T]，表示将 RDD 经由某一函数 f 后，只保留 f 返回

为 true 的数据，组成新的 RDD。

foreach 函数：

foreach(func)，将函数 func 应用在数据集的每一个元素上，通常用于更新一个累加器，或者和外部存储系统进行交互，例如 Redis。关于 foreach，在后续章节中还会使用，到时会详细介绍它的使用方法及注意事项。

saveAsTextFile 函数：

saveAsTextFile(path:String)，数据集内部的元素会调用其 toString 方法，转换为字符串形式，然后根据传入的路径保存成文本文件，既可以是本地文件系统，也可以是HDFS 等。上述函数基本上都使用过，在后续的案例中继续使用，此处不再单独演示案例。

4.2 分区操作函数

每个RDD由多分区组成的，实际开发建议对每个分区数据的进行操作，map函数使用mapPartitions代替、foreache函数使用foreachPartition代替。

针对词频统计WordCount代码进行修改，针对分区数据操作，范例代码如下

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext, TaskContext}
/**
 * 分区操作函数：mapPartitions和foreachPartition
 */
object SparkIterTest {
  def main(args: Array[String]): Unit = {
    // 创建应用程序入口SparkContext实例对象
    val sc: SparkContext = {
      // 1.a 创建SparkConf对象，设置应用的配置信息
      val sparkConf: SparkConf = new SparkConf()
        .setAppName(this.getClass.getSimpleName.stripSuffix("$"))
        .setMaster("local[2]")
      // 1.b 传递SparkConf对象，构建Context实例
      new SparkContext(sparkConf)
    }
    sc.setLogLevel("WARN")
    // TODO: 1、从文件系统加载数据，创建RDD数据集
    val inputRDD: RDD[String] = sc.textFile("datas/wordcount/wordcount.data", minPartitions = 2)
    // TODO: 2、处理数据，调用RDD集合中函数（类比于Scala集合类中列表List）
    /*
    def mapPartitions[U: ClassTag](
    f: Iterator[T] => Iterator[U],
    preservesPartitioning: Boolean = false
    ): RDD[U]
    */
    val wordcountsRDD: RDD[(String, Int)] = inputRDD
      // 将每行数据按照分隔符进行分割，将数据扁平化
      .flatMap(line => line.trim.split("\\s+"))
      // TODO: 针对每个分区数据操作
      .mapPartitions { iter =>
        // iter 表示RDD中每个分区中的数据，存储在迭代器中，相当于列表List
        iter.map(word => (word, 1))
      }
      // 按照Key聚合统计, 先按照Key分组，再聚合统计（此函数局部聚合，再进行全局聚合）
      .reduceByKey((a, b) => a + b)
    // TODO: 3、输出结果RDD到本地文件系统
    wordcountsRDD.foreachPartition { datas =>
      // 获取各个分区ID
      val partitionId: Int = TaskContext.getPartitionId()
      // val xx: Iterator[(String, Int)] = datas
      datas.foreach { case (word, count) =>
        println(s"p-${partitionId}: word = $word, count = $count")
      }
    }
    // 应用程序运行结束，关闭资源
    sc.stop()
  }
}

为什么要对分区操作，而不是对每个数据操作，好处在哪里呢？？？

应用场景：处理网站日志数据，数据量为10GB，统计各个省份PV和UV。

假设10GB日志数据，从HDFS上读取的，此时RDD的分区数目：80 分区；

但是分析PV和UV有多少条数据：34，存储在80个分区中，实际项目中降低分区数目，比
如设置为2个分区。
.

4.3 重分区函数

如何对RDD中分区数目进行调整（增加分区或减少分区），在RDD函数中主要有如下三个函数。

1）、增加分区函数

函数名称：repartition，此函数使用的谨慎，会产生Shuffle。

2）、减少分区函数

函数名称：coalesce，此函数不会产生Shuffle，当且仅当降低RDD分区数目。
比如RDD的分区数目为10个分区，此时调用rdd.coalesce(12)，不会对RDD进行任何操作。

3）、调整分区函数

在PairRDDFunctions（此类专门针对RDD中数据类型为KeyValue对提供函数）工具类中
partitionBy函数：

范例演示代码，适当使用函数调整RDD分区数目：

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
/**
 * RDD中分区函数，调整RDD分区数目，可以增加分区和减少分区
 */
object SparkPartitionTest {
  def main(args: Array[String]): Unit = {
    // 创建应用程序入口SparkContext实例对象
    val sc: SparkContext = {
      // 1.a 创建SparkConf对象，设置应用的配置信息
      val sparkConf: SparkConf = new SparkConf()
        .setAppName(this.getClass.getSimpleName.stripSuffix("$"))
        .setMaster("local[2]")
      // 1.b 传递SparkConf对象，构建Context实例
      new SparkContext(sparkConf)
    }
    sc.setLogLevel("WARN")
    // 读取本地文件系统文本文件数据
    val datasRDD: RDD[String] = sc.textFile("datas/wordcount/wordcount.data", minPartitions = 2)
    // TODO: 增加RDD分区数
    val etlRDD: RDD[String] = datasRDD.repartition(3)
    println(s"EtlRDD 分区数目 = ${etlRDD.getNumPartitions}")
    // 词频统计
    val resultRDD: RDD[(String, Int)] = etlRDD
      // 数据分析，考虑过滤脏数据
      .filter(line => null != line && line.trim.length > 0)
      // 分割单词，注意去除左右空格
      .flatMap(line => line.trim.split("\\s+"))
      // 转换为二元组，表示单词出现一次
      .mapPartitions { iter =>
        iter.map(word => (word, 1))
      }
      // 分组聚合，按照Key单词
      .reduceByKey((tmp, item) => tmp + item)
    // 输出结果RDD
    resultRDD
      // TODO: 对结果RDD降低分区数目
      .coalesce(1)
      .foreachPartition(iter => iter.foreach(println))
    // 应用程序运行结束，关闭资源
    sc.stop()
  }
}

在实际开发中，什么时候适当调整RDD的分区数目呢？让程序性能更好好呢？？？？

第一点：增加分区数目

当处理的数据很多的时候，可以考虑增加RDD的分区数目

第二点：减少分区数目

其一：当对RDD数据进行过滤操作（filter函数）后，考虑是否降低RDD分区数目

其二：当对结果RDD存储到外部系统

大数据Spark RDD 函数 1

1 函数分类

2 Transformation函数

3 Action函数

4 重要函数

4.1 基本函数

4.2 分区操作函数

4.3 重分区函数

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

大数据Spark RDD 函数 1

1 函数分类

2 Transformation函数

3 Action函数

4 重要函数

4.1 基本函数

4.2 分区操作函数

4.3 重分区函数

热门文章

最新文章

相关课程

相关电子书

相关实验场景