开发者学堂课程【大数据Spark2020最新课程(知识精讲与实战演练)第二阶段:RDD 算子_数字型的支持】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/689/detail/11986
RDD 算子_数字型的支持
内容介绍
一、前言
二、实例讲解
一、前言
前面简单了解了 RDD 对 KV 类型数据的支持,其实 RDD 对数字型数据也有额外的支持。 count 是进行一个数的计算, count 也存在普通类型的数据上。 count 、 mean 、 sum 、max 、 min 、 variance、 sampleVariance 、 stdev 、sampleStdev ,这些算子都是对数字类型的特殊支持。
二、实例讲解
接下来通过本节内容,让大家理解对数字类型的特殊计算。让我们进入代码编写。前面提到的算子,它们有一个共同的特点,它们都是 Action ,所以把它们放在 ActionO p 类中。
创建方法,创建 RDD ,确定元素,求最大值、最小值、均值、总数,Spark 有一个缺陷,即没有求中位数的算法。然后运行程序,查看结果。具体代码如下:
@Test
def numberic(): Unit = {
val rdd = sc.parallelize(Seq(1,2,3,4,10,20,30,50,100))
println(rdd.max())
println(rdd.min())
println(rdd.mean())
println(rdd.sum())
}
这是整个 Spark 对数字类型的特殊支持,其实有一点需要大家注意,这些支持不止举例的这几种,还有其他的操作也是,比如说 Spark 还支持求方差、标准差等计算。
另外,这些对数字类型的支持都是 Action ,是可以直接求出结果的。