Spark4：RDD实例-阿里云开发者社区

Spark4：RDD实例

2023-11-13 63

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Spark4：RDD实例

一、词频统计实例

读文件

拍扁

二、键值对RDD

1.创建键值对RDD

①加载数据

scala> val lines =sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")
scala>val pairRDD = lines.flatMap(line=>line.split(" ")).map(word=>(word,1))

②并行数据

val list=List("Hadoop","Spark","Hive","Spark")
val rdd=sc.parallelize(list)
val pairRDD = rdd.map(word => (word,1))

2.键值对RDD转换操作

①reduceByKey(func)

使用func函数合并具有相同键的值

pairRDD.reduceByKey((a,b)=>a+b).foreach(println)

②groupByKey()

对具有相同键的值进行分组

pairRDD.groupByKey()

两者的区别

groupByKey只做分组，

(key,value-list)不会进行汇总求和；

而reduceByKey更进一步，

value-list进行汇总求和。

实例

③map

将RDD中每一个元素依次取出遍历

val wordCountsWithGroup = wordPairsRDD.groupByKey().map(t=>(t._1,t._2.sum))

④keys

把Pair RDD中的key返回形成一个新的RDD

pairRDD.keys
pairRDD,keys.foreach(println)

⑤values

把Pair RDD中的value返回形成一个新的RDD

用法和上面的一样

⑥sortByKey

返回一个根据键排序的RDD

默认是升序

⑦mapValues(func)

对键值对RDD中的每个value都应用一个函数，key不会发生变化。

⑧join

连接RDD中key相同的元素

实例

求月均销量

rdd,mapValues(x=>(x,1)).
reduceByKey((x,y)=>(x._1+y._1,x._2+y._2)).
mapValues(x=>(x._1/x._2)).
collect()

三、RDD数据读写

惰性机制，即使输入错误的语句也不会马上报错

写文件

textFile.saveAsTextFile(“目录”)

读文件

val textFile=sc.textFile(“目录”)

json字符串

四、文件排序

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner
object FileSort {
  def main(args: Array[String]{
    val conf = new SparkConf().setAppName("FileSort")
    val sc = new SparkContext(conf)
    val dataFile = "file:///usr/local/spark/mycode/rdd/data"
    val lines = sc.textFile(dataFile,3)
    var index = 0
    val result = lines.filter(_.trim(.length>0).map(n=>(n.trim.toInt,"")).partitionBy(newHashPartitioner(1)).sortByKeyo.map(t =>{
         index += 1
       (index,t._1)
     })
     result.saveAsTextFile("file:///usr/local/spark/mycode/rdd/examples/result")
   }
}

val lines = sc.textFile(dataFile,3)

val result = lines.filter(_.trim(.length>0)

过滤没有内容的行

.map(n=>(n.trim.toInt,“”))

partitionBy(newHashPartitioner(1))

把所有分区相关数据组成新的分区

.map(t =>{

index += 1

(index,t._1)

})

result.saveAsTextFile(“file:///usr/local/spark/mycode/rdd/examples/result”)

完善