Spark学习之RDD简单算子

简介:

collect

返回RDD的所有元素


  
  
  1. scala> var input=sc.parallelize(Array(-1,0,1,2,2)) 
  2. input: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[15] at parallelize at <console>:27 
  3. scala> var result=input.collect 
  4. result: Array[Int] = Array(-1, 0, 1, 2, 2) 

count,coutByValue

count返回RDD的元素数量,countByValue返回每个值的出现次数


  
  
  1. scala> var input=sc.parallelize(Array(-1,0,1,2,2)) 
  2. scala> var result=input.count 
  3. result: Long = 5 
  4. scala> var result=input.countByValue 
  5. result: scala.collection.Map[Int,Long] = Map(0 -> 1, 1 -> 1, 2 -> 2, -1 -> 1) 

take,top,takeOrdered

take返回RDD的前N个元素 takeOrdered默认返回升序排序的前N个元素,可以指定排序算法 Top返回降序排序的前N个元素


  
  
  1. var input=sc.parallelize(Array(1,2,3,4,9,8,7,5,6)) 
  2.  
  3. scala> var result=input.take(6) 
  4. result: Array[Int] = Array(1, 2, 3, 4, 9, 8) 
  5. scala> var result=input.take(20) 
  6. result: Array[Int] = Array(1, 2, 3, 4, 9, 8, 7, 5, 6) 
  7.  
  8. scala> var result=input.takeOrdered(6) 
  9. result: Array[Int] = Array(1, 2, 3, 4, 5, 6) 
  10. scala> var result=input.takeOrdered(6)(Ordering[Int].reverse) 
  11. result: Array[Int] = Array(9, 8, 7, 6, 5, 4) 
  12.  
  13. scala> var result=input.top(6) 
  14. result: Array[Int] = Array(9, 8, 7, 6, 5, 4 

Filter

传入返回值为boolean的函数,返回改函数结果为true的RDD


  
  
  1. scala> var input=sc.parallelize(Array(-1,0,1,2)) 
  2. scala> var result=input.filter(_>0).collect() 
  3. result: Array[Int] = Array(1, 2) 

map,flatmap

map对每个元素执行函数,转换为新的RDD,flatMap和map类似,但会把map的返回结果做flat处理,就是把多个Seq的结果拼接成一个Seq输出


  
  
  1. scala> var input=sc.parallelize(Array(-1,0,1,2)) 
  2. scala> var result=input.map(_+1).collect 
  3. result: Array[Int] = Array(0, 1, 2, 3) 
  4.  
  5. scala>var result=input.map(x=>x.to(3)).collect 
  6. result: Array[scala.collection.immutable.Range.Inclusive] = Array(Range(-1, 0, 1, 2, 3), Range(0, 1, 2, 3), Range(1, 2, 3), Range(2, 3)) 
  7.  
  8. scala>var result=input.flatMap(x=>x.to(3)).collect 
  9. result: Array[Int] = Array(-1, 0, 1, 2, 3, 0, 1, 2, 3, 1, 2, 3, 2, 3) 

distinct

RDD去重


  
  
  1. scala>var input=sc.parallelize(Array(-1,0,1,2,2)) 
  2. scala>var result=input.distinct.collect 
  3. result: Array[Int] = Array(0, 1, 2, -1) 

Reduce

通过函数聚集RDD中的所有元素


  
  
  1. scala> var input=sc.parallelize(Array(-1,0,1,2)) 
  2. scala> var result=input.reduce((x,y)=>{println(x,y);x+y}) 
  3. (-1,1)  //处理-1,1,结果为0,RDD剩余元素为{0,2} 
  4. (0,2)   //上面的结果为0,在处理0,2,结果为2,RDD剩余元素为{0} 
  5. (2,0)   //上面结果为2,再处理(2,0),结果为2,RDD剩余元素为{} 
  6. result: Int = 2 

sample,takeSample

sample就是从RDD中抽样,第一个参数withReplacement是指是否有放回的抽样,true为放回,为false为不放回,放回就是抽样结果可能重复,第二个参数是fraction,0到1之间的小数,表明抽样的百分比 takeSample类似,但返回类型是Array,第一个参数是withReplacement,第二个参数是样本个数


  
  
  1. var rdd=sc.parallelize(1 to 20) 
  2.  
  3. scala> rdd.sample(true,0.5).collect 
  4. res33: Array[Int] = Array(6, 8, 13, 15, 17, 17, 17, 18, 20) 
  5.  
  6. scala> rdd.sample(false,0.5).collect 
  7. res35: Array[Int] = Array(1, 3, 10, 11, 12, 13, 14, 17, 18) 
  8.  
  9. scala> rdd.sample(true,1).collect 
  10. res44: Array[Int] = Array(2, 2, 3, 5, 6, 6, 8, 9, 9, 10, 10, 10, 14, 15, 16, 17, 17, 18, 19, 19, 20, 20) 
  11.  
  12. scala> rdd.sample(false,1).collect 
  13. res46: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20) 
  14.  
  15. scala> rdd.takeSample(true,3) 
  16. res1: Array[Int] = Array(1, 15, 19) 
  17.  
  18. scala> rdd.takeSample(false,3) 
  19. res2: Array[Int] = Array(7, 16, 6) 

collectAsMap,countByKey,lookup

collectAsMap把PairRDD转为Map,如果存在相同的key,后面的会覆盖前面的。 countByKey统计每个key出现的次数 Lookup返回给定key的所有value


  
  
  1. scala> var input=sc.parallelize(List((1,"1"),(1,"one"),(2,"two"),(3,"three"),(4,"four"))) 
  2.  
  3. scala> var result=input.collectAsMap 
  4. result: scala.collection.Map[Int,String] = Map(2 -> two, 4 -> four, 1 -> one, 3 -> three) 
  5.  
  6. scala> var result=input.countByKey 
  7. result: scala.collection.Map[Int,Long] = Map(1 -> 2, 2 -> 1, 3 -> 1, 4 -> 1) 
  8.  
  9. scala> var result=input.lookup(1) 
  10. result: Seq[String] = WrappedArray(1, one) 
  11.  
  12. scala> var result=input.lookup(2) 
  13. result: Seq[String] = WrappedArray(two) 

groupBy,keyBy

groupBy根据传入的函数产生的key,形成元素为K-V形式的RDD,然后对key相同的元素分组 keyBy对每个value,为它加上key


  
  
  1. scala> var rdd=sc.parallelize(List("A1","A2","B1","B2","C")) 
  2. scala> var result=rdd.groupBy(_.substring(0,1)).collect 
  3. result: Array[(String, Iterable[String])] = Array((A,CompactBuffer(A1, A2)), (B,CompactBuffer(B1, B2)), (C,CompactBuffer(C))) 
  4.  
  5. scala> var rdd=sc.parallelize(List("hello","world","spark","is","fun")) 
  6. scala> var result=rdd.keyBy(_.length).collect 
  7. result: Array[(Int, String)] = Array((5,hello), (5,world), (5,spark), (2,is), (3,fun)) 

keys,values


  
  
  1. scala> var input=sc.parallelize(List((1,"1"),(1,"one"),(2,"two"),(3,"three"),(4,"four"))) 
  2. scala> var result=input.keys.collect 
  3. result: Array[Int] = Array(1, 1, 2, 3, 4) 
  4. scala> var result=input.values.collect 
  5. result: Array[String] = Array(1, one, two, three, four) 
  6.  
  7. mapvalues 
  8. mapvalues对K-V形式的RDD的每个Value进行操作 
  9. scala> var input=sc.parallelize(List((1,"1"),(1,"one"),(2,"two"),(3,"three"),(4,"four"))) 
  10. scala> var result=input.mapValues(_*2).collect 
  11. result: Array[(Int, String)] = Array((1,11), (1,oneone), (2,twotwo), (3,threethree), (4,fourfour)) 

union,intersection,subtract,cartesian

union合并2个集合,不去重 subtract将第一个集合中的同时存在于第二个集合的元素去掉 intersection返回2个集合的交集 cartesian返回2个集合的笛卡儿积


  
  
  1. scala> var rdd1=sc.parallelize(Array(-1,1,1,2,3)) 
  2. scala> var rdd2=sc.parallelize(Array(0,1,2,3,4)) 
  3.  
  4. scala> var result=rdd1.union(rdd2).collect 
  5. result: Array[Int] = Array(-1, 1, 1, 2, 3, 0, 1, 2, 3, 4) 
  6.  
  7. scala> var result=rdd1.intersection(rdd2).collect 
  8. result: Array[Int] = Array(1, 2, 3) 
  9.  
  10. scala> var result=rdd1.subtract(rdd2).collect 
  11. result: Array[Int] = Array(-1) 
  12.  
  13. scala> var result=rdd1.cartesian(rdd2).collect 
  14. result: Array[(IntInt)] = Array((-1,0), (-1,1), (-1,2), (-1,3), (-1,4), (1,0), (1,1), (1,2), (1,3), (1,4), (1,0), (1,1), (1,2), (1,3), (1,4), (2,0), (2,1), (2,2), (2,3), (2,4), (3,0), (3,1), (3,2), (3,3), (3,4)) 本文作者:Endless2010 来源:51CTO
相关文章
|
28天前
|
存储 分布式计算 并行计算
【赵渝强老师】Spark中的RDD
RDD(弹性分布式数据集)是Spark的核心数据模型,支持分布式并行计算。RDD由分区组成,每个分区由Spark Worker节点处理,具备自动容错、位置感知调度和缓存机制等特性。通过创建RDD,可以指定分区数量,并实现计算函数、依赖关系、分区器和优先位置列表等功能。视频讲解和示例代码进一步详细介绍了RDD的组成和特性。
|
2月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
68 0
|
2月前
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
40 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
2月前
|
分布式计算 算法 Spark
spark学习之 GraphX—预测社交圈子
spark学习之 GraphX—预测社交圈子
45 0
|
2月前
|
分布式计算 Scala Spark
educoder的spark算子学习
educoder的spark算子学习
19 0
|
2月前
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
31 0
|
2月前
|
SQL 分布式计算 大数据
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
66 0
|
2月前
|
SQL 分布式计算 大数据
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
45 0
|
分布式计算 大数据 数据库
Spark 算子操作剖析 3
快速学习 Spark 算子操作剖析 3
109 0
Spark 算子操作剖析 3
|
分布式计算 大数据 Spark
Spark 算子操作剖析4
快速学习 Spark 算子操作剖析4
116 0