Scala 【集合常用方法和函数操作-上】-阿里云开发者社区

前言

在开发Spark的过程中，最重要的部分就是对集合的操作，这也是在学习Spark中发现对这里知识不足的发现，所以学完Scala好长时间现在又返回来重新学习Scala集合的常用方法和函数操作。这部分学完，基本已经可以熟练使用Scala开发Spark了。

foreach

foreach 是一种没有返回值的方法，需要传入一个函数来使用，即foreach负责遍历集合，而其中的函数用来对数据进行处理，我们一般会使用匿名函数来当做参数来使用，比较方便。遍历集合（包括字符串也是一种可迭代的集合）。

下面是cmd控制台的使用案例：

scala> arr.foreach(subarr=>{subarr.foreach(println)})
11
22
33
88
99
scala> val str="hello scala"
str: String = hello scala
scala> str.foreach(println)
h
e
l
l
o
s
c
a
l
a

之后使用foreach的场景要比for循环多得多，建议使用foreach取代for循环。

map操作

map操作是针对集合的典型变换操作，它将某个函数应用到集合中的每个元素，并产生一个结果集合；map方法返回一个与原集合类型大小都相同的新集合，只不过元素的类型可能不同。

使用方法

同样传入一个函数作为参数，通常是匿名函数作参数，同样会对集合进行遍历，相当于一个升级版的foreach ，但与 foreach 不同的是，map() 是有返回值的：

scala> val arr=Array(1,2,3,4,5,6)
arr: Array[Int] = Array(1, 2, 3, 4, 5, 6)
scala> arr.map((num:Int)=>{num*2})
res7: Array[Int] = Array(2, 4, 6, 8, 10, 12)
scala> val res = arr.map(num=>{num*2})
res: Array[Int] = Array(2, 4, 6, 8, 10, 12)
scala> res
res10: Array[Int] = Array(2, 4, 6, 8, 10, 12)

练习

给出两名学生以及他们的三科成绩（用元组表示），要求求出每名学生的最高成绩（返回一个元组）

scala> val arr = Array(("zs",Array(100,111,120)),("ls",Array(99,58,120)))
arr: Array[(String, Array[Int])] = Array((zs,Array(100, 111, 120)), (ls,Array(99, 58, 120)))
scala> arr.map(people=>{
     | (people._1,people._2.max)})
res1: Array[(String, Int)] = Array((zs,120), (ls,120))

要求2：计算出两名学生优秀的成绩有几个（分数>=90）。

scala> arr.map(student=>(student._1,student._2.map(score=>if(score>=90) 1 else 0).sum))
res3: Array[(String, Int)] = Array((zs,3), (ls,2))

其中 if-else语句有点长，我们可以简写为 score >= 90 ，因为Scala 中的if-else score 语句是默认有返回值的，而 filter 同样要求返回 true 或 false 来判断是否过滤，所以我们这里可以直接简写为 score>=90 ，这就是一个布尔值。

要求3：计算出两名学生的平均值。

scala> arr.map(stu=>(stu._1,stu._2.sum * 1 / stu._2.size))
res6: Array[(String, Int)] = Array((zs,110), (ls,92))

filter

上面在使用map操作的过程中，我们会发现，map操作虽然可以有返回值，但是它把我们需要的和不需要的都会返回给我们，显然不能满足我们的使用需求，这就需要使用过滤了。

使用方法

遍历一个集合并从中获取满足条件的元素组成一个新的集合。，返回 true 代表留下，返回false 代表过滤掉。

案例

过滤数组中的奇数，留下偶数。

scala> arr.filter(num=>if(num%2==0) true else false)
res9: Array[Int] = Array(2, 4)

学生成绩大于90分的科目数量：

scala> val arr = Array(("zs",Array(100,111,120)),("ls",Array(99,58,120)))
arr: Array[(String, Array[Int])] = Array((zs,Array(100, 111, 120)), (ls,Array(99, 58, 120)))
scala> arr.map(stu=>(stu._1,stu._2.filter(score=> score>=90).size))
res10: Array[(String, Int)] = Array((zs,3), (ls,2))

flatten

扁平化的意思，适用于对多维数组（集合类型）的压缩合并，注意使用的时候没有括号。

引入

将数组中的所有元素*2：

//一维数组
scala> val arr = Array(1,2,3,4,5,6)
arr: Array[Int] = Array(1, 2, 3, 4, 5, 6)
scala> arr.map(num=> num*2)
res11: Array[Int] = Array(2, 4, 6, 8, 10, 12)                              
//二维数组
scala> val arr1 = Array(arr,arr)
arr1: Array[Array[Int]] = Array(Array(1, 2, 3, 4, 5, 6), Array(1, 2, 3, 4, 5, 6))
scala> arr1.map(arr=> arr.map(num=> num*2))
res12: Array[Array[Int]] = Array(Array(2, 4, 6, 8, 10, 12), Array(2, 4, 6, 8, 10, 12))

所谓二维数组翻倍，就是先用map遍历第一层数组，内层又是两个数组，对于数组这种集合类型，我们可以继续使用map进行处理，这样就可以对第二层数组中的元素进行处理了。

扁平化

对于刚才的那种二维数组，我们完全可以直接扁平化，将所有元素放到一个集合中去，简化操作。

scala> arr1
res13: Array[Array[Int]] = Array(Array(1, 2, 3, 4, 5, 6), Array(1, 2, 3, 4, 5, 6))
scala> arr1.flatten
res14: Array[Int] = Array(1, 2, 3, 4, 5, 6, 1, 2, 3, 4, 5, 6)
scala> arr1.flatten.map(num=>num*2)
res15: Array[Int] = Array(2, 4, 6, 8, 10, 12, 2, 4, 6, 8, 10, 12)

同样，对于集合类型，即使内外层数据类型不一样，只要都是集合类型（除了Map集合，元组也不行）就可以进行压缩！

scala> val arr = Array(List(1,2,3),List(4,5,6))
arr: Array[List[Int]] = Array(List(1, 2, 3), List(4, 5, 6))
scala> arr.flatten
res17: Array[Int] = Array(1, 2, 3, 4, 5, 6)

flatMap

并不是 flatten + map() 而是 map() + flatten

案例

比如我们Spark下的wordcount，假设我们有一个文件，内容为两行：

hello spark
hello scala

Spark 读取进来后，它就变成了：

Array("hello spark","hello sacla")

我们进行 wordcount 的话，就需要先把它先扁平化成一个整体，但是由于这是一个一维的数组，而不是我们扁平化所要求的内层必须也是数组或集合的形式，所以要先把我们每一个字符串元素转换为数组的形式：

Array(Array("hello spark"),Array("hello scala"))

实现过程：

scala> val arr = Array("hello spark","hello sacla")
arr: Array[String] = Array(hello spark, hello sacla)
scala> arr.map(str=> str.split(" "))
res18: Array[Array[String]] = Array(Array(hello, spark), Array(hello, sacla))
scala> res18.flatten
res19: Array[String] = Array(hello, spark, hello, sacla)

元组转为数组

很多时候，我们得到的数据不规范，比如元组类型，这就需要我们将元组转为数组的形式了：

scala> val arr = Array(("1","2"),("3","4"))
arr: Array[(String, String)] = Array((1,2), (3,4))
scala> arr.map(t=>Array(t._1,t._2))
res20: Array[Array[String]] = Array(Array(1, 2), Array(3, 4))

flatMap 用法

flatMap只需要关注 map() 不需要关注 flatten ，因为只要我们的数据满足扁平化操作的要求就可以进行扁平化，更多的我们应该关注的是 map() 的过程中，我们内层元素的格式是否为数组，如果不是（是字符串或者元组），又分别应该怎么做？所以说，我们只需要关注 map 操作即可。

//内层是元组
scala> arr
res24: Array[(String, String)] = Array((1,2), (3,4))
scala> arr.flatMap(t=>Array(t._1,t._2))
res25: Array[String] = Array(1, 2, 3, 4)
//内层是数组
scala> val arr = Array("hello spark","hello scala")
arr: Array[String] = Array(hello spark, hello scala)
scala> arr.flatMap(str=> str.split(" "))
res26: Array[String] = Array(hello, spark, hello, scala)

练习

val arr = Array("zs 90 100 110","ls 50 80 110")
//希望得到
zs 90
zs 100
zs 110
ls 50 
ls 80
ls 110

思路

使用 flatten + 字符串的tail / head

注意：

Array 的 head 属性是单个元素

Array 的 tail 属性是一个元素集合，它代表除了Array中第一个元素外的其他元素，所以可以进行集合操作（map、flatten等）

scala> val arr = Array("zs 90 100 110","ls 50 80 110")
arr: Array[String] = Array(zs 90 100 110, ls 50 80 110)
scala> arr.map(stu=>stu.split(" "))
res27: Array[Array[String]] = Array(Array(zs, 90, 100, 110), Array(ls, 50, 80, 110))
scala> res27.map(arr=>(arr.tail.map(t=>(arr.head,t))))
res28: Array[Array[(String, String)]] = Array(Array((zs,90), (zs,100), (zs,110)), Array((ls,50), (ls,80), (ls,110)))
scala> res28.flatten
res29: Array[(String, String)] = Array((zs,90), (zs,100), (zs,110), (ls,50), (ls,80), (ls,110))

我们可以使用flatMap简化

scala> arr
res30: Array[String] = Array(zs 90 100 110, ls 50 80 110)
scala> arr.map(str=> str.split(" ")).flatMap(arr=> arr.tail.map(t=> (arr.head,t)))
res31: Array[(String, String)] = Array((zs,90), (zs,100), (zs,110), (ls,50), (ls,80), (ls,110))

Scala 【集合常用方法和函数操作-上】

前言

foreach

map操作

使用方法

练习

filter

使用方法

案例

flatten

引入

扁平化

flatMap

案例

元组转为数组

flatMap 用法

练习

思路

sorted、sortedBy、sortWith

并行集合

reduce、reduceLeft、reduceRight

fold、foldLeft、foldRight

aggregate

groupBy、grouped

mapValues

diff、union、intersect

实现 wordcount

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Scala 【集合常用方法和函数操作-上】

前言

foreach

map操作

使用方法

练习

filter

使用方法

案例

flatten

引入

扁平化

flatMap

案例

元组转为数组

flatMap 用法

练习

思路

sorted、sortedBy、sortWith

并行集合

reduce、reduceLeft、reduceRight

fold、foldLeft、foldRight

aggregate

groupBy、grouped

mapValues

diff、union、intersect

实现 wordcount

热门文章

最新文章

相关课程

相关电子书

相关实验场景