开发者学堂课程【Scala 核心编程 - 进阶:经典的 Wordcount 的讲解】学习笔记,与课程紧密连接,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/610/detail/9129
经典的 Wordcount 的讲解
作业评讲
课后练习3-大数据中经典的wordcount案例
val lines =List("atguigu han hello","atguigu han aaa aaa aaa ccc ddd uuu")使用映射集合,list中,各个单词出现的次数,并按出现次数排序。
新建一个 Object 文件 wordcount
package com.atguigu.chapter16.homework
object Wordcount
def main(args:Array[string]): Unit = {
//需求:
题目中给出了一个集合List,要求使用映射集合得出List中各个单
词出现的次数,并按出现次数排序(未规定排序方式是从小到大还是从大到小,此处以从大到小排列为例)。
//学习 scala 可以怎样完成。val lines =List("atguigu han hello","atguigu han aaa aaa aaa ccc ddd uuu")
//先分步完成,再进行组合
//1.步骤
//val res1=lines.flatMap((s:String)=>s.split(" "))
//flatMap扁平化处理,其传入的是字符串,因此通过该段代码运
算得到的是一个个的单词
printIn("res1=" +res1)
//输出结果为res 1=List(atguigu,han,hello,atguigu,han,
aaa,aaa,ccc,ddd,uuu),已经完成了拆解任务;
//该步骤代码较啰嗦,可简化为
val res1=lines.flatMap(_.split(""))
//2.步骤=>做成一个对偶List,才能在接下来进行分组及统计
val res2=res1.map((s:String) = > (s,1))
println("res2="+res2)
//输出结果为res 2=List((atguigu,1),(han,1),(hello,1),(atguigu,1),(han,1),(aaa,1),(aaa,1),(ccc,1),(ddd,1),(uuu,1)),已经形成了一个对偶List;
//该步骤代码较啰嗦,可简化为
val res2=res1.map(_,1)
//3.步骤=>分组,把不同的单词单词归属到不同的组中
//val res3=res2.groupBy((x:(String,Int))=>x._1
//对于groupBy,可据提示f:((String,Int))=>K编写代码,其中x是其形参,其中有两个值,值类型依次为String和Int。遍历得到了一个一个的对偶组,然后按照对偶组中的第一个元素进行分组。
println("res3="+res3)
//输出结果为res3=Map(han-> List((han,1),(han,1)),ddd -> List((ddd,1)),ccc -> List((ccc,1)), uuu -> List((uuu,1)), atguigu->List((atguigu,1),(atguigu,1)),hello -> List((hello,1)),aaa -> List((aaa,1),(aaa,1),(aaa,1)))
//该步骤代码较啰嗦,可简化为
val res3=res2.groupBy(_._1)
//4.步骤=>对以上的各个元组进行统计大小
//val res4=res3.map(x:(String,List[(String,Int)]))=>(x._1,x._2.size))
//对于map,可据提示f:((String,List[(String,Int)]))=>K编写代码,其中x是其形参,第一个值依次为String,第二个值是List,List里有泛型,泛型里是一个对偶元组和Int。
printin("res4="+res4)
//输出结果为res4=Map(han -> 2,ddd -> 1, ccc -> 1, uuu -> 1, atguigu -> 2, hello -> 1, aaa -> 3)
//该步骤代码较啰嗦,可简化为
val res4=res3.map(x=>(x._1x._2.size))
//5.步骤=>排序
//res4的类型为Map,但Map中没有sort,而Map和List可以相互转换
//val res5=res4.toList.sortBy((x:(String,Int)=>x._2))
//使用toList进行转换,然后按照大小(map中第二个元素)排
序
//该步骤代码较啰嗦,可简化为
val res5=res4.toList.sortBy(_._2)
printin("res5="+res5)
//输出结果(默认为从小到大)为res5=List((ddd,1),(ccc,1),(uuu,1),(hello,1),(han,2),(atguigu,2),(aaa,3))
//6.步骤=>题目中要求从大到小排列,则应变更排序方式
val res5=res4.toList.sortBy(_._2).reverse
printin("res5="+res5)
//输出结果(默认为从小到大)为res5=List((aaa,3),(atguigu,2),(han,2),(hello,1),(uuu,1),(ccc,1),(ddd,1)),达成了从大到小排列的目的
//以上即为完整的代码,但该种编写方式过于啰嗦,没有充分利用scala的优势,因此,我们可以通过合并的方式简化编程。
println("===========合并===========")
println(lines.flatMap(_.split("")).map(_,1).groupBy(_._1).
map(x=>(x._1x._2.size)).toList.sortBy(_._2).reverse)
//flatMap(_.split(""))扁平化处理;map(_,1)形成对偶;groupBy(_._1)分组;map(x=>(x._1x._2.size))统计大小;
toList.sortBy转换形式并排序; reverse逆序排列。
//输出结果为List((aaa,3),(atguigu,2),(han,2),(hello,1),(uuu,1),(ccc,1),(ddd,1))。与分步编程方式结果相同。