经典的 Wordcount 的讲解 | 学习笔记

简介: 快速学习经典的 Wordcount 的讲解

开发者学堂课程【Scala 核心编程 - 进阶经典的 Wordcount 的讲解学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/610/detail/9129


经典的 Wordcount 的讲解


作业评讲

课后练习3-大数据中经典的wordcount案例

val lines =List("atguigu han hello","atguigu han aaa aaa aaa ccc ddd uuu")使用映射集合,list中,各个单词出现的次数,并按出现次数排序。

新建一个 Object 文件 wordcount

package com.atguigu.chapter16.homework

object Wordcount

def main(args:Array[string]): Unit = {    

//需求:

题目中给出了一个集合List,要求使用映射集合得出List中各个单

词出现的次数,并按出现次数排序(未规定排序方式是从小到大还是从大到小,此处以从大到小排列为例)。

//学习 scala 可以怎样完成。val lines =List("atguigu han hello","atguigu han aaa aaa aaa ccc ddd uuu")

//先分步完成,再进行组合

//1.步骤

//val res1=lines.flatMap((s:String)=>s.split(" "))

//flatMap扁平化处理,其传入的是字符串,因此通过该段代码运

算得到的是一个个的单词

printIn("res1=" +res1)

//输出结果为res 1=List(atguigu,han,hello,atguigu,han,

aaa,aaa,ccc,ddd,uuu),已经完成了拆解任务;

//该步骤代码较啰嗦,可简化为

val res1=lines.flatMap(_.split(""))

//2.步骤=>做成一个对偶List,才能在接下来进行分组及统计

val res2=res1.map((s:String) = > (s,1))

println("res2="+res2)

//输出结果为res 2=List((atguigu,1),(han,1),(hello,1),(atguigu,1),(han,1),(aaa,1),(aaa,1),(ccc,1),(ddd,1),(uuu,1)),已经形成了一个对偶List;

//该步骤代码较啰嗦,可简化为

val res2=res1.map(_,1)

//3.步骤=>分组,把不同的单词单词归属到不同的组中

//val res3=res2.groupBy((x:(String,Int))=>x._1

//对于groupBy,可据提示f:((String,Int))=>K编写代码,其中x是其形参,其中有两个值,值类型依次为String和Int。遍历得到了一个一个的对偶组,然后按照对偶组中的第一个元素进行分组。

println("res3="+res3)

//输出结果为res3=Map(han-> List((han,1),(han,1)),ddd -> List((ddd,1)),ccc -> List((ccc,1)), uuu -> List((uuu,1)), atguigu->List((atguigu,1),(atguigu,1)),hello -> List((hello,1)),aaa -> List((aaa,1),(aaa,1),(aaa,1)))

//该步骤代码较啰嗦,可简化为

val res3=res2.groupBy(_._1)

//4.步骤=>对以上的各个元组进行统计大小

//val res4=res3.map(x:(String,List[(String,Int)]))=>(x._1,x._2.size))

//对于map,可据提示f:((String,List[(String,Int)]))=>K编写代码,其中x是其形参,第一个值依次为String,第二个值是List,List里有泛型,泛型里是一个对偶元组和Int。

printin("res4="+res4)

//输出结果为res4=Map(han -> 2,ddd -> 1, ccc -> 1, uuu -> 1, atguigu -> 2, hello -> 1, aaa -> 3)

//该步骤代码较啰嗦,可简化为

val res4=res3.map(x=>(x._1x._2.size))

//5.步骤=>排序

//res4的类型为Map,但Map中没有sort,而Map和List可以相互转换

//val res5=res4.toList.sortBy((x:(String,Int)=>x._2))

//使用toList进行转换,然后按照大小(map中第二个元素)排

//该步骤代码较啰嗦,可简化为

val res5=res4.toList.sortBy(_._2)

printin("res5="+res5)

//输出结果(默认为从小到大)为res5=List((ddd,1),(ccc,1),(uuu,1),(hello,1),(han,2),(atguigu,2),(aaa,3))

//6.步骤=>题目中要求从大到小排列,则应变更排序方式

val res5=res4.toList.sortBy(_._2).reverse

printin("res5="+res5)

//输出结果(默认为从小到大)为res5=List((aaa,3),(atguigu,2),(han,2),(hello,1),(uuu,1),(ccc,1),(ddd,1)),达成了从大到小排列的目的

//以上即为完整的代码,但该种编写方式过于啰嗦,没有充分利用scala的优势,因此,我们可以通过合并的方式简化编程。

println("===========合并===========")

println(lines.flatMap(_.split("")).map(_,1).groupBy(_._1).

map(x=>(x._1x._2.size)).toList.sortBy(_._2).reverse)

//flatMap(_.split(""))扁平化处理;map(_,1)形成对偶;groupBy(_._1)分组;map(x=>(x._1x._2.size))统计大小;

toList.sortBy转换形式并排序;  reverse逆序排列。

//输出结果为List((aaa,3),(atguigu,2),(han,2),(hello,1),(uuu,1),(ccc,1),(ddd,1))。与分步编程方式结果相同。

相关文章
|
8月前
|
分布式计算 监控 Hadoop
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
340 0
|
8月前
|
消息中间件 存储 NoSQL
Flink几道经典编程场景
Flink几道经典编程场景
|
SQL 分布式计算 Java
Spark入门以及wordcount案例代码
Spark入门以及wordcount案例代码
|
分布式计算 Hadoop Java
动手写的第一个MapReduce程序--wordcount
动手写的第一个MapReduce程序--wordcount
123 0
|
分布式计算 Java Hadoop
Hadoop快速入门——第三章、MapReduce案例(字符统计)(1)
Hadoop快速入门——第三章、MapReduce案例(字符统计)
160 0
Hadoop快速入门——第三章、MapReduce案例(字符统计)(1)
|
存储 分布式计算 Hadoop
Hadoop快速入门——第三章、MapReduce案例(字符统计)(2)
Hadoop快速入门——第三章、MapReduce案例(字符统计)
142 0
Hadoop快速入门——第三章、MapReduce案例(字符统计)(2)
|
资源调度 分布式计算 Java
MapReduce入门例子之WordCount单词计数
MapReduce入门例子之WordCount单词计数
187 0
MapReduce入门例子之WordCount单词计数
|
分布式计算 资源调度 并行计算
|
分布式计算 Hadoop Java
Mapreduce实验之wordcount
利用hadoop函数,标准输出输出堆中的k个单词与频次。
Mapreduce实验之wordcount
|
分布式计算 Python
Python实现一个最简单的MapReduce编程模型WordCount
Python实现一个最简单的MapReduce编程模型WordCount
170 0