经典的 Wordcount 的讲解 | 学习笔记

简介: 快速学习经典的 Wordcount 的讲解

开发者学堂课程【Scala 核心编程 - 进阶经典的 Wordcount 的讲解学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/610/detail/9129


经典的 Wordcount 的讲解


作业评讲

课后练习3-大数据中经典的wordcount案例

val lines =List("atguigu han hello","atguigu han aaa aaa aaa ccc ddd uuu")使用映射集合,list中,各个单词出现的次数,并按出现次数排序。

新建一个 Object 文件 wordcount

package com.atguigu.chapter16.homework

object Wordcount

def main(args:Array[string]): Unit = {    

//需求:

题目中给出了一个集合List,要求使用映射集合得出List中各个单

词出现的次数,并按出现次数排序(未规定排序方式是从小到大还是从大到小,此处以从大到小排列为例)。

//学习 scala 可以怎样完成。val lines =List("atguigu han hello","atguigu han aaa aaa aaa ccc ddd uuu")

//先分步完成,再进行组合

//1.步骤

//val res1=lines.flatMap((s:String)=>s.split(" "))

//flatMap扁平化处理,其传入的是字符串,因此通过该段代码运

算得到的是一个个的单词

printIn("res1=" +res1)

//输出结果为res 1=List(atguigu,han,hello,atguigu,han,

aaa,aaa,ccc,ddd,uuu),已经完成了拆解任务;

//该步骤代码较啰嗦,可简化为

val res1=lines.flatMap(_.split(""))

//2.步骤=>做成一个对偶List,才能在接下来进行分组及统计

val res2=res1.map((s:String) = > (s,1))

println("res2="+res2)

//输出结果为res 2=List((atguigu,1),(han,1),(hello,1),(atguigu,1),(han,1),(aaa,1),(aaa,1),(ccc,1),(ddd,1),(uuu,1)),已经形成了一个对偶List;

//该步骤代码较啰嗦,可简化为

val res2=res1.map(_,1)

//3.步骤=>分组,把不同的单词单词归属到不同的组中

//val res3=res2.groupBy((x:(String,Int))=>x._1

//对于groupBy,可据提示f:((String,Int))=>K编写代码,其中x是其形参,其中有两个值,值类型依次为String和Int。遍历得到了一个一个的对偶组,然后按照对偶组中的第一个元素进行分组。

println("res3="+res3)

//输出结果为res3=Map(han-> List((han,1),(han,1)),ddd -> List((ddd,1)),ccc -> List((ccc,1)), uuu -> List((uuu,1)), atguigu->List((atguigu,1),(atguigu,1)),hello -> List((hello,1)),aaa -> List((aaa,1),(aaa,1),(aaa,1)))

//该步骤代码较啰嗦,可简化为

val res3=res2.groupBy(_._1)

//4.步骤=>对以上的各个元组进行统计大小

//val res4=res3.map(x:(String,List[(String,Int)]))=>(x._1,x._2.size))

//对于map,可据提示f:((String,List[(String,Int)]))=>K编写代码,其中x是其形参,第一个值依次为String,第二个值是List,List里有泛型,泛型里是一个对偶元组和Int。

printin("res4="+res4)

//输出结果为res4=Map(han -> 2,ddd -> 1, ccc -> 1, uuu -> 1, atguigu -> 2, hello -> 1, aaa -> 3)

//该步骤代码较啰嗦,可简化为

val res4=res3.map(x=>(x._1x._2.size))

//5.步骤=>排序

//res4的类型为Map,但Map中没有sort,而Map和List可以相互转换

//val res5=res4.toList.sortBy((x:(String,Int)=>x._2))

//使用toList进行转换,然后按照大小(map中第二个元素)排

//该步骤代码较啰嗦,可简化为

val res5=res4.toList.sortBy(_._2)

printin("res5="+res5)

//输出结果(默认为从小到大)为res5=List((ddd,1),(ccc,1),(uuu,1),(hello,1),(han,2),(atguigu,2),(aaa,3))

//6.步骤=>题目中要求从大到小排列,则应变更排序方式

val res5=res4.toList.sortBy(_._2).reverse

printin("res5="+res5)

//输出结果(默认为从小到大)为res5=List((aaa,3),(atguigu,2),(han,2),(hello,1),(uuu,1),(ccc,1),(ddd,1)),达成了从大到小排列的目的

//以上即为完整的代码,但该种编写方式过于啰嗦,没有充分利用scala的优势,因此,我们可以通过合并的方式简化编程。

println("===========合并===========")

println(lines.flatMap(_.split("")).map(_,1).groupBy(_._1).

map(x=>(x._1x._2.size)).toList.sortBy(_._2).reverse)

//flatMap(_.split(""))扁平化处理;map(_,1)形成对偶;groupBy(_._1)分组;map(x=>(x._1x._2.size))统计大小;

toList.sortBy转换形式并排序;  reverse逆序排列。

//输出结果为List((aaa,3),(atguigu,2),(han,2),(hello,1),(uuu,1),(ccc,1),(ddd,1))。与分步编程方式结果相同。

相关文章
|
5天前
|
存储 弹性计算 人工智能
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
|
4天前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
|
4天前
|
人工智能 自然语言处理 自动驾驶
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
|
Linux 虚拟化 iOS开发
VMware Workstation Pro 25H2 for Windows & Linux - 领先的免费桌面虚拟化软件
VMware Workstation Pro 25H2 for Windows & Linux - 领先的免费桌面虚拟化软件
1021 0
|
7天前
|
存储 机器学习/深度学习 人工智能
大模型微调技术:LoRA原理与实践
本文深入解析大语言模型微调中的关键技术——低秩自适应(LoRA)。通过分析全参数微调的计算瓶颈,详细阐述LoRA的数学原理、实现机制和优势特点。文章包含完整的PyTorch实现代码、性能对比实验以及实际应用场景,为开发者提供高效微调大模型的实践指南。
647 2
|
6天前
|
JavaScript API 开发工具
如何在原生App中调用Uniapp的原生功能?
如何在原生App中调用Uniapp的原生功能?
318 139
|
5天前
|
编解码 自然语言处理 文字识别
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大
凌晨,Qwen3-VL系列再添新成员——Dense架构的Qwen3-VL-8B、Qwen3-VL-4B 模型,本地部署友好,并完整保留了Qwen3-VL的全部表现,评测指标表现优秀。
438 7
Qwen3-VL再添丁!4B/8B Dense模型开源,更轻量,仍强大