经典的 Wordcount 的讲解 | 学习笔记

简介: 快速学习经典的 Wordcount 的讲解

开发者学堂课程【Scala 核心编程 - 进阶经典的 Wordcount 的讲解学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/610/detail/9129


经典的 Wordcount 的讲解


作业评讲

课后练习3-大数据中经典的wordcount案例

val lines =List("atguigu han hello","atguigu han aaa aaa aaa ccc ddd uuu")使用映射集合,list中,各个单词出现的次数,并按出现次数排序。

新建一个 Object 文件 wordcount

package com.atguigu.chapter16.homework

object Wordcount

def main(args:Array[string]): Unit = {    

//需求:

题目中给出了一个集合List,要求使用映射集合得出List中各个单

词出现的次数,并按出现次数排序(未规定排序方式是从小到大还是从大到小,此处以从大到小排列为例)。

//学习 scala 可以怎样完成。val lines =List("atguigu han hello","atguigu han aaa aaa aaa ccc ddd uuu")

//先分步完成,再进行组合

//1.步骤

//val res1=lines.flatMap((s:String)=>s.split(" "))

//flatMap扁平化处理,其传入的是字符串,因此通过该段代码运

算得到的是一个个的单词

printIn("res1=" +res1)

//输出结果为res 1=List(atguigu,han,hello,atguigu,han,

aaa,aaa,ccc,ddd,uuu),已经完成了拆解任务;

//该步骤代码较啰嗦,可简化为

val res1=lines.flatMap(_.split(""))

//2.步骤=>做成一个对偶List,才能在接下来进行分组及统计

val res2=res1.map((s:String) = > (s,1))

println("res2="+res2)

//输出结果为res 2=List((atguigu,1),(han,1),(hello,1),(atguigu,1),(han,1),(aaa,1),(aaa,1),(ccc,1),(ddd,1),(uuu,1)),已经形成了一个对偶List;

//该步骤代码较啰嗦,可简化为

val res2=res1.map(_,1)

//3.步骤=>分组,把不同的单词单词归属到不同的组中

//val res3=res2.groupBy((x:(String,Int))=>x._1

//对于groupBy,可据提示f:((String,Int))=>K编写代码,其中x是其形参,其中有两个值,值类型依次为String和Int。遍历得到了一个一个的对偶组,然后按照对偶组中的第一个元素进行分组。

println("res3="+res3)

//输出结果为res3=Map(han-> List((han,1),(han,1)),ddd -> List((ddd,1)),ccc -> List((ccc,1)), uuu -> List((uuu,1)), atguigu->List((atguigu,1),(atguigu,1)),hello -> List((hello,1)),aaa -> List((aaa,1),(aaa,1),(aaa,1)))

//该步骤代码较啰嗦,可简化为

val res3=res2.groupBy(_._1)

//4.步骤=>对以上的各个元组进行统计大小

//val res4=res3.map(x:(String,List[(String,Int)]))=>(x._1,x._2.size))

//对于map,可据提示f:((String,List[(String,Int)]))=>K编写代码,其中x是其形参,第一个值依次为String,第二个值是List,List里有泛型,泛型里是一个对偶元组和Int。

printin("res4="+res4)

//输出结果为res4=Map(han -> 2,ddd -> 1, ccc -> 1, uuu -> 1, atguigu -> 2, hello -> 1, aaa -> 3)

//该步骤代码较啰嗦,可简化为

val res4=res3.map(x=>(x._1x._2.size))

//5.步骤=>排序

//res4的类型为Map,但Map中没有sort,而Map和List可以相互转换

//val res5=res4.toList.sortBy((x:(String,Int)=>x._2))

//使用toList进行转换,然后按照大小(map中第二个元素)排

//该步骤代码较啰嗦,可简化为

val res5=res4.toList.sortBy(_._2)

printin("res5="+res5)

//输出结果(默认为从小到大)为res5=List((ddd,1),(ccc,1),(uuu,1),(hello,1),(han,2),(atguigu,2),(aaa,3))

//6.步骤=>题目中要求从大到小排列,则应变更排序方式

val res5=res4.toList.sortBy(_._2).reverse

printin("res5="+res5)

//输出结果(默认为从小到大)为res5=List((aaa,3),(atguigu,2),(han,2),(hello,1),(uuu,1),(ccc,1),(ddd,1)),达成了从大到小排列的目的

//以上即为完整的代码,但该种编写方式过于啰嗦,没有充分利用scala的优势,因此,我们可以通过合并的方式简化编程。

println("===========合并===========")

println(lines.flatMap(_.split("")).map(_,1).groupBy(_._1).

map(x=>(x._1x._2.size)).toList.sortBy(_._2).reverse)

//flatMap(_.split(""))扁平化处理;map(_,1)形成对偶;groupBy(_._1)分组;map(x=>(x._1x._2.size))统计大小;

toList.sortBy转换形式并排序;  reverse逆序排列。

//输出结果为List((aaa,3),(atguigu,2),(han,2),(hello,1),(uuu,1),(ccc,1),(ddd,1))。与分步编程方式结果相同。

相关文章
|
2天前
|
搜索推荐 编译器 Linux
一个可用于企业开发及通用跨平台的Makefile文件
一款适用于企业级开发的通用跨平台Makefile,支持C/C++混合编译、多目标输出(可执行文件、静态/动态库)、Release/Debug版本管理。配置简洁,仅需修改带`MF_CONFIGURE_`前缀的变量,支持脚本化配置与子Makefile管理,具备完善日志、错误提示和跨平台兼容性,附详细文档与示例,便于学习与集成。
256 116
|
17天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
11天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
651 221
|
4天前
|
数据采集 人工智能 自然语言处理
Meta SAM3开源:让图像分割,听懂你的话
Meta发布并开源SAM 3,首个支持文本或视觉提示的统一图像视频分割模型,可精准分割“红色条纹伞”等开放词汇概念,覆盖400万独特概念,性能达人类水平75%–80%,推动视觉分割新突破。
304 27
Meta SAM3开源:让图像分割,听懂你的话
|
9天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1486 157
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
886 61
|
6天前
|
编解码 Linux 数据安全/隐私保护
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
284 139