spark中 map和reduce理解及与hadoop的map、reduce区别

2023-01-14 376 发布于云南

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： spark中 map和reduce理解及与hadoop的map、reduce区别

spark用的Scala编写的。因此这里的map和reduce，也就是Scala的map和reduce。scala 有很多函数，而且很方便。这里想写下map和reduce函数，也是看到一篇帖子，感觉Scala非常有意思。键值对rdd求value最大值【http://www.aboutyun.com/forum.php?mod=viewthread&tid=21747】

map函数

map函数，你可以往里面放一些，在其它语言中的匿名函数。

源数据：（“人名”，年龄） val rdd = sc.parallelize(Array[(String,Int)](("Michael",29),("Andy",30),("Justin",19), ("Tom",10), ("Tonny",11), ("Bob",12)))

比如val result = rdd.map(x => x._2)

上面是什么意思？x是rdd中的元素，代表的是任何一个(String,Int)，比如("Michael",29)或则("Andy",30)等。x._2则是第二个元素。

与hadoop中map函数比较

hadoop的map函数，与Scala中map函数没有太大的关系。hadoop的map函数，主要用来分割数据。至于如何分割可以指定分隔符。

更多可参考

Hadoop学习之mapreduce及示例代码

reduce函数

Scala中，reduce是传递两个元素，到函数中，然后返回值与下一个元素，一起作为参数传入。Scala有意思的地方在这里，难懂的地方也在这里。

如下面语句

val result = rdd.reduce((x,y) => (if(x._2 < y._2) y else x))

x和y在我们传统的函数中，它是固定的。但是Scala中，就不是了。刚开始传入的是第一个元素和第二个元素，后面的就是返回值和下一个元素。如上面

第一次传参：为下面两个

("Michael",29)("Andy",30)

但是比较之后，由于30大于29，因为返回的是("Andy",30)，("Andy",30)与第三个元素作为参数传入，("Andy",30)跟第三个元素比较("Justin",19)。

由于30大于19，因此依旧返回的是("Andy",30).依次类推。最后得出结果。

与hadoop中reduce函数比较

hadoop中reduce函数，一般用于统计数据。比如wordcount中统计单词的个数等。

spark中 map和reduce理解及与hadoop的map、reduce区别

map函数

与hadoop中map函数比较

reduce函数

与hadoop中reduce函数比较

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

spark中 map和reduce理解及与hadoop的map、reduce区别

map函数

与hadoop中map函数比较

reduce函数

与hadoop中reduce函数比较

热门文章

最新文章

相关课程

相关电子书

相关实验场景