Spark textFile 和排序-2

简介: 快速学习 Spark textFile 和排序-2

开发者学堂课程【大数据实时计算框架 Spark 快速入门Spark textFile 和排序-2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/100/detail/1695


Spark textFile 和排序-2


内容简介:


一、相关代码

二、使用 Browse Directory


一、相关代码

1  package com. shsxt. study. core;

2

3 * import java.util.ArrayList;

17

18 public class GroupTopN {

19

20    public static void main(String[] args){

21        SparkConf conf = new SparkConf().setAppName("GroupTopN"). setMaster("local");

22        JavaSparkContext sc =new JavaSparkContext(conf);

23

24        JavaRDD lines = sc.textFile("score.txt");

25        JavaPairRDD pairs = lines

26            .mapToPair(new PairFunction() {

27

28                private static final long serialVersionUID =1L;

29

30                @Override

31                public Tuple2 call(String line)

32                    throws Exception {

33                 String[] arr = line.split("");

34                return new Tuple2(arr[0], Integer

35                       .valueOf(arr[1]));

36                }

37             })

38         JavaPairRDD groupedPairs = pairs

39             . groupByKey();

40         JavaPairRDD top2score = groupedPairs

41                                .mapToPair(new PairFunction>, String, Iterable>(){

42

43                 private static final long serialVersionUID =1L;

44

45                 @Override

46                 public Tuple2> call(

47                      Tuple2 tuple)

48                      throws Exception

49                     List list = new ArrayList();

50                     Iterable scores . tuple. _2;

51                     Iterator it =scores. iterator();

52                     while (it.hasNext())

53                         Integer score =it.next();

54                         list.add(score);

55                     }  

56                     Collections. sort(list, new Comparator(){

57                         @override

58                         public int compare(Integer ol, Integer o2){

59                             return -(o1-o2);

60                         }

61                       });

62                       list = list.sublist(0, 2);

63                       return new Tuple2(tuple. _1,

64                              list);



二、使用 Browse Directory

image.png

相关文章
|
11月前
|
分布式计算 Ubuntu Java
|
分布式计算 大数据 Spark
Spark textFile 和排序-4
快速学习 Spark textFile 和排序-4
|
分布式计算 大数据 Spark
Spark textFile 和排序-3
快速学习 Spark textFile 和排序-3
|
分布式计算 Java 大数据
Spark textFile 和排序-1
快速学习 Spark textFile 和排序-1
112 0
|
分布式计算 Spark
Spark多路径输出和二次排序
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 在实际应用场景中,我们对于Spark往往有各式各样的需求,比如说想MR中的二次排序,Top N,多路劲输出等。
1603 0
|
分布式计算 搜索推荐 Apache
|
3月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
159 0
|
14天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
3月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。