Spark textFile 和排序-2

简介: 快速学习 Spark textFile 和排序-2

开发者学堂课程【大数据实时计算框架 Spark 快速入门Spark textFile 和排序-2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/100/detail/1695


Spark textFile 和排序-2


内容简介:


一、相关代码

二、使用 Browse Directory


一、相关代码

1  package com. shsxt. study. core;

2

3 * import java.util.ArrayList;

17

18 public class GroupTopN {

19

20    public static void main(String[] args){

21        SparkConf conf = new SparkConf().setAppName("GroupTopN"). setMaster("local");

22        JavaSparkContext sc =new JavaSparkContext(conf);

23

24        JavaRDD lines = sc.textFile("score.txt");

25        JavaPairRDD pairs = lines

26            .mapToPair(new PairFunction() {

27

28                private static final long serialVersionUID =1L;

29

30                @Override

31                public Tuple2 call(String line)

32                    throws Exception {

33                 String[] arr = line.split("");

34                return new Tuple2(arr[0], Integer

35                       .valueOf(arr[1]));

36                }

37             })

38         JavaPairRDD groupedPairs = pairs

39             . groupByKey();

40         JavaPairRDD top2score = groupedPairs

41                                .mapToPair(new PairFunction>, String, Iterable>(){

42

43                 private static final long serialVersionUID =1L;

44

45                 @Override

46                 public Tuple2> call(

47                      Tuple2 tuple)

48                      throws Exception

49                     List list = new ArrayList();

50                     Iterable scores . tuple. _2;

51                     Iterator it =scores. iterator();

52                     while (it.hasNext())

53                         Integer score =it.next();

54                         list.add(score);

55                     }  

56                     Collections. sort(list, new Comparator(){

57                         @override

58                         public int compare(Integer ol, Integer o2){

59                             return -(o1-o2);

60                         }

61                       });

62                       list = list.sublist(0, 2);

63                       return new Tuple2(tuple. _1,

64                              list);



二、使用 Browse Directory

image.png

相关文章
|
分布式计算 Ubuntu Java
Spark实现二次排序
Spark实现二次排序
|
分布式计算 大数据 Spark
Spark textFile 和排序-4
快速学习 Spark textFile 和排序-4
157 0
|
分布式计算 大数据 Spark
Spark textFile 和排序-3
快速学习 Spark textFile 和排序-3
151 0
|
分布式计算 Java 大数据
Spark textFile 和排序-1
快速学习 Spark textFile 和排序-1
193 0
|
分布式计算 Spark
Spark多路径输出和二次排序
打开微信扫一扫,关注微信公众号【数据与算法联盟】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkgamer 在实际应用场景中,我们对于Spark往往有各式各样的需求,比如说想MR中的二次排序,Top N,多路劲输出等。
1720 0
|
分布式计算 搜索推荐 Apache
|
6月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
326 0
|
9月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
423 79
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
900 2
ClickHouse与大数据生态集成:Spark & Flink 实战

热门文章

最新文章