Spark 资源和数据并行度优化分析3 | 学习笔记

简介: 快速学习 Spark 资源和数据并行度优化分析3

开发者学堂课程【大数据实时计算框架  Spark  快速入门Spark资源和数据并行度优化分析3】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1686


Spark  资源和数据并行度优化分析3


内容简介:

一、FlatMap  算子

二、Collect  算子


一、FlatMap  算子

public static void main(String[] args) {

SparkConfconf = new SparkConf().setAppName("FlatMapOperator").setMaster("local");

JavaSparkContext sc = new JavaSparkContext(conf);

List linelist = Arrays.aslist("hello xuruyun","hello xuruyun","hello JavaRDD lines=sc.parallelize(lineList);

// flatMap = flat+ map

JavaRDD words = lines.flatMap(new FlatMapFunction(){private static final long serialVersionUID = 1L;

@Override

public Iterable call(String line) throws Exception {

returnArrays.aslist(line.split(""));

}};

words. foreach(new VoidFunction(){private static final long serialVersionUID = 1L;

@Override

public void call(String result) throws Exception {


二、Collect  算子

public class Collectoperator {

publicstatic void main(String[] args) {

SparkConfconf = new SparkConf().setAppName("ReduceOperator").setMaster("local");

JavaSparkContext sc = new JavaSparkContext(conf);

//有一个集合,里面有1到10,10个数字,现在我们通过  reduce  来进行累加List numberList = Arrays. asList(1, 2, 3, 4, 5);

JavaRDD numbers = sc.parallelize(numberList);

JavaRDD doubleNumbers = numbers. map(new Function

@Override

public Integer call(Integer v) throws Exception {

returnv* 2;

});

// 用  foreach action  操作,  collect  在远程集群上遍历  RDD  的元素// 用collect  操作,将分布式的在远程集群里面的数据拉取到本地!!!//这种方式不建议使用,如果数据量大,走大量的网络传输//甚至有可能  OOM  内存溢出,通常情况下你会看到用  foreach  操作  List doubleNumberList = doubleNumbers.

collect();for(Integer num: doubleNumberList){

System.out.println(num);

sc.close();

相关文章
|
11月前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
SQL 分布式计算 Serverless
EMR Serverless Spark:一站式全托管湖仓分析利器
本文根据2024云栖大会阿里云 EMR 团队负责人李钰(绝顶) 演讲实录整理而成
868 58
|
12月前
|
SQL 分布式计算 Serverless
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
基于阿里云 EMR Serverless Spark 版快速搭建OSS日志分析应用
307 0
|
SQL 分布式计算 Java
Spark SQL向量化执行引擎框架Gluten-Velox在AArch64使能和优化
本文摘自 Arm China的工程师顾煜祺关于“在 Arm 平台上使用 Native 算子库加速 Spark”的分享,主要内容包括以下四个部分: 1.技术背景 2.算子库构成 3.算子操作优化 4.未来工作
1794 0
|
分布式计算 监控 大数据
如何优化Spark中的shuffle操作?
【10月更文挑战第18天】
|
存储 分布式计算 监控
Spark如何优化?需要注意哪些方面?
【10月更文挑战第10天】Spark如何优化?需要注意哪些方面?
217 6
|
设计模式 数据采集 分布式计算
企业spark案例 —出租车轨迹分析
企业spark案例 —出租车轨迹分析
555 0
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
216 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
SQL 分布式计算 大数据
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
205 0
|
SQL 分布式计算 大数据
Spark 资源和数据并行度优化分析2 | 学习笔记
快速学习 Spark 资源和数据并行度优化分析2
236 0