Spark 集群搭建_第一个案例|学习笔记

简介: 快速学习 Spark 集群搭建_第一个案例

开发者学堂课程【大数据 Spark2020最新课程(知识精讲与实战演练)第一阶段Spark 集群搭建_第一个案例】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/688/detail/11943


Spark 集群搭建_第一个案例


内容介绍:

一、如何运行 spark 程序

二、概述蒙特克罗算法


一、运行 spark 程序

节课分析具体案例,具体步骤如下:Step2 运行 spark 示例任务中,首先执行命令Bin/spark-submit\

其主要作用是提交 spark 程序,需注意,提交spark 程序时,在此代码处

/export/servers/spark/examples/jars/spark-examples_2.11-2.2.3.jar\)指定 jar 报位置, jar 报中可能会有多份程序,此时需要,如 calss 的参数指定要运行的 calss 路径,然后使用如 master 的参数把程序提交到 spark 集群之中, master 对应的是 spark 集群当中的主节点位置,由于配置了高可用,则需把所有的有可能是 master 的地址全部列举出来,如若有其一 master 不可用,则转入另一个 master,代码中的100最终传递到 SparkPi 的慢方法中,它为其参数,中间位置的参数是运行时参数的指定。在上生产,程序运行到集群中此命令常见。

Step1 进入 Spark 安装目录中

cd/export/servers/spark/

Step2 运行 spark 示例任务(重点)

Bin/spark-submit\

--class org.spache.spark.example.SparkPi\    

--master spark://node01:7077,node02:7077,node03:7077\

--executor-memory 1G\

--total-executor-cores 2\

/export/servers/spark/examples/jars/spark-

examples_2.11-2.2.3.jar\      

100

Step3 运行结果

Pi is roughly 3.141550671141551

进入窗口执行如图:

image.png

得到运行结果为 Pi is roughly 3.1423323142332316,该算法为使用蒙特卡洛的方法求圆周率。


二、蒙特卡洛算法

即:

image.pngArea of Circle   = π·r² = π

Area of square      (2r)²    4

1.在一个正方形中,内切出一个圆形

A(Rec)  =  4

A(Inc)     π

2.随机向正方形内均匀投 n 个点,其落入内切圆的内外点的概率满足如下:

π/4=P(In)/P(Out)

若要知道1.中的正方形与圆的面积之比,在正方形中进行呈正态分布的随机投点,假设已知在正方形内切圆的点数,以及圆外部点的个数,则可知两面积的比值,因此要知道点是否在圆内部,计算圆心与点的距离,若距离小于半径在圆内,反之,大于半径在圆外。“

随机投点一亿次或一万次”,该任务使用 MR 比较慢,因为存在太多中间结果, spark 可以在内存中保存中间结果,且 spark 比较擅长进行迭代运算。

以上为蒙特卡洛的基本理论,通过蒙特卡洛,便可以通过迭代循环投点的方式实现蒙特卡洛算法求圆周率。

相关文章
|
4天前
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
2月前
|
存储 分布式计算 调度
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
|
5月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
110 0
|
5月前
|
设计模式 数据采集 分布式计算
企业spark案例 —出租车轨迹分析
企业spark案例 —出租车轨迹分析
156 0
|
5月前
|
消息中间件 分布式计算 Kafka
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
92 0
|
5月前
|
SQL 分布式计算 大数据
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(一)
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(一)
80 0
|
5月前
|
存储 分布式计算 大数据
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(二)
大数据-101 Spark Streaming DStream转换 窗口操作状态 跟踪操作 附带多个案例(二)
84 0
|
5月前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
63 0
|
5月前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
54 0
|
5月前
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
59 0