Spark 初识 3 | 学习笔记

简介: 快速学习 Spark 初识 3

开发者学堂课程【大数据实时计算框架  Spark  快速入门Spark  初识 3  】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1645


Spark 初识 3  



内容简介

一、回顾  Hadoop  里面  map reduce  的主要流程  

二、Hadoop  与  Spark  特点对比分析

三、Spark  目前运行模式



一、回顾  Hadoop 里面 map reduce 的主要流程  

image.png

此排序为归并排序,另还有插入排序。

归并排序:是建立在归并操作上的一种有效、稳定的排序算法,该算法是采用分治法的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序列合并成一个有序列,称为二路归并。

插入排序:是一种简单直观切稳定的算法,如果有一个已经有序的数据序列,要求在这个已经排好的数据序列中插入一个数,但要求插入后此数据序列依然有序,这个时候就要用到插入排序。

注:当数据量小的话用插入排序。


二、Hadoop 与 Spark 特点对比分析

image.png

Hadoop  共享数据慢因为其有大量磁盘  IO  开销,额外的复制,做序列化。磁盘IO  开销主要体现在每次开始一个  JOB  任务开始的时候都要从  HDFS  中读数据,最终还要把数据写到  HDFS  中去,然后下次又得从  HDFS  中读,又得写进去。一个Block  块默认有三份,三份在不同的节点中。

image.png

Spark  处理数据块是 因为是基于集群的分布式来计算。是由快速的,统一的一个引擎对于大规模的处理。

迭代式计算,输出在内存里,从第二次迭代开始输入就可以从内存里读,结果再存到内存里。

每次输出的数据量大后可存在内存里也能根据配置可落在磁盘里。同样也有副本机制,副本存在在不同的机器里。

另外还有  DAG  的优化。


三、Spark  目前运行模式

有4种模式可以运行

Local   多用于测试

Standalone

Mesos

YARN  最具前景

Local  属于单机多用于测试,Standalone  是 Spark  里独立的集群环境同时也意味着有独立的集群管理者。

Mesos  在中国用的不多。YARN  在中国用的最多的资源调动框架。

相关文章
|
分布式计算 大数据 Spark
高级特性_闭包_Spark 闭包分发 | 学习笔记
快速学习 高级特性_闭包_Spark 闭包分发
61 0
高级特性_闭包_Spark 闭包分发 | 学习笔记
|
分布式计算 大数据 Spark
Spark 原理_总体介绍_物理执行图 | 学习笔记
快速学习 Spark 原理_总体介绍_物理执行图
86 0
Spark 原理_总体介绍_物理执行图 | 学习笔记
|
分布式计算 大数据 数据处理
Spark 原理_总体介绍_逻辑执行图 | 学习笔记
快速学习 Spark 原理_总体介绍_逻辑执行图
98 0
Spark 原理_总体介绍_逻辑执行图 | 学习笔记
|
分布式计算 大数据 调度
Spark 原理_总体介绍_集群环境 | 学习笔记
快速学习 Spark 原理_总体介绍_集群环境
52 0
Spark 原理_总体介绍_集群环境 | 学习笔记
|
分布式计算 大数据 Spark
Spark 原理_总体介绍_概要 | 学习笔记
快速学习 Spark 原理_总体介绍_概要
60 0
Spark 原理_总体介绍_概要 | 学习笔记
|
分布式计算 Hadoop 大数据
Spark 原理_总结介绍_案例编写 | 学习笔记
快速学习 Spark 原理_总结介绍_案例编写
90 0
Spark 原理_总结介绍_案例编写 | 学习笔记
|
分布式计算 大数据 调度
Spark 原理_运行过程_总结和流程 | 学习笔记
快速学习 Spark 原理_运行过程_总结和流程
84 0
Spark 原理_运行过程_总结和流程 | 学习笔记
|
缓存 分布式计算 Hadoop
Spark 原理_运行过程_概念介绍 | 学习笔记
快速学习 Spark 原理_运行过程_概念介绍
95 0
Spark 原理_运行过程_概念介绍 | 学习笔记
|
存储 分布式计算 大数据
Spark 原理_运行过程_stage 和 task 的关系 | 学习笔记
快速学习 Spark 原理_运行过程_stage 和 task 的关系
160 0
Spark 原理_运行过程_stage 和 task 的关系 | 学习笔记
|
分布式计算 大数据 调度
Spark 原理_运行过程_Job 和 Stage 的关系 | 学习笔记
快速学习 Spark 原理_运行过程_Job 和 Stage 的关系
109 0
Spark 原理_运行过程_Job 和 Stage 的关系 | 学习笔记