大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器

点一下关注吧!!!非常感谢!!持续更新!!!

目前已经更新到了:

Hadoop(已更完)

HDFS(已更完)

MapReduce(已更完)

Hive(已更完)

Flume(已更完)

Sqoop(已更完)

Zookeeper(已更完)

HBase(已更完)

Redis (已更完)

Kafka(已更完)

Spark(正在更新!)

章节内容

上节我们完成了:


Spark 简单介绍

Spark 的特点

Spark 与 Hadoop MapReduce 框架对比

Spark的系统架构

Spark的部署模式

Spark简介

上节我们已经介绍过了,这里为了保持完整性,简单的再扩展介绍一下。

Spark(Apache Spark)是一个快速、通用的分布式数据处理框架,旨在以高效的方式进行大规模数据的处理和分析。它最初由加利福尼亚大学伯克利分校AMPLab开发,并在2010年开源。如今,Spark已经成为大数据处理领域的重要工具之一,广泛应用于许多行业。

Spark凭借其速度、通用性和易用性,成为大数据处理领域的一项关键技术。无论是处理批量数据还是实时数据,亦或是进行机器学习和图计算,Spark都提供了强大的支持。如果你在寻找一个高效的大数据处理框架,Spark无疑是一个值得考虑的选择。


核心特性

速度:Spark的一个显著特性是速度。它利用内存中的数据处理能力,相比于基于磁盘的Hadoop MapReduce,Spark可以在某些情况下快上100倍。此外,Spark支持内存和磁盘混合计算,在内存不足时将数据部分存储在磁盘中,以确保任务的顺利执行。


通用性:Spark提供了丰富的API,可以用Java、Scala、Python和R语言编写程序。它支持多种大数据处理任务,包括批处理、交互式查询、实时流处理、机器学习和图计算等。这些特性使得Spark成为一个非常灵活的工具,适用于各种数据处理需求。


易用性:Spark的编程模型简单且高效,它基于“弹性分布式数据集”(RDD)的概念,允许开发者以函数式编程的风格来处理数据集。对于已经熟悉Hadoop的开发者来说,Spark的学习曲线较为平滑。此外,Spark SQL模块提供了类似于SQL的查询接口,方便数据分析人员使用。


扩展性:Spark被设计为可以处理大规模数据集,支持从单节点运行到大规模集群上运行。它可以通过YARN、Mesos、Kubernetes等资源管理器进行集群资源调度,具备良好的扩展性,能够在大规模集群环境中高效工作。


Spark的组件

Spark Core:这是Spark的核心模块,负责内存管理、任务调度、错误恢复、与存储系统的交互等基础功能。Spark Core引入了RDD,这是一种容错的分布式数据集合,能够高效地进行并行计算。


Spark SQL:这个组件使得结构化数据的处理更加简单。它支持使用SQL语句对数据进行查询,同时可以与Spark的其他模块无缝集成。此外,Spark SQL还支持与Hive兼容,能够读取Hive中的数据。


Spark Streaming:该模块用于处理实时数据流。它将实时数据划分为多个小批次,并使用Spark的核心API对每个批次的数据进行处理。这种微批处理方式使得实时处理更加简洁和高效。


MLlib:这是Spark的机器学习库,提供了各种机器学习算法,如分类、回归、聚类、协同过滤等。此外,它还提供了数据处理、特征工程和模型评估等工具,能够帮助开发者快速构建和部署机器学习模型。


GraphX:用于图计算的模块,提供了图操作和一套用于图并行计算的API,支持图的遍历、路径搜索、连接组件、PageRank等操作。


使用场景

Spark广泛应用于各种需要大规模数据处理的场景,包括但不限于:


批处理:处理大量历史数据,如日志分析、ETL操作。

流处理:实时数据分析和处理,如网络监控、实时推荐系统。

机器学习:大规模数据上的机器学习任务,如推荐系统、文本分类。

交互式查询:通过Spark SQL对大数据集进行快速查询和分析。

图计算:处理社交网络、推荐系统中的复杂图结构数据。

下载文件

我们到官方地址下载:

https://archive.apache.org/dist/spark/

页面如下,为了保证稳定和学习的方便,我用了比较老的版本:2.4.5

我们选择:without-hadoop-scala 这种版本,可以不用安装配置 Scala:

https://archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-without-hadoop-scala-

解压配置

我们可以使用 wget 或者其他工具来完成文件的下载,我这里是传到服务器上:

cd /opt/software/
wget https://archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-without-hadoop-scala-2.12.tgz

下载完成后,我们进行解压并移动到指定位置:

cd /opt/software/
tar zxvf spark-2.4.5-bin-without-hadoop-scala-2.12.tgz

移动目录到servers下(之前的规范):

mv spark-2.4.5-bin-without-hadoop-scala-2.12 ../servers

环境变量

vim /etc/profile
# spark
export SPARK_HOME=/opt/servers/spark-2.4.5-bin-without-hadoop-scala-2.12
export PATH=$PATH:$SPARK_HOME/bin

配置完的结果,记得刷新环境变量

修改配置

cd $SPARK_HOME/conf

slaves

mv slaves.template slaves
vim slaves

# 集群地址
h121.wzk.icu
h122.wzk.icu
h123.wzk.icu

配置完的样子大概如下:

spark-defaults

mv spark-defaults.conf.template spark-defaults.conf
vim spark-defaults.conf

# 修改配置的信息
spark.master spark://h121.wzk.icu:7077
spark.eventLog.enabled true
spark.eventLog.dir hdfs://h121.wzk.icu:9000/spark-eventLog
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.driver.memory 512m

配置完的结果如下图:

创建HDFS目录

hdfs dfs -mkdir /spark-eventLog
• 1

spark-env

mv spark-env.sh.template spark-env.sh
vim spark-env.sh

# 修改如下的配置内容
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/opt/servers/hadoop-2.9.2
export HADOOP_CONF_DIR==/opt/servers/hadoop-2.9.2/etc/hadoop
export SPARK_DIST_CLASSPATH=$(/opt/servers/hadoop-2.9.2/bin/hadoop classpath)
export SPARK_MASTER_HOST=h121.wzk.icu
export SPARK_MASTER_PORT=7077

配置完成截图如下:

分发软件

传输文件

使用我们之前编写的 rsync-script 工具。当然你也可以每台都配置一次也行,只要保证环境一致即可。

(之前Hadoop等都使用过,如果你没有,你可以用复制或者别的方式)rsync-script /opt/servers/spark-2.4.5-bin-without-hadoop-scala-2.12

过程会很漫长,请耐心等待:

文件传输分发完毕:

环境变量

每天机器都需要配置环境变量!!!

/etc/profile

h122 服务器

h123 服务器

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
17天前
|
存储 人工智能 容灾
阿里云服务器2核8G、4核16G、8核32G配置热门实例性能对比与场景化选型指南
2核8G/4核16G/8核32G配置的阿里云服务器在阿里云活动中目前有经济型e、通用算力型u1、通用型g7、通用型g8y和通用型g9i五种实例可选,目前2核8G配置选择u1实例活动价格652.32元1年起,4核16G月付选择经济型e实例最低89元1个月,8核32G配置160元1个月起,本文将为大家解析经济型e、通用算力型u1、通用型g7及通用型g8y实例,帮助用户根据自身需求合理选择最适合的实例规格和配置。
|
18天前
|
存储 运维 安全
阿里云服务器2核4G与4核8G配置解析:实例规格、价格及选择指南
阿里云服务器2核4G和4核8G配置凭借其均衡的性能与性价比,成为中小企业及开发者群体的热门选择。通用算力型u1实例2核4G5M带宽80G ESSD Entry云盘特惠价199元1年,个人用户最低531.79元1年,4核8G配置价格最低的是通用算力型u1实例,活动价格为955.58元1年起,除此之外,还有计算型c7、c9i、c8y等计算型实例有2核4G与4核8G配置可选。具体配置还需要看想要购买的云服务器实例规格和配置及带宽大小。本文将结合2025年最新活动价格,深度解析阿里云服务器2核4G与4核8G配置的实例规格、适用场景及选择策略,以供参考。
|
24天前
|
机器学习/深度学习 存储 前端开发
阿里云服务器8核16G配置详解:热门实例规格、价格与选购指南
阿里云服务器8核16G配置,这样的配置能够满足大多数中小型网站、Web前端服务器以及计算密集型任务的需求。根据最新的收费标准及活动价格来看,云服务器8核16G配置收费标准最低的是经济型e实例,按量收费标准0.9元/小时,如果是需要年付的话,目前选择计算型c8y实例的活动价格为为2861.27元/1年起。本文为大家介绍8核16G配置的几款主要热门实例规格各自的性能与收费标准价格情况,以供选购参考。
|
6天前
|
存储 弹性计算 人工智能
阿里云服务器配置选择方法,八大使用场景选择合适的云服务器配置
本文详解阿里云ECS服务器在八大场景(新手入门、网站、数据库、大数据、游戏、视频、AI、高性能计算)中的配置选择策略,涵盖实例性能特点与推荐型号,助力用户精准选型,实现性能与成本的最优平衡。
|
1月前
|
存储 弹性计算 固态存储
如何给轻量服务器升级套餐配置?附上云服务器配置攻略
本文介绍了阿里云轻量应用服务器升级配置的流程及注意事项,并提供云服务器选型攻略。内容涵盖升级前的数据备份、操作步骤、系统盘扩容及机房限制等,同时结合业务类型、访问量、带宽、存储等因素,指导用户合理选择ECS实例规格与配置,助您高效稳定部署应用。
|
2月前
|
存储 机器学习/深度学习 弹性计算
阿里云服务器ECS计算型c9i规格族性能与特点、配置性能参数表
阿里云ECS计算型c9i实例基于Intel® Xeon® Granite Rapids处理器,主频3.2GHz,全核睿频3.6GHz,提供稳定高性能计算能力。支持NVMe协议、vTPM安全加密,适用于机器学习、大数据分析、高性能计算等场景,具备高安全、低延迟、强扩展等优势。
|
14天前
|
Ubuntu 安全 应用服务中间件
详细指南:配置Nginx服务器在Ubuntu平台上
以上步骤涵盖了基本流程:从软件包管理器获取 Ngnix, 设置系统服务, 调整UFW规则, 创建并激活服务器块(也称作虚拟主机), 并进行了初步优化与加固措施。这些操作都是建立在命令行界面上,并假设用户具有必要权限(通常是root用户)来执行这些命令。每个操作都有其特定原因:例如,设置开机启动确保了即使重启后也能自动运行 Ngnix;而编辑server block则定义了如何处理进入特定域名请求等等。
151 18
|
16天前
|
Ubuntu 安全 应用服务中间件
详细指南:配置Nginx服务器在Ubuntu平台上
以上步骤涵盖了基本流程:从软件包管理器获取 Ngnix, 设置系统服务, 调整UFW规则, 创建并激活服务器块(也称作虚拟主机), 并进行了初步优化与加固措施。这些操作都是建立在命令行界面上,并假设用户具有必要权限(通常是root用户)来执行这些命令。每个操作都有其特定原因:例如,设置开机启动确保了即使重启后也能自动运行 Ngnix;而编辑server block则定义了如何处理进入特定域名请求等等。
126 17
|
9天前
|
存储 弹性计算 固态存储
阿里云服务器租用价格参考:最新收费标准与不同实例热门配置活动价格
阿里云服务器租用价格参考:配置最低的1核0.5G云服务器,按量付费价格0.063元/小时,按月租用价格为18元/1月,爆款配置的活动价格目前直降,2核2G配置轻量应用服务器抢购价为38元一年;经济型e实例2核2G3M特惠价99元1年;通用算力型u1实例2核4G5M带宽特惠价199元1年;2核8G配置的活动价格最低为一年652.32元;4核16G配置的活动价格最低为1196.64元;8核16G配置的最低一年租用价格为3815.03元。以下是2025年阿里云服务器最新收费标准与热门配置活动价格的详细内容。
|
10天前
|
存储 缓存 数据挖掘
阿里云轻量应用服务器“CPU优化型”配置介绍、费用价格说明
阿里云轻量应用服务器推出CPU优化型,提供更强计算性能,2核4GB起,最高16核64GB,全系支持200Mbps带宽。适用于企业级应用、数据库、游戏服务器等高算力场景,保障稳定高效运行。

热门文章

最新文章