Spark集群搭建记录 | 云计算[CentOS7] | Scala Maven项目访问Spark(local模式)实现单词计数(上)

简介: 写在前面step1 下载Scala IDEstep2 解压安装Scala IDEstep3 Scala 下载step4 Scala 配置step5 创建scala项目

写在前面


本系列文章索引以及一些默认好的条件在 传送门

要想完成Spark的配置,首先需要完成Hadoop&&Spark的配置

Hadoop配置教程:链接

22900e893b9f48f0a1aa7976adcb812e.png

若未进行明确说明,均按照root用户操作


step1 下载Scala IDE


本来在Eclipse 的Marketplace便可以下载,可是现在官网都寄了

所以说只好找到之前的版本凑合来用

下载链接

这个软件再解压后会产生一个文件夹eclipse,所以说为了避免和先前的eclipse产生冲突或者是覆盖问题

我们选择在也之前不同的目录下进行解压,然后进行配置


step2 解压安装Scala IDE


假设已经将scala-ide放置到虚拟机的某路径下,该路径不同于eclipse的路径

假如以/usr/local为例

我们使用tar 命令进行解压:

tar -zxvf scala-SDK<Tab>

然后就可以打开其中的eclipse/eclipse使用该软件:

5e60f8015ad34bdfbe606334aa6134e9.png


如果说想要更方便的在桌面直接就能点击使用的话,可以直接创建软连接或者是.Desktop文件并放置到桌面,方法不在赘述


step3 Scala 下载


注意注意!!!

Scala 的版本对Spark版本极其敏感,所以说为了能够下载适合已经装了的Spark版本互相兼容,还请移步官网查看并下载适配的Scala,博主下面给出对应的适配关系,来源maven仓库


4a4c680d4ab34ebca22e0a4b2796a89b.png


博主使用的是Spark2.4.0,与这个版本兼容的有2.11/2.12

在这里博主使用2.11版本的Scala进行配置

cd /usr/local

wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz

tar -zxvf scala-2<Tab>

mv scala-2<Tab> scala


step4 Scala 配置


vim /etc/profile

加入:

export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin


source一下使其生效

source /etc/profile

在输入scala之后如若出现下图则代表成功:

5f8f2f317cd048dea2dced43d9ade806.png


因为在后续的过程中,均需要该环境跑集群的代码,所以说,集群的所有机器为了能够干活,都需要安装scala

可以使用scp命令传送到集群的其他节点,或者是手动在剩余的机器重复step3→ \to→step4


step5 创建scala项目


打开Scala ide ,并创建scala 项目:

28f1ff11897942f98f06024a266153c7.png


右键单击创建好的项目,将下图的第三步换成Convert to Maven Project,因为博主已经将项目设置为Maven项目,所以说,该选项消失

7870d30d66924a2688224a17fcdf5dfb.png



目录
相关文章
|
人工智能 分布式计算 调度
打破资源边界、告别资源浪费:ACK One 多集群Spark和AI作业调度
ACK One多集群Spark作业调度,可以帮助您在不影响集群中正在运行的在线业务的前提下,打破资源边界,根据各集群实际剩余资源来进行调度,最大化您多集群中闲置资源的利用率。
|
存储 分布式计算 调度
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
198 0
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
188 0
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
290 0
|
11月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
608 0
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1192 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
702 79
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
402 0
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
353 0