Spark集群搭建记录 | 云计算[CentOS7] | Scala Maven项目访问Spark(local模式)实现单词计数(上)

简介: 写在前面step1 下载Scala IDEstep2 解压安装Scala IDEstep3 Scala 下载step4 Scala 配置step5 创建scala项目

写在前面


本系列文章索引以及一些默认好的条件在 传送门

要想完成Spark的配置,首先需要完成Hadoop&&Spark的配置

Hadoop配置教程:链接

22900e893b9f48f0a1aa7976adcb812e.png

若未进行明确说明,均按照root用户操作


step1 下载Scala IDE


本来在Eclipse 的Marketplace便可以下载,可是现在官网都寄了

所以说只好找到之前的版本凑合来用

下载链接

这个软件再解压后会产生一个文件夹eclipse,所以说为了避免和先前的eclipse产生冲突或者是覆盖问题

我们选择在也之前不同的目录下进行解压,然后进行配置


step2 解压安装Scala IDE


假设已经将scala-ide放置到虚拟机的某路径下,该路径不同于eclipse的路径

假如以/usr/local为例

我们使用tar 命令进行解压:

tar -zxvf scala-SDK<Tab>

然后就可以打开其中的eclipse/eclipse使用该软件:

5e60f8015ad34bdfbe606334aa6134e9.png


如果说想要更方便的在桌面直接就能点击使用的话,可以直接创建软连接或者是.Desktop文件并放置到桌面,方法不在赘述


step3 Scala 下载


注意注意!!!

Scala 的版本对Spark版本极其敏感,所以说为了能够下载适合已经装了的Spark版本互相兼容,还请移步官网查看并下载适配的Scala,博主下面给出对应的适配关系,来源maven仓库


4a4c680d4ab34ebca22e0a4b2796a89b.png


博主使用的是Spark2.4.0,与这个版本兼容的有2.11/2.12

在这里博主使用2.11版本的Scala进行配置

cd /usr/local

wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz

tar -zxvf scala-2<Tab>

mv scala-2<Tab> scala


step4 Scala 配置


vim /etc/profile

加入:

export SCALA_HOME=/usr/local/scala
export PATH=$PATH:$SCALA_HOME/bin


source一下使其生效

source /etc/profile

在输入scala之后如若出现下图则代表成功:

5f8f2f317cd048dea2dced43d9ade806.png


因为在后续的过程中,均需要该环境跑集群的代码,所以说,集群的所有机器为了能够干活,都需要安装scala

可以使用scp命令传送到集群的其他节点,或者是手动在剩余的机器重复step3→ \to→step4


step5 创建scala项目


打开Scala ide ,并创建scala 项目:

28f1ff11897942f98f06024a266153c7.png


右键单击创建好的项目,将下图的第三步换成Convert to Maven Project,因为博主已经将项目设置为Maven项目,所以说,该选项消失

7870d30d66924a2688224a17fcdf5dfb.png



目录
相关文章
|
6月前
|
分布式计算 大数据 Java
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
114 5
|
6月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
86 3
|
6月前
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
94 0
|
6月前
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
144 0
|
6月前
|
分布式计算 大数据 Java
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
122 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
|
6月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
163 0
|
6月前
|
缓存 分布式计算 大数据
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式(一)
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式(一)
126 0
|
6月前
|
分布式计算 算法 大数据
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式(二)
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式(二)
114 0
|
9月前
|
SQL 分布式计算 大数据
MaxCompute操作报错合集之 Spark Local模式启动报错,是什么原因
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
117 4
|
10月前
|
分布式计算 DataWorks MaxCompute
MaxCompute操作报错合集之在Spark访问OSS时出现证书错误的问题,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
123 5
下一篇
oss创建bucket