step6 创建scala object
在src
目录下,我们创建一个scala object
,
右键src
,然后:
在里面写入代码逻辑,具体代码可以参考链接
并根据实际情况对代码进行修改
以上链接源代码:
具体代码根据自己实际情况来进行修改
import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.setAppName("wordcount") conf.setMaster("spark://主机名:7077") val sc = new SparkContext(conf) val rdd = sc.textFile("hdfs://主机名:9000/tmp/test.txt") .flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _) rdd.saveAsTextFile("hdfs://主机名:9000/tmp/result") } }
step7 修改pom文件
在pom.xml
文件中加入和自己实际环境适配的依赖:
比如spark-core
的话,我们就选择:
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.0</version> </dependency>
以上内容要加在<dependencies></dependencies> 之间,<dependencies></dependencies>与<build></build>同“等级”
至于<plugin></plugin>可以根据自己实际情况进行配置
step8 配置项目
右键单击项目:
选择完成后,在左侧找到scala complier
:
选择跟自己适配的版本,然后确定关闭
而对于maven
的相关配置,也要进行修改,在博文step3中有提及
step9 添加依赖库(Spark的jar包)
按照如下操作:
在弹框中:
我们需要选择spark
安装目录下jars
的所有jar包,博主当然是选择/usr/local/spark/jars/
下的所有jar包
点击Apply and Close即可,项目结构中也会出现相应的引用库:
step10 设置输入路径
因为在代码中难免会涉及到路径,所以说以step6中的代码为例,需要给tmp
文件夹赋予必要的权限:
hadoop fs -chmod -R 777 /tmp
并且将自己所需要技术的文件test.txt
通过主机名:50070
端口的web界面进行上传:
然后点击:
等个十几秒就好啦~:以下是结果:
Scala 实现的Spark local模式的配置完成
文章知识点与官方知识档案匹配,可进一步学习相关知识
Java技能树Java概览Maven基础26059 人正在系统学习中