Spark的伪分布安装和wordcount测试

简介: 基于hadoop2.6伪分布的Spark安装和wordcount测试 一:环境说明              Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)              Hadoop:2.

基于hadoop2.6伪分布的Spark安装和wordcount测试

一:环境说明

             Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)

             Hadoop:2.6

             Scala:2.11.8

             Java:1.7.0

             Spark:1.6.1


二:hadoop伪分布安装

         参考之前我写的一篇博客:http://blog.csdn.net/gamer_gyt/article/details/46793731


三:Scala安装

          scala下载地址:http://www.scala-lang.org/download/

          解压到指定目录:tar zxvf scala-2.11.8.tgz -C /usr/local/

          进入/usr/local/:cd /usr/local

          重命名为scala:mv scala-2.11.8 scala

          配置环境变量:sudo vim /etc/profile

          加入如下信息:

<span style="font-size:14px;">          #scala home
          export SCALA_HOME=/usr/local/scala
          export Path=$SCALA_HOME/bin:$PATH
</span>
          退出保存:source /etc/profile

          命令行输入scala -versiom,显示如下

          

          使用时只需要输入scala即可,退出时输入     :quit


四:Spark安装

          1:官网下载最新版本1.6.1

                  下载链接:http://archive.apache.org/dist/spark/

          2:解压到指定目录,我这里是/usr/local/hadoop

                 tar zxvf spark-1.6.1-bin-hadoop2.6.tgz -C /usr/local/hadoop

                 重命名为spark(个人习惯):sudo mv spark-1.6.1-bin-hadoop2.6 spark

         3:配置环境变量

               sudo vim /etc/profile

              输入以下:

               #spark home
               export SPARK_HOME=/usr/local/hadoop/spark
               export PATH=$SPARK_HOME/bin:$PATH

         4:配置spark-env.sh

               cd $SPARK_HOME/conf
               cp spark-env.sh.template spark-env.sh
               vim spark-env.sh
               加入以下代码(注意 java,hadoop,scala,spark要根据自己的目录来):


               export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
               export HADOOP_HOME=/usr/local/hadoop
               export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
               export SCALA_HOME=/usr/share/scala
               export SPARK_HOME=/usr/local/hadoop/spark
               export SPARK_MASTER_IP=127.0.0.1
               export SPARK_MASTER_PORT=7077
               export SPARK_MASTER_WEBUI_PORT=8099
               export SPARK_WORKER_CORES=3
               export SPARK_WORKER_INSTANCES=1
               export SPARK_WORKER_MEMORY=10G
               export SPARK_WORKER_WEBUI_PORT=8081
               export SPARK_EXECUTOR_CORES=1
               export SPARK_EXECUTOR_MEMORY=1G
               export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native

         5:配置Slave

              cp slaves.template slaves
              vim slaves
              添加以下代码(默认就是localhost):

              localhost

         6:启动(前提是hadoop伪分布已经启动)

         启动spark-master.sh

         cd $SPARK_HOME/sbin

         ./start-master.sh

         启动Spark Slave

         ./start-slaves.sh(注意是slaves)


         此时便可以访问Spark的web界面了:输入http://127.0.0.1:8099/

      

           进入spark-shell界面

           进入spark目录下的bin目录,执行:./spark-shell

          

           ......

          

          (是不是和scala的shell一样呀)

          Spark-shell的web界面访问地址:http://127.0.0.1:4040

          


六:Spark的WordCount实例

1:上传Spark目录下的README.txt到hdfs上,例如我这里的存放为 /mr/spark/test (test是个文件,内容同README.txt一致)

2:用第五步的命令进入spark-shell

       执行:val file=sc.textFile("hdfs://172.16.48.202:9000/mr/spark/README.txt")

                   val count=file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

                   count.collect()
      每一步的执行结果为:

       

        
      

       最终的运行结果为:

      


 至此,我们已经了解了Spark的安装过程和在spark shell 中用scala运行wordcount,更多精彩请关注gamer_gyt

相关文章
|
9天前
|
自然语言处理 机器人 Python
ChatGPT使用学习:ChatPaper安装到测试详细教程(一文包会)
ChatPaper是一个基于文本生成技术的智能研究论文工具,能够根据用户输入进行智能回复和互动。它支持快速下载、阅读论文,并通过分析论文的关键信息帮助用户判断是否需要深入了解。用户可以通过命令行或网页界面操作,进行论文搜索、下载、总结等。
22 1
ChatGPT使用学习:ChatPaper安装到测试详细教程(一文包会)
|
13天前
|
分布式计算 大数据 Java
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
13 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
|
13天前
|
分布式计算 大数据 Spark
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
31 1
|
18天前
|
前端开发 JavaScript 应用服务中间件
linux安装nginx和前端部署vue项目(实际测试react项目也可以)
本文是一篇详细的教程,介绍了如何在Linux系统上安装和配置nginx,以及如何将打包好的前端项目(如Vue或React)上传和部署到服务器上,包括了常见的错误处理方法。
36 0
linux安装nginx和前端部署vue项目(实际测试react项目也可以)
|
1月前
|
Linux
kickstart自动安装系统 --DHCP 配置及测试
PXE+Kickstart自动安装系统需配置DHCP服务器分配IP。dhcpd.conf示例:设置更新样式、忽略客户端更新、指定下一服务器及启动文件。定义子网、网关、掩码、动态地址池并预留特定MAC地址。重启xinetd、NFS、DHCP服务,确保新服务器与Kickstart服务器在同一网络,避免误装其他机器。注意隔离测试网络以防干扰生产环境。
66 18
|
4天前
|
测试技术 PHP 开发工具
php性能监测模块XHProf安装与测试
【10月更文挑战第13天】php性能监测模块XHProf安装与测试
10 0
|
13天前
|
存储 SQL 分布式计算
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(一)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(一)
26 0
|
27天前
|
安全 测试技术 Linux
CentOS7 安装vulhub漏洞测试环境
CentOS7 安装vulhub漏洞测试环境
54 0
|
1月前
|
Web App开发 Linux Python
linux上安装selenium环境及测试
该文章提供了在Linux CentOS上安装Selenium环境、Chrome浏览器及Chromedriver的详细步骤,并演示了如何以无头模式进行测试。
106 0
|
9天前
|
JSON 算法 数据可视化
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)
这篇文章是关于如何通过算法接口返回的目标检测结果来计算性能指标的笔记。它涵盖了任务描述、指标分析(包括TP、FP、FN、TN、精准率和召回率),接口处理,数据集处理,以及如何使用实用工具进行文件操作和数据可视化。文章还提供了一些Python代码示例,用于处理图像文件、转换数据格式以及计算目标检测的性能指标。
18 0
测试专项笔记(一): 通过算法能力接口返回的检测结果完成相关指标的计算(目标检测)