Spark的伪分布安装和wordcount测试

简介: 基于hadoop2.6伪分布的Spark安装和wordcount测试 一:环境说明              Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)              Hadoop:2.

基于hadoop2.6伪分布的Spark安装和wordcount测试

一:环境说明

             Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)

             Hadoop:2.6

             Scala:2.11.8

             Java:1.7.0

             Spark:1.6.1


二:hadoop伪分布安装

         参考之前我写的一篇博客:http://blog.csdn.net/gamer_gyt/article/details/46793731


三:Scala安装

          scala下载地址:http://www.scala-lang.org/download/

          解压到指定目录:tar zxvf scala-2.11.8.tgz -C /usr/local/

          进入/usr/local/:cd /usr/local

          重命名为scala:mv scala-2.11.8 scala

          配置环境变量:sudo vim /etc/profile

          加入如下信息:

<span style="font-size:14px;">          #scala home
          export SCALA_HOME=/usr/local/scala
          export Path=$SCALA_HOME/bin:$PATH
</span>
          退出保存:source /etc/profile

          命令行输入scala -versiom,显示如下

          

          使用时只需要输入scala即可,退出时输入     :quit


四:Spark安装

          1:官网下载最新版本1.6.1

                  下载链接:http://archive.apache.org/dist/spark/

          2:解压到指定目录,我这里是/usr/local/hadoop

                 tar zxvf spark-1.6.1-bin-hadoop2.6.tgz -C /usr/local/hadoop

                 重命名为spark(个人习惯):sudo mv spark-1.6.1-bin-hadoop2.6 spark

         3:配置环境变量

               sudo vim /etc/profile

              输入以下:

               #spark home
               export SPARK_HOME=/usr/local/hadoop/spark
               export PATH=$SPARK_HOME/bin:$PATH

         4:配置spark-env.sh

               cd $SPARK_HOME/conf
               cp spark-env.sh.template spark-env.sh
               vim spark-env.sh
               加入以下代码(注意 java,hadoop,scala,spark要根据自己的目录来):


               export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
               export HADOOP_HOME=/usr/local/hadoop
               export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
               export SCALA_HOME=/usr/share/scala
               export SPARK_HOME=/usr/local/hadoop/spark
               export SPARK_MASTER_IP=127.0.0.1
               export SPARK_MASTER_PORT=7077
               export SPARK_MASTER_WEBUI_PORT=8099
               export SPARK_WORKER_CORES=3
               export SPARK_WORKER_INSTANCES=1
               export SPARK_WORKER_MEMORY=10G
               export SPARK_WORKER_WEBUI_PORT=8081
               export SPARK_EXECUTOR_CORES=1
               export SPARK_EXECUTOR_MEMORY=1G
               export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native

         5:配置Slave

              cp slaves.template slaves
              vim slaves
              添加以下代码(默认就是localhost):

              localhost

         6:启动(前提是hadoop伪分布已经启动)

         启动spark-master.sh

         cd $SPARK_HOME/sbin

         ./start-master.sh

         启动Spark Slave

         ./start-slaves.sh(注意是slaves)


         此时便可以访问Spark的web界面了:输入http://127.0.0.1:8099/

      

           进入spark-shell界面

           进入spark目录下的bin目录,执行:./spark-shell

          

           ......

          

          (是不是和scala的shell一样呀)

          Spark-shell的web界面访问地址:http://127.0.0.1:4040

          


六:Spark的WordCount实例

1:上传Spark目录下的README.txt到hdfs上,例如我这里的存放为 /mr/spark/test (test是个文件,内容同README.txt一致)

2:用第五步的命令进入spark-shell

       执行:val file=sc.textFile("hdfs://172.16.48.202:9000/mr/spark/README.txt")

                   val count=file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)

                   count.collect()
      每一步的执行结果为:

       

        
      

       最终的运行结果为:

      


 至此,我们已经了解了Spark的安装过程和在spark shell 中用scala运行wordcount,更多精彩请关注gamer_gyt

相关文章
|
运维 关系型数据库 MySQL
os-copilot安装_配置_功能测试全集
我是一位中级运维工程师,我平时工作会涉及到 各类服务器的 数据库 与 java环境配置 操作。 我顺利使用了OS Copilot的 -t -f | 功能,我的疑惑是不能在自动操作过程中直接给与脚本运行权限,必须需要自己运行一下 chmod 这个既然有了最高的权限,为什么就不能直接给与运行权限呢。 我认为 -t 功能有用,能解决后台运行基础命令操作。 我认为 -f 功能有用,可以通过task文件中撰写连续任务操作。 我认为 | 对文件理解上有很直接的解读,可以在理解新程序上有很大帮助。
486 86
|
存储 人工智能 编译器
【03】鸿蒙实战应用开发-华为鸿蒙纯血操作系统Harmony OS NEXT-测试hello word效果-虚拟华为手机真机环境调试-为DevEco Studio编译器安装中文插件-测试写一个滑动块效果-介绍诸如ohos.ui等依赖库-全过程实战项目分享-从零开发到上线-优雅草卓伊凡
【03】鸿蒙实战应用开发-华为鸿蒙纯血操作系统Harmony OS NEXT-测试hello word效果-虚拟华为手机真机环境调试-为DevEco Studio编译器安装中文插件-测试写一个滑动块效果-介绍诸如ohos.ui等依赖库-全过程实战项目分享-从零开发到上线-优雅草卓伊凡
1087 11
【03】鸿蒙实战应用开发-华为鸿蒙纯血操作系统Harmony OS NEXT-测试hello word效果-虚拟华为手机真机环境调试-为DevEco Studio编译器安装中文插件-测试写一个滑动块效果-介绍诸如ohos.ui等依赖库-全过程实战项目分享-从零开发到上线-优雅草卓伊凡
|
SQL 分布式计算 关系型数据库
基于云服务器的数仓搭建-hive/spark安装
本文介绍了在本地安装和配置MySQL、Hive及Spark的过程。主要内容包括: - **MySQL本地安装**:详细描述了内存占用情况及安装步骤,涉及安装脚本的编写与执行,以及连接MySQL的方法。 - **Hive安装**:涵盖了从上传压缩包到配置环境变量的全过程,并解释了如何将Hive元数据存储配置到MySQL中。 - **Hive与Spark集成**:说明了如何安装Spark并将其与Hive集成,确保Hive任务由Spark执行,同时解决了依赖冲突问题。 - **常见问题及解决方法**:列举了安装过程中可能遇到的问题及其解决方案,如内存配置不足、节点间通信问题等。
基于云服务器的数仓搭建-hive/spark安装
|
人工智能 测试技术 API
Windows用户必备:Postman v11详细安装指南与API测试入门教程(附官网下载
Postman是全球领先的API开发与测试工具,支持REST、SOAP、GraphQL等协议调试。2025年最新版v11新增AI智能生成测试用例、多环境变量同步等功能,适用于前后端分离开发、自动化测试、接口文档自动生成及团队协作共享API资源。本文详细介绍Postman的软件定位、核心功能、安装步骤、首次配置、基础使用及常见问题解答,帮助用户快速上手并高效利用该工具进行API开发与测试。
|
SQL 缓存 关系型数据库
MySQL8.4 Enterprise安装Firewall及测试
MySQL8.4 Enterprise安装Firewall及测试
459 0
|
弹性计算 Ubuntu Java
OS-Copilot-ubuntu镜像版本的具体测试使用(安装方式有单独注明)
作为一名个人开发者,我主要负责云资源的运维和管理。在使用OS Copilot的过程中,我遇到了一些配置问题,特别是在ECS实例中设置AccessKey时,但最终成功解决了。通过使用OS Copilot的-t/-f/管道功能,我大大提升了效率,减少了命令编写的工作量,特别是在搭建Java运行环境时效果显著。此外,| 功能帮助我快速理解文档,整体体验非常流畅,推荐给其他开发者使用。
472 6
|
弹性计算 运维 Ubuntu
os-copilot在Alibaba Cloud Linux镜像下的安装与功能测试
我顺利使用了OS Copilot的 -t -f 功能,我的疑惑是在换行的时候就直接进行提问了,每次只能写一个问题,没法连续换行更有逻辑的输入问题。 我认为 -t 管道 功能有用 ,能解决环境问题的连续性操作。 我认为 -f 管道 功能有用 ,可以单独创建可连续性提问的task问题。 我认为 | 对文件直接理解在新的服务器理解有很大的帮助。 此外,我还有建议 可以在非 co 的环境下也能进行连续性的提问。
353 7
|
测试技术 PHP 开发工具
php性能监测模块XHProf安装与测试
【10月更文挑战第13天】php性能监测模块XHProf安装与测试
251 0
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
663 0
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
1232 2
ClickHouse与大数据生态集成:Spark & Flink 实战