开发者社区> 王小雷> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

Spark应用(app jar)发布到Hadoop集群的过程

简介: 记录了Spark,Hadoop集群的开启,关闭,以及Spark应用提交到Hadoop集群的过程,通过web端监控运行状态。 1.绝对路径开启集群 (每次集群重启,默认配置的hadoop集群中tmp文件被清空所以需要重新format) 我的集群安装位置是/opt/hadoop下,可以根据自己路径修改。 /opt/hadoop/bin/hdfs namenode -f
+关注继续查看

记录了Spark,Hadoop集群的开启,关闭,以及Spark应用提交到Hadoop集群的过程,通过web端监控运行状态。

1.绝对路径开启集群

(每次集群重启,默认配置的hadoop集群中tmp文件被清空所以需要重新format)
我的集群安装位置是/opt/hadoop下,可以根据自己路径修改。

/opt/hadoop/bin/hdfs namenode -format
/opt/hadoop/sbin/start-all.sh
/opt/spark/sbin/start-all.sh

使用jps命令查看集群是否全部正确开启
这里写图片描述

2.绝对路径关闭集群

/opt/hadoop/sbin/stop-all.sh
/opt/spark/sbin/stop-all.sh

3.Spark业务(app)发布到Hadoop YARN集群方式

这里发布一个spark本身自带的jar发到hadoop集群中(此时hadoop和spark都已开启)

cd /opt/spark
./bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--driver-memory 4g \
--executor-memory 2g \
--executor-cores 1 \
lib/spark-examples-1.6.2-hadoop2.6.0.jar \
10

注意spark-examples-1.6.2-hadoop2.6.0.jar,需要根据你的版本来看自带的版本号。
这里写图片描述

4.log地址(方便查看错误信息)

/opt/hadoop/logs/
/opt/spark/logs/

5.web地址查看(可以直观的查看集群执行情况)

http://localhost:8088/cluster/apps
http://localhost:8080/
通过http://localhost:8088/cluster/apps看到执行成功SUCCEEDED
这里写图片描述
查看SparkPi运行结果,结果为Pi is roughly 3.140572。数值可能稍有不同。总之成功了!

这里写图片描述

这里写图片描述

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《Spark与Hadoop大数据分析》——2.5 小结
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章,第2.5节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1172 0
《Spark与Hadoop大数据分析》——1.5 小结
本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第1章,第1.5节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。
1192 0
Spark Streaming与Spark SQL结合操作详解
Spark Streaming最强大的地方在于,可以与Spark Core、Spark SQL整合使用,之前已经通 过transform、foreachRDD等算子看到,如何将DStream中的RDD使用Spark Core执行批处理操 作。现在就来看看,如何将DStream中的RDD与Spark SQL结合起来使用。
114 0
【译】使用Spark SQL 运行大规模基因组工作流
原文链接:https://databricks.com/blog/2019/06/26/scaling-genomic-workflows-with-spark-sql-bgen-and-vcf-readers.html
1466 0
8月28日社区直播【Spark Streaming SQL流式处理简介】
本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示
705 0
+关注
王小雷
专注大数据,人工智能的多面手,对新兴的技术与知识充满了好奇与渴望!
128
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载