spark集群配置

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介:

mv /home/abc /home/abcd(修改目录名)

(1)vi /usr/local/hadoop/etc/hadoop/core-site.xml

<configuration>

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://skinglzw:9000</value>

        </property>

<property>

<name>hadoop.tmp.dir</name>

<value>/usr/local/hadoop/tmp</value>

</property>

  <property>

    <name>hadoop.native.lib</name>

    <value>true</value>

    <description>shold native hadoop libraries, if present ,be use</description>

  </property>

</configuration>

(2)vi  hdfs-site.xml

<property>

<name>dfs.replication</name>

<value>2</value>

</property>



<property>

<name>dfs.namenode.secondary.http-address</name>

<value>skinglzw:50090</value>

<description>The secondary namenode thhp server address and port.</description>

</property>


<property>

<name>dfs.namenode.name.dir</name>

<value>/usr/local/hadoop/dfs/name</value>

</property>


<property>

<name>dfs.datanode.data.dir</name>

<value>/usr/local/hadoop/dfs/data</value>

</property>


<property>

<name>dfs.namenode.checkpoint.dir</name>

<value>file:///usr/local/hadoop/dfs/namesecondary</value>

<description>Determaine where on the local filesystem theasfdfasfafafasdfaf  sdfasfasdfas</description>

</property>


(3)cp ./mapred-site.xml.template ./mapred-site.xml 

vi mapred-site.xml

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

(4)vi yarn-site.xml

<property>

<name>yarn.resourcemanager.hostname</name>

<value>skinglzw</value>

</property>


<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

(5)vi hadoop-env.sh

export JAVA_HOME=/usr/local/jdk/jdk1.8.0

export HADOOP_HOME=/usr/local/hadoop

export HADOOP_COMMON_LIB_NATIVE=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

(5.1) vi slaves

skinglzw1

skinglzw2

skinglzw3

skinglzw4


(6)vi ~/.bashrc

export JAVA_HOME=/usr/local/jdk/jdk1.8.0

export JRE_HOME=${JAVA_HOME}/jre

export HADOOP_HOME=/usr/local/hadoop

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native

export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib"

export SCALA_HOME=/usr/local/scala/scala-2.10.4

export SPARK_HOME=/usr/local/spark/spark-1.6.0-bin-hadoop2.6

export FLINK_HOME=/usr/local/flink/flink-0.9.0

export HIVE_HOME=/usr/local/hive/apache-hive-1.2.1

export M2_HOME=/usr/local/spark/apache-maven-3.2.2/

export CLASS_PATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:${HIVE_HOME}/lib

export PATH=/usr/local/eclipse/eclipse:${M2_HOME}/bin:${SPARK_HOME}/bin:${SPARK_HOME}/sbin:${SCALA_HOME}/bin:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${HIVE_HOME}/bin:${FLINK_HOM}/bin:$PATH


source ~/.bashrc(每台机器都要执行,才能生效)

scp /home/skinglzw/.bashrc root@skinglzw1:/home/skinglzw1/.bashrc

scp /home/skinglzw/.bashrc root@skinglzw2:/home/skinglzw2/.bashrc

scp /home/skinglzw/.bashrc root@skinglzw3:/home/skinglzw3/.bashrc

scp /home/skinglzw/.bashrc root@skinglzw4:/home/skinglzw4/.bashrc



vi /etc/hosts

192.168.23.131  skinglzw

192.168.23.128  skinglzw1

192.168.23.129  skinglzw2

192.168.23.130  skinglzw3

192.168.23.132  skinglzw4

scp /etc/hosts root@skinglzw1:/etc/hosts

scp /etc/hosts root@skinglzw2:/etc/hosts

scp /etc/hosts root@skinglzw3:/etc/hosts

scp /etc/hosts root@skinglzw4:/etc/hosts


scp -r /usr/local/jdk/ root@skinglzw4:/usr/local(传某个目录,整个目录加-r)

scp -r /usr/local/scala/ root@skinglzw4:/usr/local

scp -r /usr/local/spark/ root@skinglzw4:/usr/local

scp -r /usr/local/hive/ root@skinglzw4:/usr/local

scp -r /usr/local/hadoop/ root@skinglzw4:/usr/local


文件格式化

bin/hdfs namenode -format


/usr/local/hadoop/sbin

./start-dfs.sh

./stop-dfs.sh

yarn资源管理或者调度

./start-yarn.sh(启动yarn比启动hdfs快很多,因为safemode进行数据的检查和恢复)

http://skinglzw:50070

http://skinglzw:8088

配置spark  cp ./spark-env.sh.template ./spark-env.sh vi spark-env.sh

export JAVA_HOME=/usr/local/jdk/jdk1.8.0

export SCALA_HOME=/usr/local/scala/scala-2.10.4

export HADOOP_HOME=/usr/local/hadoop

export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

export SPARK_MASTER_IP=skinglzw

export SPARK_WORKER_MEMORY=1g

export SPARK_EXECUTOR_MEMORY=1g

export SPARK_DRIVER_MEMORY=1g

export SPARK_WORKER_CORES=8


vi slaves

skinglzw1

skinglzw2

skinglzw3

skinglzw4


vi spark-defaults.conf

spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

spark.eventLog.enabled    true

spark.eventLog.dir      hdfs://skinglzw:9000/historyserverforSpark

spark.yarn.historyServer.address  skinglzw:18080

spark.history.fs.logDirectory    hdfs://skinglzw:9000/historyserverforSpark

 

scp ./spark-env.sh root@skinglzw1:/usr/local/spark/spark-1.6.0-bin-hadoop2.6/conf/spark-env.sh

scp ./slaves root@skinglzw1:/usr/local/spark/spark-1.6.0-bin-hadoop2.6/conf/slaves


hadoop dfs rm -r /historyserverforSpark (删除历史信息,如果有的话就删除)

hadoop dfs mkdir /historyserverforSpark

/usr/local/spark/spark-1.6.0-bin-hadoop2.6/sbin

ulimit -c unlimited(我的虚拟机是单核的2线程,所有要先设置下,不然会报错,启动不起啦)

nodemanaget没启动起来不知道为什么

./start-all.sh(去其他机器用jps看下work进程有没有启动起来,没有的话,stop-all.sh命令执行,再start-all.sh执行一次,还不成功,多试几次就成功了,我的虚拟机配置低的原因)

./start-history-server.sh

http://skinglzw:8080

http://skinglzw:18080

bin目录下

spark-submit 提交spark程序

spark-shell


本文转自 skinglzw 51CTO博客,原文链接:http://blog.51cto.com/skinglzw/1867055,如需转载请自行联系原作者

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
分布式计算 大数据 Java
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
66 5
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
54 3
|
2月前
|
分布式计算 大数据 Java
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
39 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
|
2月前
|
存储 缓存 分布式计算
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
47 4
|
2月前
|
分布式计算 大数据 Spark
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
大数据-95 Spark 集群 SparkSQL Action与Transformation操作 详细解释与测试案例(二)
44 1
|
2月前
|
JSON 分布式计算 大数据
大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出
大数据-85 Spark 集群 RDD创建 RDD-Action Key-Value RDD详解 RDD的文件输入输出
38 1
|
2月前
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
42 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
2月前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(一)
38 0
|
2月前
|
SQL 分布式计算 大数据
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
大数据-100 Spark 集群 Spark Streaming DStream转换 黑名单过滤的三种实现方式(二)
32 0
|
2月前
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
35 0
下一篇
DataWorks