spark和zeppelin实践一:安装hadoop篇

简介:

一、安装JDK


1.7 JDK下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

下载后安装


[plain] view plain copy 在CODE上查看代码片派生到我的代码片

  1. rpm -ivh jdk-8u112-linux-x64.rpm  


设置JDK环境变量


[plain] view plain copy 在CODE上查看代码片派生到我的代码片

  1. export JAVA_HOME=/usr/java/jdk1.8.0_112  

  2. export CLASSPATH=$JAVA_HOME/lib/tools.jar    

  3. export PATH=$JAVA_HOME/bin:$PATH    



二、安装Hadoop


1、DNS绑定


vi /etc/hosts,增加一行内容,如下(这里我的Master节点IP设置的为192.168.80.100):

[plain] view plain copy 在CODE上查看代码片派生到我的代码片

  1. 192.168.80.100 IMM-SJJ01-Server18  


2、SSH的免密码登录


[plain] view plain copy 在CODE上查看代码片派生到我的代码片

  1. cd /home/data/.ssh  

  2. ssh-keygen -t rsa  

  3. cat id_rsa.pub >> authorized_keys  



3、安装Hadoop

[plain] view plain copy 在CODE上查看代码片派生到我的代码片

  1. #http://hadoop.apache.org/releases.html  

  2. wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz  

  3.   

  4. cd /home/game/soft  

  5. tar zxvf hadoop-2.7.3.tar.gz  

  6. ln -s /home/game/soft/hadoop-2.7.3 /home/game/soft/hadoop  


#4、配置

1) 设置Hadoop环境变量

[plain] view plain copy 在CODE上查看代码片派生到我的代码片

  1. vim ~/.bash_profile 或 /etc/profile  

  2. export HADOOP_HOME=/home/game/soft/hadoop  

  3. export PATH=$HADOOP_HOME/bin:$PATH  

  4.   

  5. echo $HADOOP_HOME 

  6.  

2)修改hadoop-env.sh


[plain] view plain copy 在CODE上查看代码片派生到我的代码片

  1. vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh  

  2. export JAVA_HOME=${JAVA_HOME} 改为  

  3. export JAVA_HOME=/usr/java/jdk1.8.0_112  

3)修改/etc/hosts


4)修改core-site.xml


[plain] view plain copy 在CODE上查看代码片派生到我的代码片

  1. cd $HADOOP_HOME  

  2. cp ./share/doc/hadoop/hadoop-project-dist/hadoop-common/core-default.xml ./etc/hadoop/core-site.xml  

  3. cp ./share/doc/hadoop/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml ./etc/hadoop/hdfs-site.xml  

  4. cp ./share/doc/hadoop/hadoop-yarn/hadoop-yarn-common/yarn-default.xml ./etc/hadoop/yarn-site.xml  

  5. cp ./share/doc/hadoop/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml ./etc/hadoop/mapred-site.xml  

  6.   

  7.   

  8. vim $HADOOP_HOME/etc/hadoop/core-site.xml  

  9. <property>  

  10.   <name>fs.default.name</name>  

  11.   <value>hdfs://192.168.80.100:19000</value>  

  12. </property>  

  13. <property>  

  14.   <name>hadoop.tmp.dir</name>  

  15.   <value>/home/game/hadoop/tmp</value>  

  16. </property>  

5)修改配置hdfs-site.xml

[plain] view plain copy 在CODE上查看代码片派生到我的代码片

  1. <property>  

  2.   <name>dfs.namenode.rpc-address</name>  

  3.   <value>192.168.80.100:19001</value>  

  4. </property>  

  5.   

  6. <property>  

  7.   <name>dfs.namenode.http-address</name>  

  8.   <value>0.0.0.0:10070</value>  

  9. </property>  

6)修改mapred-site.xml

[plain] view plain copy 在CODE上查看代码片派生到我的代码片

  1. cp mapred-site.xml.template mapred-site.xml  

  2. <property>  

  3.   <name>mapreduce.framework.name</name>  

  4.   <value>yarn</value>  

  5. </property>  


7)修改yarn-site.xml

[plain] view plain copy 在CODE上查看代码片派生到我的代码片

  1. <property>  

  2.   <description>The http address of the RM web application.</description>  

  3.   <name>yarn.resourcemanager.webapp.address</name>  

  4.   <value>${yarn.resourcemanager.hostname}:18088</value>  

  5. </property>  


5、启动


1)格式化NameNode

cd $HADOOP_HOME/bin
./hdfs namenode -format

#2)启动hdfs
/home/game/soft/hadoop/sbin/start-dfs.sh


jps查看是否启动成功


16704 DataNode
16545 NameNode
16925 SecondaryNameNode

hdfs dfs -ls hdfs://192.168.80.100:19001/


#3) 启动yarn
/home/game/hadoop-2.7.3/sbin/start-yarn.sh


[game@IM-SJ01-Server18 sbin]$ jps


17427 NodeManager
19668 ResourceManager


yarn node -list


yarn node -status


#4)页面显示
192.168.80.100:10070


192.168.80.100:18088


#6、上传测试
hadoop fs -mkdir -p hdfs://192.168.80.100:19001/test/
hadoop fs -copyFromLocal ./test.txt hdfs://192.168.80.100:19001/test/
hadoop fs -ls hdfs://192.168.80.100:19001/


hadoop fs -put /opt/program/userall20140828 hdfs://localhost:9000/tmp/tvbox/











本文转自 chengxuyonghu 51CTO博客,原文链接:http://blog.51cto.com/6226001001/1894096,如需转载请自行联系原作者
目录
相关文章
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
191 6
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
82 2
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
115 2
|
1月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
83 1
|
2月前
|
SQL 分布式计算 Hadoop
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
87 3
|
4月前
|
分布式计算 资源调度 Hadoop
centos7二进制安装Hadoop3
centos7二进制安装Hadoop3
|
4月前
|
存储 分布式计算 资源调度
Hadoop生态系统概览:从HDFS到Spark
【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
355 0
|
4月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
78 0
|
分布式计算 数据可视化 IDE
5月21日 Spark 社区直播【Spark on Zeppelin】
Apache Zeppelin 是一个交互式的大数据开发Notebook,从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势:不需要编译Jar,环境配置简单,交互式开发,数据结果可视化等等。 本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。
5月21日 Spark 社区直播【Spark on Zeppelin】
|
1月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
141 2
ClickHouse与大数据生态集成:Spark & Flink 实战

相关实验场景

更多