hadoop集群环境搭建

简介:

hadoop大数据集群环境搭建步骤----安装伪分布式

所需软件: vmware workstation 11.0

         jdk1.7.0_67

        hadoop-2.7.3

        filezilla FTP工具

开始搭建步骤:

  1. 先安装一台linux服务器,(此步忽略) 需要的童鞋请到网上搜索安装linux系统

  2. 关防火墙

  3.  service iptables stop

  4. 2.设置IP地址

  5. vi /etc/sysconfig/network-scripts/ifcfg-eth0

  6. 或者图像化修改!

  7. 3.设置network文件hosts映射文件

  8. vi /etc/hosts

  9. vi /etc/sysconfig/network

  10. 4.安装jdk

  11. 上传JDK解压

  12. 配置环境变量: 

  13. vi /etc/profile

  14. source /etc/profile

  15. 5.安装hadoop

  16. 上传 hadoop-2.7.3.tar.gz 

  17. 解压

  18. 6.配置hadoop:

  19. 注意:配置过程可以参考:

  20. 离线开发文档:

  21. D:\hadoop\tools\hadoop-2.7.3\hadoop-2.7.3\share\doc\hadoop\index.html

  22. 在线文档:

  23. 配置:

  24. core-site.xml:

  25. <!--配置hdfs系统的地址和端口-->

  26.  <property>

  27.         <name>fs.defaultFS</name>

  28.         <value>hdfs://Hadoop:9000</value>  端口:8020 

  29.   </property>

  30. <property>

  31.       <name>fs.defaultFS</name>

  32.         <value>hdfs://hadoop-yarn.beicai.com:8020</value>

  33.   </property>

  34.    <property>

  35.       <name>hadoop.tmp.dir</name>

  36.        <value>/opt/modules/hadoop-2.5.0/data/tmp</value>

  37.     </property>

  38. hdfs-site.xml:

  39. <!--配置数据块的副本数-->

  40.   <property>

  41.         <name>dfs.replication</name>

  42.         <value>1</value>

  43.     </property>


  44. 先把mapred-site.xml.template 重命名为mapred-site.xml

  45. maperd-site.xml:

  46. <!--使用yarn管理mapreduce job-->

  47.   <property>

  48.   <name>mapreduce.framework.name</name>

  49.   <value>yarn</value>

  50.   </property>


  51. yarn-site.xml:

  52. <!--nodemanager节点使用mapreduce的shuffle过程-->

  53.     <property>

  54.         <name>yarn.nodemanager.aux-services</name>

  55.         <value>mapreduce_shuffle</value>

  56.     </property>

  57. hadoop-env.sh:

  58. 配置jdk:

  59. export JAVA_HOME=/opt/jdk



  60. 配置ssh免登陆:

  61. (1).cd /root/.ssh/

  62. (2).生成rsa秘钥:

  63.  ssh-keygen -t rsa   一路回车!!!

  64. (3).查看秘钥:

  65. ls

  66. id_rsa  id_rsa.pub  known_hosts

  67. (4).将公钥copy给自己!

  68. ssh-copy-id root@Hadoop(ssh-copy-id Hadoop有什么区别?)

  69. 然后可以查看目录下:

  70. authorized_keys


  71. 格式化集群:

  72. hdfs namenode -format

  73. 格式化查看日志:

  74. 17/02/17 16:18:30 INFO common.Storage: Storage directory 

  75. /tmp/hadoop-root/dfs/name has been successfully formatted

  76. 因为没配置指定的dfs目录(元数据和数据目录:name和data),所以name和data在Linux系统的tmp目录下:


  77. 启动集群:

  78. 启动hdfs模块:

  79. ./start-dfs.sh


  80. 看hdfs启动进程:jps

  81. 2608 DataNode

  82. 2480 NameNode

  83. 2771 SecondaryNameNode


  84. 启动yarn模块:

  85. ./start-yarn.sh

  86. 看hdfs启动进程:jps

  87. 2958 ResourceManager

  88. 3055 NodeManager


  89. 上传文件到hdfs:

  90. ./hadoop fs -put /file /


  91. /tmp/hadoop-root/dfs/目录下多出一个data目录,存放数据块


  92. /tmp/hadoop-root/dfs/name目录存放的是元数据!



  93. 查看webUI:

  94. http://192.168.57.2:50070/


  95. 192.168.57.2  是namenode的IP地址



  96. 配置hadoop环境变量:

  97. export HADOOP_HOME=/opt/hadoop-2.7.1

  98. export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

  99. 刷新:

  100. source /etc/profile


  101. 此后就可以在任何路径下使用hadoop下的bin和sbin的脚本!

  102. 本文转自   ChinaUnicom110   51CTO博客,原文链接:http://blog.51cto.com/xingyue2011/1899391

相关文章
|
5月前
|
分布式计算 Hadoop Java
CentOS中构建高可用Hadoop 3集群
这个过程像是在一个未知的森林中探索。但当你抵达终点,看到那个熟悉的Hadoop管理界面时,所有的艰辛都会化为乌有。仔细观察,尽全力,这就是构建高可用Hadoop 3集群的挑战之旅。
196 21
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
453 6
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
262 4
|
SQL 分布式计算 Hadoop
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
128 3
|
分布式计算 Hadoop Shell
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
159 3
|
SQL 存储 分布式计算
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
212 3
|
SQL 分布式计算 Hadoop
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
271 3
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
274 3
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
118 3
|
SQL 分布式计算 Hadoop
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
Hadoop-19 Flume Agent批量采集数据到HDFS集群 监听Hive的日志 操作则把记录写入到HDFS 方便后续分析
197 2

相关实验场景

更多