大数据成长之路------hadoop集群的部署(2)Hadoop集群安装部署

简介: 大数据成长之路------hadoop集群的部署(2)Hadoop集群安装部署

hadoop集群的部署

Hadoop集群安装部署

1、服务器主机名和IP配置(三台)
2、修改每个主机的/etc/hosts文件,添加IP和主机名的对应关系(三台)
3、管理节点到从节点配置无密码登录
4、配置jdk  1.8(三台)
5、关闭防火墙(三台)
6、关闭selinux(三台)
vi   /etc/selinux/config
SELINUX=enforcing        SELINUX=disabled
    重启系统

安装流程

1、上传软件包到管理节点,在管理节点解压并配置
    2、将修改完的解压包,远程拷贝到所有的从节点
    3、启动软件

Hadoop安装部署

1、软件包上传并解压

a)tar -zxvf hadoop-2.6.0-cdh5.14.0-with-centos6.9.tar.gz  -C ../servers/

2、第二步查看hadoop支持的压缩方式以及本地库

a)./hadoop checknative

b)安装openssl
yum -y install openssl-devel
        ./hadoop checknative

3、修改配置文件

a)core-site.xml
b)hdfs-site.xml
c)Hadoop-env.sh  (不用改)
d)mapred-site.xml
i.cp  mapred-site.xml.template    mapred-site.xml
ii.修改
e)yarn-site.xml
f)slaves 

4、创建文件夹

mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/tempDatas
  mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas
  mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas 
  mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/edits
  mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/snn/name
  mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/snn/edits

5、安装包的分发

scp -r hadoop-2.6.0-cdh5.14.0/ node02:$PWD
    scp -r hadoop-2.6.0-cdh5.14.0/ node03:$PWD

6、配置hadoop环境变量

a) 创建文件/etc/profile.d/hadoop.sh 并编辑
export  HADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0
export  PATH=$PATH:$HADOOP_HOME/bin
b)source /etc/profile

7、启动集群

a)格式化集群

在第一个节点执行 hadoop namenode -format

b)启动

i.每个组件独立启动

1.启动namenode   node01节点   ./hadoop-daemon.sh  start  namenode
2.启动namenode  node01、02、03节点  ./hadoop-daemon.sh  start  datanode
3.启动resourcemanager   node01节点  ./yarn-daemon.sh   start  resourcemanager
4.启动nodemanager  node01、02、03节点    ./yarn-daemon.sh  start  nodemanager

ii.单独启动

1.单独启动HDFS  :  ./start-dfs.sh        关闭 ./stop-dfs.sh
2.单独启动Yarn   :  ./start-yarn.sh       关闭 ./stop-yarn.sh

iii.一键启动所有

启动:

./start-all.sh            

关闭:

./stop-all.sh

总结:

组件启动有一定顺序,必须严格依照

8、浏览器查看启动页面

http://主节点ip:50070

http://主节点ip:8088

Hadoop集群初体验

数据的上传

创建文件夹:hadoop  fs  -mkdir   /BD19
     查看文件夹内容:  hadoop  fs  -ls  /BD19
    上传数据:hadoop  fs  -put XXX.txt  /BD19

大数据计算

计算pi   3.141592653……
hadoop jar  /export/servers/hadoop-2.6.0-cdh5.14.0/share/hadoop/mapreduce/
hadoop-mapreduce-examples-2.6.0-cdh5.14.0.jar  pi  10  100


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
15天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
37 2
|
15天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
3天前
|
存储 分布式计算 Hadoop
基于Hadoop分布式数据库HBase1.0部署及使用
基于Hadoop分布式数据库HBase1.0部署及使用
|
8天前
|
分布式计算 负载均衡 Hadoop
Hadoop集群节点添加
Hadoop集群节点添加
|
13天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
41 9
|
14天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
【4月更文挑战第4天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
23 4
|
16天前
|
存储 分布式计算 Hadoop
【Hadoop】Hadoop的三种集群模式
【4月更文挑战第9天】【Hadoop】Hadoop的三种集群模式
|
16天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
58 1
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0