hadoop搭建、mysql、hive部署(一)

本文涉及的产品
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
简介: hadoop搭建、mysql、hive部署

一、 HDFS安装搭建


1.1 关闭虚拟机防火墙


在之后的学习、操作中,经常会遇到在宿主机中通过程序去访问虚拟机中的相关软件,但是默认情况下,虚拟机的防火墙是不允许访问,这是需要开启一个一个的端口号,比较麻烦,所以在教学过程中,为了提高教学、学习的效率,直接关闭虚拟机的防火墙。(注意在实际的生产环境中不可以,在生产环境中通常是通过关闭端口实现的)


防火墙相关指令:


启动:systemctl start firewalld


关闭:systemctl stop firewalld


重启:systemctl restart firewalld


查看防火墙状态:systemctl status firewalld / firewall-cmd --state


在开机时启用防火墙:systemctl enable firewalld


在开机时禁用防火墙:systemctl disable firewalld




1.2 配置hosts文件


命令:vi /etc/hosts




注:配置文件中的“hadoop”根据实际用户填写


1.3 配置免密登陆


命令:ssh-keygen -t rsa


然后一直回车,直到出现:



注:(方框中的图案每个虚拟机都不相同)


此时,会产生两个文件 id_rsa(私钥) id_rsa.pub(公钥),生成节点的公钥和私钥,生成的文件会自动放在/root/.ssh目录下


第二步:执行:ssh-copy-id root@hadoop


此处hadoop其实就是hosts文件中ip的映射,这一步实际上是将公钥拷贝到


/root/.ssh/authorized_keys 这个文件里(等同于cp id_rsa.pub authorized_keys #拷贝公钥到ssh文件)


格式化成功截图:



1.4 上传jdk和hadoop安装包


将jdk和hadoop的安装包上传到虚拟机



方式一(有网络连接):


直接使用yum源安装rz


命令: yum install lrzsz



方式二:使用filezilla上传安装包





1.5 安装配置JDK


1 解压安装包



注:这里输入方式为tar -xvf jdk “tab”,会自动补全


2 重命名目录(可选操作)



3 设置环境变量



在文件尾添加:


export JAVA_HOME=/software/jdk1.8
export PATH=J A V A H O M E / b i n : JAVA_HOME/bin:JAVA 
HOME/bin:PATH:$HOME/bin
export CLASSPATH=.:J A V A H O M E / l i b / d t . j a r : JAVA_HOME/lib/dt.jar:JAVA 
HOME/lib/dt.jar:JAVA_HOME/lib/tools.jar


注:该截图Java_home文件目录多/home


保存退出,利用命令使配置立即生效 source /etc/profile



利用命令查看jdk版本信息,检验jdk的安装配置是否成功



1.6 安装配置hadoop


1.解压安装包



2.配置环境变量



export HADOOP_HOME=/software/hadoop2.6

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin:$PATH:$HOME/bin




该截图hadoop_home文件目录多/home


source /etc/profile 使其立即生效


3. 配置hadoop-env.sh


vim /software /Hadoop-2.7.3/etc/hadoop /hadoop-env.sh


export JAVA_HOME=/software/jdk1.8 #必须配置(25行)


export HADOOP_CONF_DIR=/software/hadoop2.6/etc/hadoop (33行)



(之所以配置路径是因为自带的往往定位不到,会发生某些错误)


注:该截图文件目录多/home


4.配置core-site.xml


vim /software /Hadoop-2.7.3/etc/hadoop/core-site.xml


在<configuration>标签添加:


<configuration>


<!--用来指定hdfs的namenode的地址-->


<property>


<name>fs.defaultFS</name>


<value>hdfs://hadoop:9000</value>


</property>


<!--用来指定hadoop运行时产生文件的存放目录-->


<property>


<name>hadoop.tmp.dir</name>


<value>/software/hadoop-2.7.3/tmp</value>


</property>


</configuration>



5. 配置hdfs-site.xml


vim /software /Hadoop-2.7.3/etc/hadoop/hdfs-site.xml


在**<configuration>**标签添加:


<configuration>


<!-- 指定hdfs副本数量 -->


<property>


<name>dfs.replication</name>


<value>1</value>


</property>


<!-- 关闭hdfs权限检查 -->


<property>


<name>dfs.permissions</name>


<value>false</value>


</property>


</configuration>



【注】:


dfs.replication默认是3,此处我们只需要伪分布式,所以设置为1即可;


dfs.permissions 设置为false代表所有用户都可以在hdfs上操作文件,这只是为了以后利用eclipse的hadoop插件上传下载文件方便


6. 配置mapred-site.xml


此文件原本不存在,只有一个模板文件mapred-site.xml.template



将其复制一份并改名为mapred-site.xml(注意路径为hadoop2.7.3/etc/hadoop)




vim /software /Hadoop-2.7.3/etc/hadoop/mapred-site.xml


在**<configuration>**标签添加:


<configuration>


<!-- 配置mapreduce作业运行在yarn上 -->


<property>


<name>mapreduce.framework.name</name>


<value>yarn</value>


</property>


</configuration>



7. 配置yarn-site.xml


vim /software /Hadoop-2.7.3/etc/hadoop/yarn-site.xml


在**<configuration>**标签添加:


<configuration>


<!-- 指定resourceManager的主机 -->


<property>


<name>yarn.resourcemanager.hostname</name>


<value>hadoop</value>


</property>


<!-- reduce任务的数据来源 -->


<property>


<name>yarn.nodemanager.aux-services</name>


<value>mapreduce_shuffle</value>


</property>


</configuration>



1.7 启动hadoop


此时hadoop已经成功安装配置,在首次启动之前,需要对namenode进行格式化(类似于新买的硬盘需要格式化一样,因为hdfs本身就是一个文件系统)


命令: hdfs namenode -format


以下3个部分一致即格式化成功



启动hadoop的hdfs:


命令:start-dfs.sh


输入jps,只要出现以下进程即启动成功:



启动mapreduce:(需要先启动hdfs):


命令:start-yarn.sh


利用jps命令查看进程:



除了jps命令,还可以通过web界面来查看(建议使用google浏览器,同时注意关闭防火墙)

hdfs web界面:


ip地址:50070



mapreduce web界面:


ip地址:8088


以上就是hadoop环境搭建教程,下面如果退出请先stop-all.sh 关闭进程。



相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。 &nbsp; 相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/mysql&nbsp;
目录
相关文章
|
6月前
|
存储 关系型数据库 MySQL
MySQL Docker 容器化部署全指南
MySQL是一款开源关系型数据库,广泛用于Web及企业应用。Docker容器化部署可解决环境不一致、依赖冲突问题,实现高效、隔离、轻量的MySQL服务运行,支持数据持久化与快速迁移,适用于开发、测试及生产环境。
926 4
|
11月前
|
Java 关系型数据库 MySQL
在Linux平台上进行JDK、Tomcat、MySQL的安装并部署后端项目
现在,你可以通过访问http://Your_IP:Tomcat_Port/Your_Project访问你的项目了。如果一切顺利,你将看到那绚烂的胜利之光照耀在你的项目之上!
542 41
|
8月前
|
关系型数据库 MySQL 数据库
为什么 MySQL 不推荐用 Docker 部署?
本文探讨了MySQL是否适合容器化的问题,分析了Docker容器在数据安全、性能瓶颈、状态管理及资源隔离等方面的挑战,并指出目前主流分布式数据库如TDSQL和OceanBase仍倾向于部署在物理机或KVM上。
415 0
|
11月前
|
开发框架 Java 关系型数据库
在Linux系统中安装JDK、Tomcat、MySQL以及部署J2EE后端接口
校验时,浏览器输入:http://[your_server_IP]:8080/myapp。如果你看到你的应用的欢迎页面,恭喜你,一切都已就绪。
680 17
|
11月前
|
Java 关系型数据库 MySQL
在Linux操作系统上设置JDK、Tomcat、MySQL以及J2EE后端接口的部署步骤
让我们总结一下,给你的Linux操作系统装备上最强的军队,需要先后装备好JDK的弓箭,布置好Tomcat的阵地,再把MySQL的物资原料准备好,最后部署好J2EE攻城车,那就准备好进军吧,你的Linux军团,无人可挡!
368 18
|
存储 关系型数据库 MySQL
美团面试:MySQL为什么 不用 Docker部署?
45岁老架构师尼恩在读者交流群中分享了关于“MySQL为什么不推荐使用Docker部署”的深入分析。通过系统化的梳理,尼恩帮助读者理解为何大型MySQL数据库通常不使用Docker部署,主要涉及性能、管理复杂度和稳定性等方面的考量。文章详细解释了有状态容器的特点、Docker的资源隔离问题以及磁盘IO性能损耗,并提供了小型MySQL使用Docker的最佳实践。此外,尼恩还介绍了Share Nothing架构的优势及其应用场景,强调了配置管理和数据持久化的挑战。最后,尼恩建议读者参考《尼恩Java面试宝典PDF》以提升技术能力,更好地应对面试中的难题。
|
11月前
|
开发框架 关系型数据库 Java
Linux操作系统中JDK、Tomcat、MySQL的完整安装流程以及J2EE后端接口的部署
然后Tomcat会自动将其解压成一个名为ROOT的文件夹。重启Tomcat,让新“植物”适应新环境。访问http://localhost:8080/yourproject看到你的项目页面,说明“植物”种植成功。
314 10
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
531 1
|
11月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
389 0

推荐镜像

更多
下一篇
开通oss服务