开发者学堂课程【大数据Impala教程:安装部署--rpm 包本地 yum 源制作】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/722/detail/12887
安装部署--rpm 包本地 yum 源制作
内容介绍:
一、安装前提
二、下载安装包、依赖包
三、虚拟机新增磁盘(可选)
四、设置本地 yum 源
五、总结
一、安装前提
Impala 的安装部署。可以用一句话概括一下,Impala 的安装相比其他的大数据软件较为复杂、麻烦,在搞清楚命令的前提下,需要按照安装步骤进行。
1.两个前提
首先第一步叫做安装的前提,通过理论学习知道,Impala 需要借助 hive 来进行元数据的存储或者共用同一套元数据,所以在安装 Impala 集群之前,需要保证 hive 是安装好的。hive 的元数据是正常启动的。hive 又依赖于 Hadoop 集群,因此 Hadoop 集群也要提前安装好,是两个前提。
2.依赖包
接下来要把 hive 安装包拷贝给其他需要安装 Impala 的节点上。因为 Impala 需要 hive 的依赖包。
3.C 程序访问
最后一个安装的前提需要判断一下所使用的 Hadoop 框架能不能支持 C 程序的访问。Impala 的后端有一个 C++ 端来支持,最后需要进行本地库的访问。需要 C 语言进行调用接口访问 Hadoop 框架,如果说使用的是官方编译的应该是没有问题的,如果说是自己编译的一定要确认一下。
4.验证
验证很简单,来到安装包的根目录下,里面有 lib ,lib 中有一个 native。如果在其中发现了 libhadoop 各种 C 语言的文件说明支持。接下来在机器中进行验证。安装路径在 export /server 路径下选择 hadoop-2.7.5,注意在 lib 下的 native 回车。发现 C 语言的软件也存在,说明支持 C 程序访问接口,这是一个安装前提。
二、下载安装包、依赖包
1.选择方式
第二步是安装包和依赖包的下载,Impala 没有提供 tar 包进行安装。只提供了非常原始的 rpm 包,因此在进行 Impala 安装的时候有两种方式进行选择。
(1)第一种,把 Impala 的 rpm 包连同它的依赖,一个一个寻找,通过手动的方式进行安装。
(2)另外一种可以把 Impala 的 rpm 包做成 yum 源,通过 yum 的方式进行安装,但是要注意 Impala 的 rpm 包并没有在开源的公有的 yum 源上。因为它属于商业公司 Cloudera 提供的,所以必须去 Cloudera 这家公司下载 rpm 包即可。
(3)最快捷
强调了最终选择安装 Impala 最快捷,最便利的方式就是去 Cloudera 官网下载所有的 rpm 包,把 rpm 包做成本地的 yum 源,通过 yum 的方式安装,安装时候会自己去寻找所要安装软件的依赖。
2.可以通过讲义上下载的地址下载
(http://archive .cloudera.com/cdh5/repo-as-tarball/5.14.0/cdh5.14.0-centos6.tar.gz)
这个压缩包大概有五个多 G,如果觉得下载较慢,可以打开参考资料,在资料软件下面有一个 Impala 提供好的 tar 包大概是5.04G ,可以利用这个首先制作一个本地 yum 源。因为公有的 yum 源上并没有它。可以进行访问,当下载好安装包后,第三步是可选的。
三、虚拟机新增磁盘(可选)
1.原因
这一块主要跟虚拟机相关,因为现在环境都是用 VMware 虚拟出来的集群。在安装迅捷的时候会设置它的内存和磁盘大小,磁盘可能是10G 或是20G,但是刚才这个 tar 包就有5G 这么多,再把它解压出来又有5G 。这个包制作 yum 源。大概解压的过程中就要10G 左右或是多一点。
2.关机新增磁盘
如果本地虚拟机磁盘不够。怎么去新增一个磁盘。第三步就是一个操作,涉及大量的底层的支持,所以是一个可选项。如果磁盘不够,可以根据步骤进行,如果够,可以直接进行解压。
四、设置本地 yum 源
接下来看本地 yum 源的制作方式,解压出来。首先来到服务器的 Cloudera 中,在这里做一个简单的规划。因为现在有三个机器 node-1、node-2、node-3。在 node-1上启动了许多服务。因此在做规划的时候,避免资源的抢夺,所以只好反过来,以第三台机器作为主节点,安装一些主要的服务,其他的作为重节点。
1.Impala 集群安装规划
因此在笔记上做一个简单的规划叫做 Impala 集群安装规划。这个规划主要结合具体环境和企业当中的环境,在 node-3 上安装一些核心的服务,包括 Impalad 以及所谓的存储状态信息的 Impala State Store 安装在 node-3上。包括所谓的 Impala Catalogd 保存跟 hive 进行元数据交互的也安装在这里,这就意味着在机器上安装了三台服务。如果 node-1机器资源比较大,可以安装在1上,顺序没有关系。在 node-2和 node-1上,只要装一个非常简单的 node-1。这样就完成了一个简单的集群规划,所以在制作 yum 源的时候,为了方便方便,可以部署在 node-3上,要注意结合环境进行操作。在企业中服务器不可能是虚拟机,资源较充足,所以不需要精细考虑这一步。
2.注意
访问 Impalad 默认有一个 Impala shell把它安装在第三台机器上。相当于把第三台机器作为文件重点安装。相当于一和三作为一个对调,把三作为一个主接点重点使用。规划好后配置本地 yum 源。因为刚才规划的时候,大量的软件服务模块都在 node-3上,为了安装更加方便,就在第三台机器上制作本地 yum 源。
3.配置本地 yum 源
(1)发现问题
打开服务器,来到第三台机器下,创建了一个目录叫做 Cloudera date,cd进去。在路径下发现已经上传好了 tar 包,大概是5.0G,有一个小技巧,当我们使用 crt 上传超过4G 大文件的时候,直接拖拽,是拽不进来的,会上传中断。
(2)解决问题
这时候针对大文件。一般使用 sftp 的方式进行上传。就是按下 Alt+P 按钮打开窗口,选择本地进行上传,这可以帮助解决大文件上传的问题。tar 包上传之后,做一个解压,解压需要一定的时间。用 tar-zxvf 解压到当前路径回车,解压完成,得到一个文件夹。继续进行操作,要配置本地 yum 源,则需要准备本地 yum 源的配置文件,首先需要安装一个 Apache Server 服务器。因为本地 yum 源除了给 node-3这台机器提供服务之外。还要给 node-1、node-2提供服务,也需要通过 yum 方式安装一些相关的依赖,因为规划时候说过,在1和2上,也需要安装 Impala 服务,通过 Apache 服务,把 yum 源可以对外提供服务。使用 yum-y install httpd 安装。安装好后,观察具体的使用效果。显示成功安装并且是最新版本,未安装就会自动更新。安装好后可以根据命令来启动服务。Apache Server 名称叫做 httpd ,启动它用 service httpd,启动用 start ,关闭用 stop ,这是为了 yum 源后续开机在任何时候都可以用。要做一个设置,把 Apache 服务器设置为开机自启动,这一点至关重要。万一以后突然用 yum 源发现安装不了或者出什么问题,可以考虑一下这个服务是否没有集起来。
明白后进行操作复制 chkconfig httpd on。接下来配置本地 yum 源。首先来到 yum 源配置的文件路径在 etc 下叫做 yum.repos.d,cd 进去。在路径下发现里面有很多的.repo 文件,这就是自带的 yum 源文件。通过这些解析到网络 yum 源,这时候需要编辑一个本地 yum 源,在这里面已经提前编辑好了,yum 源名字叫做什么没关系,但后缀一定要是 repo。这里面有几个属性要注意一下,第一个是 baseurl ,地址指向能够访问的路径。刚才把安装包解压到 Cloudera 路径下,但这个路径下并不是 yum Apache Server 默认的工作路径。默认的路径是在 var 路径下 www/html,这时候针对操作有两种方式。第一个,不方便的话可以用 mv 把解压后的安装包移动到路径下。另外一个则是创建一个软链接,把解压后的路径链接到 Apache Server 的路径下,相当于通过/var/www/html/cdh5.14.0就可以访问到文件。
(3)创建的目的
原因在于文件特别大,移动操作不方便操作。都是一个原因,就是它的文件比较大,所以创建一下,直接执行命令,在第三台机器上,链接创建好之后,接下来看一下配置文件。
(4)创建读取链接
协议指向 node-3/cdh5.14.0所配置的路径,相当于只要把 Apache 服务启动起来,任何机器都可以去访问这个 yum 源,进行下载。enable=1也很重要,表示是否启用本地 yum 源,配置好后进行操作,让 yum 源生效。叫做 yum repolist all,显示当前所有可用的 yum 源。会把通过下面所有配置文件解析出来 yum 源展示出来。叫做 localimp,本地 yum 源是一个 enable 可用的等下可以使用它进行访问。
(5)关闭防火墙
配置好之后做两件事,首先把防火墙永久关闭。一旦不是永久关闭,就没有权限访问 Apache 服务器。
(6)验证
如果这一切都没有问题之后,想要验证 yum 源是否可用,访问一下刚才指定的链接。当双击链接后,可以通过浏览器访问到在 node-3机器上配置的 yum 源,里面就是通过 tar 包解压的。有大量的 rpm 包,这些包有大有小,比如说跟 Hadoop 相关的,跟 hbase 相关的,跟 hue 相关的,跟 Impala 相关的。再去安装就可以从这里面去寻找依赖包,并且去寻找相关依赖。所以安装 Impala 就会非常方便。这是安装 Impala 最大的一点。通过官方自带的 tar 包制作本地 yum 源,配置好后把 yum 配置文件拷贝给其他的机器,否则的话,可能只有 node-3可以访问,node-2、node-1访问不了,这是安装 Impala 之前做的相关操作。
五、总结
把这些步骤做一个简单的总结。
1.Impala 安装相比于其他的软件非常的特殊
Impala 没有提供 tar 包安装,只有 rpm 包,并且这个 rpm 包只有 Cloudera 公司提供。
2.选择方式
因此在这个前提下有两种选择,自己去官网下载 rpm 包与其相关的依赖。第二种方式,自己制作本地 yum 源。第二种方式比较方便,后续安装 Impala 其他的 Cloudera 软件可以联网安装本地 yum 源。
3.注意
特别注意本地 yum 源的安装需要 Apache Server 对外提供 web 服务,使得各个机器都可以访问下载 yum 源。
这是当下需要注意的几件事,保证 yum 源安装这些注意事项,在页面上看到这样的浏览访问说明成功。