开发者学堂课程【2020版大数据实战项目之 DMP 广告系统(第二阶段): CDH 搭建_仓库搭建_仓库下载】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/677/detail/11767
CDH 搭建_仓库搭建_仓库下载
内容介绍:
一、 Zookeeper 的安装方法
二、导入 CDH 的 Yum 源
三、安装 CDH 安装包同步工具
刚才已经把基础的配置做完。大家只需要在课下按照提供的笔记进行相应的复习即可。之后要装 Zookeeper ,装 Hadoop ,装 MySQL ,装 Hive ,装 Kudu ,装 inpala 。这是按照相互依赖的顺序进行安装的。如果要去使用 Hive ,但是 Hive 依赖于 MySQL 和 Hadoop 。 Hadoop 又依赖于 Zookeeper 。所以先装 Zookeeper 。先装 Kudu 后装 inpala 是因为 Kudu 安装完成后 inpala 会读取 Kudu 当中的内容,所以 inpala 会和 Kudu 进行小小的整合。所以 inpala 放在 Kudu 之后安装。又因为 inpala 依赖 Hive ,所以 Hive 在 Kudu 之前进行安装,以上就是安装过程。但需要注意的是,接下来所有软件的安装都会使用到 CDH 仓库。
一、 Zookeeper 的安装方法
Zookeeper 往常的安装方法是到 Apache Zookeeper 的官网中下载 Zookeeper 的压缩包,上传到服务器,拷贝到 x-per-severs 中。但是安装其他的工具、安装 MySQL 、安装时间的工具、安装系统级别的网络的工具,如默认的CentOS不支持 ifconfig 、netuts,此类都要使用 yum 安装。比较合理的安装 Zookeeper 这些工具的方式也是相同的,但 Apache 明显是不会帮助一起做的。因为 CDH 是一整套的解决方案,所以 CDH 在安装时,它的思路是不去下载安装包,直接去 Yum 仓库中使用 Yum 进行安装。它的好处有两个,第一个是安装方便;第二个是 Yum 安装时的目录和程序的组织形式比较像 Linux ,即 Yum 的安装比较 Linux 。比如之前放在 x-per 下,现在把安装包放在usr下,配置文件放在 etc 下,日志放在 vlog 下,数据放在word data 下,上述内容就是 Yum 安装的好处。 Yum 安装不好的地方是如果无法联网,即服务器不能访问外网,使用 Yum 就非常困难。这个问题的解决方法是配置一个本地的 Yum 仓库。它的好处是在安装工具的速度比较快,即安装工具不需要在网上下载等待较长时间。本地直接就有一个 Yum 仓库,把安装包放在本地的机器里,这时下载的速度就会变得很快。本视频让大家理解如何配置一个本地的 Yum 仓库。
二、导入 CDH 的 Yum 源
接下来,进入讲义当中,查看基本步骤。首先,如果是做一个本地的 Yum 仓库,就需要下载 CDH 的安装包们,即要用到的依赖的包、本身的包。所以,要先下载安装包。第二步是创建一个本地的 Yum 服务器。正常情况下, Yum 的安装类似于 maven ,一个是本机,一个服务器。它就相当于从 Yum 服务器当中把包拉下来进行下载安装。服务器叫 Yum 源。基本上所有 Linux 的发行版Z2都有一种类似于下载程序软件的包管理工具。比如,乌班图里的 APT 和 CentOS 当中的一样都很好使用。如果要创建一个本地的 Yum 仓库服务器,首先要在某一台主机上提供HTTP 服务,让局域网中的其他机器都能从这下载 Yum 的包。所以,在创建本地 Yum 仓库服务器时,就需要安装 HTTP 的服务器软件,提供80端口,让别人能访问到,包括本机也可以。总共分为两步,第一步非常简单,首先,下载 CDH 的安装包需要一个叫做 yum - utils createrepo 的工具。所以,如果想使用这两个工具,就需要先下载一个 Yum 源。下载 Yum 源的意义是能够去连接 cloudera 的服务器。 yum - utils createrepo 和 cloudera 是等会用到的工具。接下来,配置完成本地的服务器以后,把 wget https://archive .cloudera.com/cdh5/redhat/6/x86_64/cdh/cloudera-cdh5.repo 源改成本地的位置。配置步骤分为四步:第一步,配置 Cloudera 的远程 Yum 源。第二步,下载 Cloudera 提供的仓库工具。第三步,搭建仓库。第四步,修改 Cloudera 的源,改成本地的仓库。
先加载一个相同的 wget https://archive .cloudera.com/cdh5/redhat/6/x86_64/cdh/cloudera-cdh5.repo 的 Yum 源,进行复制。在到 cdh 01中,把cdh 01作为 Yum 仓库。 copy 内容,下载一个 Yum 源。下载完 Yum 源以后,会发现没有 wget ,所以使用 yum insall wget
。如下图。
这时等待安装,输入 y
使其继续运行。如下图。
当然 curl 也是可以的,只是习惯使用 wget 。下载完成后,可以看到没有问题,可以直接执行刚才的下载命令,等待下载完成。如下图。
完成后输入 ls 查看,下载了 Cloudera-cdh5.repo 工具,即 repo源。如下图。
输入 vi Cloudera-cdh5.repo
去查看 repo 。可以看到 baseurl ,其实指的就是 CDH 即 Cloudera 的远程 Yum 源仓库。如下图。
也就是说现在需要把 Cloudera-cdh5.repo 源配置到系统的 Yum 当中。让 Yum 能够使用源里的内容访问 Cloudera 。配置为,输入 mv Cloudera-cdh5.repo
文件移动到 / etc / yum . repos.d /的目录下。这时在进行 Yum 相应安装时,就可以使用 Cloudera的源。
三、安装 CDH 安装包同步工具
输入 yum install - y yum-utils createrepo
。指定安装搭建仓库时两个工具。第一个工具是 yum-utils ,第二个工具是 createrepo 。如下图。
按下回车,可以发现一部分读取了 Cloudera 的仓库。这就是步骤,如下图。
这时已经安装完成,没有问题。接下来,回到用户目录下,输入 clear
清空。此刻的做法是将 CDH 的整个 Yum 仓库拷贝到目录中。拷贝方式是使用 reposync -r cloudera-cdh5
进行下载。这个命令的含义是把 reposync 即仓库同步的命令 reposync 命令是刚才所装的 yum-utils
的命令,就可以把所有 Yum 仓库里的内容拷贝到 cloudera 的目录中。接下来,上传对应内容。右击选中 upload to carry folder 。
找到目录放到 Temp 的 files 里,找到 cloudera-cdh5 包,如下图。
它其实就是一个目录,即把整个目录上传进来,因为需要上传整个目录,所以就需要再次选中。因为没有直接上传目录的功能,所以如果大家使用的是像 mac 或者 Linux 的操作系统,就可以直接使用 scp 进行复制即可。这里是不能直接上传的,所以就需要找到整个目录,就包括整个 cdh 的所有安装包。接下来,将它变成一个文件,对它进行压缩,添加到压缩文件,为 zip 格式。如下图。
这时 zip 包已经压缩完成,把 zip 的包整个放在 Temp 的目录下的 files 中。但是 zip 上传到节点当中以后,需要使用 unzip 的命令进行压缩。大家可能需要安装 unzip 和 zip 两个命令。还有一种方式是,可以直接拉着文件夹将其拷贝下来,即拉到左侧白色页面,就会自动进行相应的上传。如下图。
上传完成,输入 ls 查看,发现有 cloudera-cdh5 的目录,它其实就是最终的所有 CDH 的仓库。
这是一个完整版的仓库。大家可以进去查看输入 cd RPMS/ 、 ls ;cd noarch/ 、 ls
。可以发现数据包相对来说是比较多的,基本上所有常见的 CDH 有的库都在这里,大家可以选择性的上传一些。
接下来,回顾刚才做的事情,即下载了 CDH 的安装包;第一步是介绍 CDH 是如何管理的软件。第二步是安装 CDH 的源,完成以后,安装了接下来用到的两个工具, yum-utils
和 createrepo
, yum-utils
里面有 reposync 的命令,可以把 cloudera-cdh5 的包全部下载下来当成 Yum 仓库。