开发者学堂课程【2020版大数据实战项目之 DMP 广告系统(第二阶段): CDH 搭建_创建虚拟机】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/677/detail/11758
CDH 搭建_创建虚拟机
内容介绍
一、介绍 kudo 如何安装
二、介绍 CDH 的安装
一、介绍 kudo 如何安装
之前已经对 Kudu 的原理的 Kudu 的应用场景有直观的了解.接下来要介绍Kudu如何安装,Kudu的安装需要消耗的时间较长。
Kudu 安装环节比较复杂的原因是 Kudu 需要安装,但是 Kudu 是Cloudera 公司。而 Cloudera 这家公司是大数据领域里全球三大公司之一。
Cloudera 公司还有一个名为 Impala 的产品。Kudu 自身没有 SQL 引擎,而 Kudu 也不支持 SQL 访问。但是 Impala 支持 SQL,并且Impala 也是 Cloudera 公司的产品,所以 Cloudera 设计 Kudu 的时没有必要在 Kudu 里做一套 SQL 引擎,即使 Kudu 内部的存储结构也是劣势的表。
Impala 自身对于 SQL 的解析非常快速,并且 Impala 是 mpp 架构的产品,所以 Impala 可以和 Kudu 完美匹配,做非常深度的整合。所以像上述所说,在使用 Kudu 时,基本上都会使用 Impala,Impala 和 Kudu 是默认的组合。
1.Impala 较为紧密的原因:
Impala 是 mpp 架构,强依赖于 Hive,也就是依赖于 Hive Metastore,Hive 有一个原信息仓库,Impala 依赖 Hive Metastore,因此 Impala依赖 Hive 。如果要安装 Hive Metastore,就必须有 Hive 包。如果要安装Hive,Hive 又强依赖于 HDFS,所以也需要安装 Hadoop。
但是困难之处在于 Impala 依赖的 Hive 版本并不是普通的阿帕奇版本,而是 CDH 版本,并且 Impala 也是 CDH 版本。如果不导入 CDH 的库,就无法安装相对较新的 Impala 版本。
并且 Kudu 也依赖于 CDH,只是没有直接依赖于 CDH,但是 Kudu依赖 CDH 的仓库。如果没有 CDH 的仓库 Kudu 的新版本也无法安装。
想使用 Kudu 的1.7版本,也想使用 Impala 相对较新的版本,就必须要使用 CDH 的仓库。并且 Impala 强依赖于 CDH 版本的Hive,Impala 连基于源码的编译都要基于 CDH 版本的 Hive 编译,
所以需要安装 CDH 版本的 Hive 和 Hadoop,也需安装 CDH 版本的Impala 和 Kudu。如果按照上述所讲,之前的虚拟机可能无法使用,所以在项目阶段,大家可以多了解 CDH,HDP 等市面上可能比较多见的整合方案,对学习也有好处。
二、介绍 CDH 的安装
CDH 安装,可以按照步骤安装。整个步骤安装结束较为耗时,但是安装完后,对于 CDH 的理解会加深。
1.安装方式:
此时调整安装顺序,按照上述所讲 CDH 的仓库需要在第一个位置进行安装。
Kudu 依赖于 Impala ( Impala 要去调用 Kudu),所以 Impal放在 Kudu 之后进行安装。
Impala 依赖于 Hive,所以 Hive 放在 Kudu 前进行安装。
Hive依赖于 Hadoop,所以 Hadoop 放在 Hive 前进行安装。
注意:Impala,Hive,Hadoop 其实依赖于组件 Zookeeper,所以需要Hadoop 前先安装 Zookeeper,Zookeeper 也使用 CDH 版本。
Hive 需要存储原信息的数据库,一般使用 MySQL,所以MySQL在Hive 前进行安装。
上述基本安装了全套,所以如果铜须门在以往的情况下虚拟机出现问题(跑的不太快或者有一些软件配合不太好),刚好有契机可以重新整理自己的环境。整理两次环境后自身对整个体系的了解会有帮助,所以整理环境并不是浪费时间,而且在安装新的虚拟机之后不需要担心之前的问题。
并且之前未接触过 CDH,在本课可了解 CDH。
2.安装 CDH 的步骤:
准备新的虚拟机后对虚拟机进行系统配置
3.通过下述学习为大家介绍如何准备新的虚拟机
打开笔记,在笔记中有非常明确的步骤,每个步骤都描述了大概的操作,并且对于安装虚拟机的部分,有大量截图用来指示,所以在课中讲述安装虚拟机的部分不看笔记,直接操作,同学们课下不需要看视频,直接根据笔记来完成。
4.创建虚拟机:
打开 VMware Workstation
老师使用的是 VMware Workstation 的14版本,若版本不同,请不要相差太多。
(1)点击页面创建新的虚拟机
(2)打开向导->选中自定义(因为第三步需要修改),点击下一步
(3)本步骤稍有修改,将第二步更换为自定义后
设置硬件兼容性:点击下一步
(4)指定系统安装方式:点击稍后再安装操系统(S),暂时不加载光盘,点击下一步
(5)指定系统类型:选择 Linux,版本为 Debian 6 64位,点击下一步
(6)虚拟机命名:CDH 01
指定虚拟机位置:点击浏览自定义位置(尽量不要放至 C 盘,占内存大),老师放在移动硬盘中,创建新的目录,命名为 VM,在 VM 中创建 CDH01,自定义位置为新建目录中,点击确定,点击下一步。
(7)处理 CPU 配置,选择1个足够使用,虽然安装的东西较多,点击下一步
(8)内存配置:512MB 不够使用,所以改为2048MB,从机为1G,点击下一步
(9)选择网络类型,网络类型要选择中间(NAT)(E)模式,点击下一步。
(10)选择I/O控制器类型,无需选择(默认),点击下一步
(11)虚拟磁盘类型,无需选择(推荐),点击下一步
(12)新建磁盘:点击创建新虚拟磁盘,点击下一步
指定磁盘容量:
新的虚拟磁盘的最大磁盘大小为20G就够使用,点击下一步
但如果有以外的需求,例如安装软件多,或者要启动图形界面进行开发。20G如果不够,在安装新的东西之前,可以挂载一块新的硬盘。
并且20G不是立刻分配,是随着使用逐渐分配。
(13)磁盘文件:将磁盘创建出,磁盘也创建cdh01.vmdk,点击下一步
此时硬件及其他方面已经定义好,点击完成,直接创建虚拟机。