CDH 搭建_创建虚拟机|学习笔记

简介: 快速学习CDH 搭建_创建虚拟机

开发者学堂课程【2020版大数据实战项目之 DMP 广告系统(第二阶段) CDH 搭建_创建虚拟机】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/677/detail/11758


CDH 搭建_创建虚拟机


内容介绍

一、介绍 kudo 如何安装

二、介绍 CDH 的安装


一、介绍 kudo 如何安装

之前已经对 Kudu 的原理的 Kudu 的应用场景有直观的了解.接下来要介绍Kudu如何安装Kudu的安装需要消耗的时间较长。

Kudu 安装环节比较复杂原因是 Kudu 需要安装,但是 Kudu 是Cloudera 公司。而 Cloudera 这家公司是大数据领域里全球三大公司之一

Cloudera 公司还有一个名为 Impala 的产品。Kudu 自身没有 SQL 引擎,而 Kudu 也不支持 SQL 访问。但是 Impala 支持 SQL,并且Impala 也是 Cloudera 公司的产品,所以 Cloudera 设计 Kudu 的时没有必要在 Kudu 里做一套 SQL 引擎,即使 Kudu 内部的存储结构也是劣势的表。

Impala 自身对于 SQL 的解析非常快速,并且 Impala  mpp 架构的产品,所以 Impala 可以和 Kudu 完美匹配,做非常深度的整合。所以像上述所说,在使用 Kudu 时,基本上都会使用 Impala,ImpalaKudu 是默认的组合。

1.Impala 较为紧密的原因

Impala  mpp 架构,强依赖于 Hive,也就是依赖于 Hive MetastoreHive 有一个原信息仓库,Impala 依赖 Hive Metastore,因此 Impala依赖 Hive 。如果要安装 Hive Metastore,就必须有 Hive 包。如果要安装Hive,Hive 又强依赖于 HDFS,所以也需要安装 Hadoop。

但是困难之处在于 Impala 依赖的 Hive 版本并不是普通的阿帕奇版本,而是 CDH  版本,并且 Impala 也是 CDH 版本。如果不导入 CDH 的库,就无法安装相对较新的 Impala 版本。

并且 Kudu 也依赖于 CDH,只是没有直接依赖于 CDH,但是 Kudu依赖 CDH 的仓库。如果没有 CDH 的仓库 Kudu 的新版本也无法安装。

想使用 Kudu 的1.7版本,也想使用 Impala 相对较新的版本,就必须要使用 CDH 的仓库。并且 Impala 强依赖于 CDH 版本的Hive,Impala 连基于源码的编译都要基于 CDH 版本的 Hive 编译,

所以需要安装 CDH 版本的 Hive  Hadoop,也安装 CDH 版本的Impala  Kudu。如果按照上述所讲,之前的虚拟机可能无法使用,所以在项目阶段,大家可以多了解 CDH,HDP 等市面上可能比较多见的整合方案,对学习也有好处。

image.png


二、介绍 CDH 的安装

CDH 安装,可以按照步骤安装。整个步骤安装结束较为耗时,但是安装完后,对于 CDH 的理解会加深。

1.安装方式:

此时调整安装顺序,按照上述所讲 CDH 的仓库需要在第一个位置进行安装。

Kudu 依赖于 Impala  Impala 要去调用 Kudu),所以 Impal放在 Kudu 之后进行安装。

Impala 依赖于 Hive,所以 Hive 放在 Kudu 前进行安装。

Hive依赖于 Hadoop,所以 Hadoop 放在 Hive 前进行安装。

注意:Impala,Hive,Hadoop 其实依赖于组件 Zookeeper,所以需要Hadoop 前先安装 Zookeeper,Zookeeper 也使用 CDH 版本。

Hive 需要存储原信息的数据库,一般使用 MySQL,所以MySQL在Hive 前进行安装。

上述基本安装了全套,所以如果铜须门在以往的情况虚拟机出现问题(跑的不太快或者有一些软件配合不太好),刚好有契机可以重新整理自己的环境。整理两次环境自身对整个体系的了解会有帮助,所以整理环境并不是浪费时间,而且在安装新的虚拟机之后不需要担心之前的问题。

并且之前未接触过 CDH,在本课可了解 CDH。

2.安装 CDH 的步骤:

准备新的虚拟机对虚拟机进行系统配置

3.通过下述学习为大家介绍如何准备新的虚拟机

打开笔记,在笔记中有非常明确的步骤,每个步骤都描述了大概的操作,并且对于安装虚拟机的部分,有大量截图用来指示所以在课中讲述安装虚拟机的部分不看笔记,直接操作,同学们课下不需要看视频,直接根据笔记来完成。

4.创建虚拟机

打开 VMware Workstation

老师使用的是 VMware Workstation 的14版本,若版本不同,请不要相差太多。

(1)点击页面创建新的虚拟机

(2)打开向导->选中自定义(因为第三步需要修改),点击下一步

image.png

(3)本步骤修改将第二步更换为自定义后

设置硬件兼容性:点击下一步

(4)指定系统安装方式:点击稍后再安装操系统S),暂时不加载光盘点击下一步

image.png

(5)指定系统类型:选择 Linux,版本为 Debian 6 64位,点击下一步

image.png

(6)虚拟机命名:CDH 01

指定虚拟机位置:点击浏览自定义位置(尽量不要放至 C 盘,占内存大),老师放在移动硬中,创建新的目录,命名为 VM,在 VM 中创建 CDH01,自定义位置为新建目录中,点击确定,点击下一步。

image.png

(7)处理 CPU 配置,选择1足够使用,虽然装的东西较多,点击下一步

(8)内存配置:512MB 不够使用,所以改为2048MB,从机为1G,点击下一步

image.png

(9)选择网络类型,网络型要选择中间(NAT)(E)模式点击下一步。

image.png

(10)选择I/O控制器类型,无需选择(默认),点击下一步

(11)虚拟磁盘类型,无需选择(推荐),点击下一步

(12)新建磁盘:点击创建新虚拟磁盘点击下一步

image.png

指定磁盘容量:

新的虚拟磁盘的最大磁盘大小为20G就够使用点击下一步

但如果有以外的求,例如安装软件或者要启动图形界面进行开发。20G如果不够装新的东西之前,可以挂载一块新的硬盘

并且20G不是立刻分配,是随着使用逐渐分配

image.png

(13)磁盘文件:将磁盘创建出磁盘也创建cdh01.vmdk,点击下一步

image.png

此时硬件及其他方面已经定义好点击完成接创建虚拟机。

 image.png

相关文章
|
测试技术
CDH安装系统环境准备——虚拟机网络配置
1、修改网络配置文件 [root@master ~]# vi /etc/sysconfig/network-scripts/ifcfg-eth0 配置IP地址、网关、掩码、DNS等,如下所示: 以master为例,其他的从节点配置是一样的步骤,只需要更改对应的IP即可。
1225 0
|
4月前
|
Unix Linux 虚拟化
虚拟机VMware知识积累
虚拟机VMware知识积累
|
22天前
|
存储 SQL 数据挖掘
虚拟化数据恢复—VMware虚拟机vmdk文件被误删除的数据恢复案例
虚拟化数据恢复环境: 某品牌服务器(部署VMware EXSI虚拟机)+同品牌存储(存放虚拟机文件)。 虚拟化故障: 意外断电导致服务器上某台虚拟机无法正常启动。查看虚拟机配置文件发现这台故障虚拟机除了磁盘文件以外其他配置文件全部丢失,xxx-flat.vmdk磁盘文件和xxx-000001-delta.vmdk快照文件还在。管理员联系VMware工程师寻求帮助。VMware工程师尝试新建一个虚拟机来解决故障,但发现ESXi存储空间不足。于是将故障虚拟机下的xxx-flat.vmdk磁盘文件删除,然后重建一个虚拟机并且分配固定大小的虚拟磁盘。
|
2月前
|
测试技术 Linux 虚拟化
iOS自动化测试方案(五):保姆级VMware虚拟机安装MacOS
详细的VMware虚拟机安装macOS Big Sur的保姆级教程,包括下载VMware和macOS镜像、图解安装步骤和遇到问题时的解决方案,旨在帮助读者顺利搭建macOS虚拟机环境。
60 3
iOS自动化测试方案(五):保姆级VMware虚拟机安装MacOS
|
2月前
|
编解码 Linux 虚拟化
超详细VMware虚拟机安装Win10操作系统过程图解
这篇文章提供了一个详细的VMware虚拟机安装Windows 10操作系统的图解教程,包括了从创建虚拟机到安装操作系统的全过程,以及安装后的一些基本设置,如屏幕分辨率调整等。作者还提到了后续会分享关于磁盘分区的创建过程。
超详细VMware虚拟机安装Win10操作系统过程图解
|
2月前
|
虚拟化
vmware虚拟机使用主机代理访问谷歌
vmware虚拟机使用主机代理访问谷歌
|
3月前
|
存储 Linux 虚拟化
入职必会-开发环境搭建32-VMware虚拟机下载和安装
VMware虚拟机是一种基于VMware虚拟化技术的软件解决方案,它可以在一台物理计算机上创建多个独立的虚拟计算机环境。这些虚拟机可以运行不同的操作系统,如Windows、Linux等,使用户能够在单台计算机上同时运行多个操作系统。
107 0
入职必会-开发环境搭建32-VMware虚拟机下载和安装
|
3月前
|
存储 SQL 运维
服务器数据恢复—Isilon存储误删除vmware虚拟机的数据恢复案例
Isilon存储使用的是分布式文件系统OneFS。在Isilon存储集群里面每个节点均为单一的OneFS文件系统,所以Isilon存储在进行横向扩展的同时不会影响数据的正常使用。Isilon存储集群所有节点提供相同的功能,节点与节点之间没有主备之分。当用户向Isilon存储集群中存储文件时,OneFS文件系统层面将文件划分为128K的片段分别存放到不同的节点中,而节点层面将128K的片段分成8K的小片段分别存放到节点的不同硬盘中。用户文件的Indoe信息、目录项及数据MAP则会分别存储在所有节点中,这样可以确保用户不管从哪个节点都可以访问到所有数据。Isilon存储在初始化时会让用户选择相应的
62 12
|
2月前
|
虚拟化
VMware NAT 模式 虚拟机网络电缆被拔出,连不上网
VMware NAT 模式 虚拟机网络电缆被拔出,连不上网
65 0
下一篇
无影云桌面