超详细！搭建本地大数据研发环境（16G内存+CDH）（一）

2022-05-28 946

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 工欲善其事必先利其器，在经过大量的理论学习以后，需要有一个本地的研发环境来进行练手。已经工作的可以不依赖于公司的环境，在家也可以随意的练习。而自学大数据的同学，也可以进行本地练习，大数据是一门偏实践的学科，在找工作之前进行一些实践操作，也更利于对大数据知识的理解。本文将从头开始详细的记录整个大数据环境的搭建过程，本文所使用的笔记本电脑内存为16G，将使用CDH6.3.2管理整个大数据集群。本文共四个部分，一定要保证每一个部分都安装成功以后再向下进行。

首先要安装好VMwareWorkstation软件，随后新建三台centos系统的虚拟机，在三台虚拟机中搭建CDH大数据管理工具，最后使用CDH搭建大数据集群。

一、安装VMwareWorkstation虚拟化软件

首先我们使用VMwareWorkstation来快速的进行虚拟机的新建。VMwareWorkstation是一款功能强大的桌面虚拟计算机软件，我们使用的版本为VMwareWorkstation 16.1.2。

1、打开安装程序，点击下一步。

2、选择接受条款，点击下一步。

3、修改安装路径，增强型虚拟键盘主要作用是提高安全性，这里不勾选。点击下一步。

4、将检查更新和体验提升都去掉，点击下一步。

5、快捷方式看自己的情况选择吧，点击下一步。

6、点击安装，开始进行虚拟机安装。

7、安装完成后点击许可证用注册机生成的密钥进行产品激活。8、点击完成，大功告成。VMwareWorkstation就成功安装并激活了。

8、点击完成，大功告成。VMwareWorkstation就成功安装并激活了。

这样，第一部分VMwareWorkstation软件已经搭建完成。

二、新建三台Centos虚拟机

首先准备Centos7的镜像文件，CentOS-7-x86_64-DVD-1908.iso。

请注意三台虚拟机的CPU初次设置为1核，内存设置为4G（这样虚拟机占用12G，留出一些空间），硬盘为20G，这些以后也是可以修改的。

新建虚拟机

1、打开VMwareWorkstation，选择新建虚拟机

2、选择自定义安装，点击下一步。

3、这里不用修改，是VMware的版本和一些限制说明，点击下一步。

4、这里先选择稍后安装操作系统，点击下一步。

5、选择系统为Linux，版本为Centos7 64位，点击下一步。

6、修改虚拟机名称，位置，点击下一步。

7、CPU默认为1核，点击下一步。

8、内存设置为4GB，点击下一步。

9、网络使用默认的NAT，点击下一步。

10、I/O 使用默认

11、磁盘类型默认

12、创建新的虚拟磁盘

13、设置磁盘大小为20GB

14、默认文件名

15、最后可以看到这些设置，点击完成。

16、虚拟机新建完成，可以继续编辑虚拟机，将安装镜像挂载。

安装Centos系统

1、开启此虚拟机

注意：点击进入虚拟机操作，要退出来的话使用 Ctrl + Alt

2、选择安装centos7

选择语言

进行基本设置

设置密码 Bigdataflowing

提示重启电脑

等待安装完成，完成后重启。进入操作系统

设置虚拟机网络

此时的虚拟机是无法上网的，需要对网络进行设置。

首先设置主机的网络共享，再看一下vnet8的网络ip，我的是192.168.137.0

在vmvare的虚拟网络编辑器中，设置ip

进入虚拟机进行网卡设置

进入网卡设置目录
cd /etc/sysconfig/network-scripts/
设置网卡
vi ifcfg-ens33
设置如下（重点是下面几个设置，固定IP）
BOOTPROTO=static
IPADDR=192.168.137.101
NETMASK=255.255.255.0
GATEWAY=192.168.137.1
ONBOOT=yes
设置完成后重启网卡
service network restart
重启后验证上网情况
ping www.baidu.com

xshell远程连接机器

一直在虚拟机里操作是不方便的，所以我们通过xshell进行远程连接。网络已通，所以我们用用户名密码连接即可。

上面操作完成后，我们可以使用vmvare的克隆功能，快速的复制出其他两台虚拟机。不过要记得复制完以后。进入系统把ip修改为不同的地址。

克隆虚拟机

克隆自虚拟机中的当前状态

完整克隆

克隆完成后，修改node02和node03的网络设置。

进入网卡设置目录
cd /etc/sysconfig/network-scripts/
设置网卡
vi ifcfg-ens33
设置如下（node02改成192.168.137.102   node03改成192.168.137.103 ）
IPADDR=192.168.137.101

此时将三台虚拟机开启，最终的效果三台虚拟机正常运行，xshell可以远程同时操作这三台机器。

这样第二部分，三台centos虚拟机新建完成，下面我们可以进行CDH环境的安装了。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

超详细！搭建本地大数据研发环境（16G内存+CDH）（一）

一、安装VMwareWorkstation虚拟化软件