超详细!搭建本地大数据研发环境(16G内存+CDH)(一)

简介: 工欲善其事必先利其器,在经过大量的理论学习以后,需要有一个本地的研发环境来进行练手。已经工作的可以不依赖于公司的环境,在家也可以随意的练习。而自学大数据的同学,也可以进行本地练习,大数据是一门偏实践的学科,在找工作之前进行一些实践操作,也更利于对大数据知识的理解。本文将从头开始详细的记录整个大数据环境的搭建过程,本文所使用的笔记本电脑内存为16G,将使用CDH6.3.2管理整个大数据集群。本文共四个部分,一定要保证每一个部分都安装成功以后再向下进行。

首先要安装好VMwareWorkstation软件,随后新建三台centos系统的虚拟机,在三台虚拟机中搭建CDH大数据管理工具,最后使用CDH搭建大数据集群。


一、安装VMwareWorkstation虚拟化软件


首先我们使用VMwareWorkstation来快速的进行虚拟机的新建。VMwareWorkstation是一款功能强大的桌面虚拟计算机软件,我们使用的版本为VMwareWorkstation 16.1.2。

1、打开安装程序,点击下一步。

image.png

2、选择接受条款,点击下一步。

image.png

3、修改安装路径,增强型虚拟键盘主要作用是提高安全性,这里不勾选。点击下一步。

image.png

4、将检查更新和体验提升都去掉,点击下一步。

image.png

5、快捷方式看自己的情况选择吧,点击下一步。

image.png

6、点击安装,开始进行虚拟机安装。

image.png

7、安装完成后点击 许可证 用注册机生成的密钥进行产品激活。8、点击完成,大功告成。VMwareWorkstation就成功安装并激活了。

image.png

8、点击完成,大功告成。VMwareWorkstation就成功安装并激活了。

image.png

这样,第一部分VMwareWorkstation软件已经搭建完成。


二、新建三台Centos虚拟机


首先准备Centos7的镜像文件,CentOS-7-x86_64-DVD-1908.iso。

请注意三台虚拟机的CPU初次设置为1核,内存设置为4G(这样虚拟机占用12G,留出一些空间),硬盘为20G,这些以后也是可以修改的。

新建虚拟机

1、打开VMwareWorkstation,选择新建虚拟机

image.png

2、选择自定义安装,点击下一步。

image.png

3、这里不用修改,是VMware的版本和一些限制说明,点击下一步。

image.png

4、这里先选择稍后安装操作系统,点击下一步。

image.png

5、选择系统为Linux,版本为Centos7 64位,点击下一步。

image.png

6、修改虚拟机名称,位置,点击下一步。

image.png

7、CPU默认为1核,点击下一步。

image.png

8、内存设置为4GB,点击下一步。

image.png

9、网络使用默认的NAT,点击下一步。image.png

10、I/O 使用默认image.png

11、磁盘类型默认

12、创建新的虚拟磁盘

image.png

13、设置磁盘大小为20GB

image.png

14、默认文件名

image.png

15、最后可以看到这些设置,点击完成。

image.png

16、虚拟机新建完成,可以继续编辑虚拟机,将安装镜像挂载。

image.png


安装Centos系统

1、开启此虚拟机

image.png

注意:点击进入虚拟机操作,要退出来的话使用 Ctrl + Alt

2、选择安装centos7

image.png

选择语言

image.png

进行基本设置

image.png

设置密码 Bigdataflowing

image.png

提示重启电脑

image.png

等待安装完成,完成后重启。进入操作系统

设置虚拟机网络

此时的虚拟机是无法上网的,需要对网络进行设置。

首先设置主机的网络共享,再看一下vnet8的网络ip,我的是192.168.137.0

image.png

在vmvare的虚拟网络编辑器中,设置ipimage.png

进入虚拟机进行网卡设置

进入网卡设置目录
cd /etc/sysconfig/network-scripts/
设置网卡
vi ifcfg-ens33
设置如下(重点是下面几个设置,固定IP)
BOOTPROTO=static
IPADDR=192.168.137.101
NETMASK=255.255.255.0
GATEWAY=192.168.137.1
ONBOOT=yes
设置完成后重启网卡
service network restart
重启后验证上网情况
ping www.baidu.com

xshell远程连接机器

一直在虚拟机里操作是不方便的,所以我们通过xshell进行远程连接。网络已通,所以我们用用户名密码连接即可。

image.png

上面操作完成后,我们可以使用vmvare的克隆功能,快速的复制出其他两台虚拟机。不过要记得复制完以后。进入系统把ip修改为不同的地址。

克隆虚拟机

image.png

克隆自 虚拟机中的当前状态

image.png

完整克隆

image.png

克隆完成后,修改node02和node03的网络设置。

进入网卡设置目录
cd /etc/sysconfig/network-scripts/
设置网卡
vi ifcfg-ens33
设置如下(node02改成192.168.137.102   node03改成192.168.137.103 )
IPADDR=192.168.137.101

此时将三台虚拟机开启,最终的效果三台虚拟机正常运行,xshell可以远程同时操作这三台机器。

image.png

这样第二部分,三台centos虚拟机新建完成,下面我们可以进行CDH环境的安装了。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8月前
|
大数据 Linux 数据安全/隐私保护
基于Docker搭建大数据集群(一)Docker环境部署
基于Docker搭建大数据集群(一)Docker环境部署
|
11天前
|
分布式计算 DataWorks Java
DataWorks产品使用合集之阿里云DataWorks专有云环境下,上传MaxCompute的UDF(用户自定义函数)的JAR包的步骤如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
21 0
|
7月前
|
SQL 安全 Java
开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?
开启 Kerberos 安全认证的大数据环境中如何正确指定 HS2 的 jdbc url 地址?
|
4月前
|
存储 JSON NoSQL
Redis 内存优化神技,小内存保存大数据
Redis 内存优化神技,小内存保存大数据
44 0
|
4月前
|
缓存 Java 大数据
CDH大数据环境参数优化指南
CDH大数据环境参数优化指南
|
5月前
|
SQL 分布式计算 Hadoop
最新大数据集群安装方法CentOS7.6__大数据环境安装和配置
最新大数据集群安装方法CentOS7.6__大数据环境安装和配置
148 0
|
6月前
|
存储 分布式计算 大数据
构建与应用大数据环境:从搭建到开发与组件使用的全面指南
构建与应用大数据环境:从搭建到开发与组件使用的全面指南
|
6月前
|
分布式计算 大数据 Java
大数据行业部署实战2:环境大数据统计
大数据行业部署实战2:环境大数据统计
64 0
|
6月前
|
人工智能 资源调度 大数据
Apache DolphinScheduler 在大数据环境中的应用与调优
Apache DolphinScheduler 在大数据环境中的应用与调优
|
7月前
|
SQL 资源调度 安全
开启 Kerberos 安全的大数据环境中,Yarn Container 启动失败导致作业失败
开启 Kerberos 安全的大数据环境中,Yarn Container 启动失败导致作业失败

热门文章

最新文章