超详细!搭建本地大数据研发环境(16G内存+CDH)(一)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 工欲善其事必先利其器,在经过大量的理论学习以后,需要有一个本地的研发环境来进行练手。已经工作的可以不依赖于公司的环境,在家也可以随意的练习。而自学大数据的同学,也可以进行本地练习,大数据是一门偏实践的学科,在找工作之前进行一些实践操作,也更利于对大数据知识的理解。本文将从头开始详细的记录整个大数据环境的搭建过程,本文所使用的笔记本电脑内存为16G,将使用CDH6.3.2管理整个大数据集群。本文共四个部分,一定要保证每一个部分都安装成功以后再向下进行。

首先要安装好VMwareWorkstation软件,随后新建三台centos系统的虚拟机,在三台虚拟机中搭建CDH大数据管理工具,最后使用CDH搭建大数据集群。


一、安装VMwareWorkstation虚拟化软件


首先我们使用VMwareWorkstation来快速的进行虚拟机的新建。VMwareWorkstation是一款功能强大的桌面虚拟计算机软件,我们使用的版本为VMwareWorkstation 16.1.2。

1、打开安装程序,点击下一步。

image.png

2、选择接受条款,点击下一步。

image.png

3、修改安装路径,增强型虚拟键盘主要作用是提高安全性,这里不勾选。点击下一步。

image.png

4、将检查更新和体验提升都去掉,点击下一步。

image.png

5、快捷方式看自己的情况选择吧,点击下一步。

image.png

6、点击安装,开始进行虚拟机安装。

image.png

7、安装完成后点击 许可证 用注册机生成的密钥进行产品激活。8、点击完成,大功告成。VMwareWorkstation就成功安装并激活了。

image.png

8、点击完成,大功告成。VMwareWorkstation就成功安装并激活了。

image.png

这样,第一部分VMwareWorkstation软件已经搭建完成。


二、新建三台Centos虚拟机


首先准备Centos7的镜像文件,CentOS-7-x86_64-DVD-1908.iso。

请注意三台虚拟机的CPU初次设置为1核,内存设置为4G(这样虚拟机占用12G,留出一些空间),硬盘为20G,这些以后也是可以修改的。

新建虚拟机

1、打开VMwareWorkstation,选择新建虚拟机

image.png

2、选择自定义安装,点击下一步。

image.png

3、这里不用修改,是VMware的版本和一些限制说明,点击下一步。

image.png

4、这里先选择稍后安装操作系统,点击下一步。

image.png

5、选择系统为Linux,版本为Centos7 64位,点击下一步。

image.png

6、修改虚拟机名称,位置,点击下一步。

image.png

7、CPU默认为1核,点击下一步。

image.png

8、内存设置为4GB,点击下一步。

image.png

9、网络使用默认的NAT,点击下一步。image.png

10、I/O 使用默认image.png

11、磁盘类型默认

12、创建新的虚拟磁盘

image.png

13、设置磁盘大小为20GB

image.png

14、默认文件名

image.png

15、最后可以看到这些设置,点击完成。

image.png

16、虚拟机新建完成,可以继续编辑虚拟机,将安装镜像挂载。

image.png


安装Centos系统

1、开启此虚拟机

image.png

注意:点击进入虚拟机操作,要退出来的话使用 Ctrl + Alt

2、选择安装centos7

image.png

选择语言

image.png

进行基本设置

image.png

设置密码 Bigdataflowing

image.png

提示重启电脑

image.png

等待安装完成,完成后重启。进入操作系统

设置虚拟机网络

此时的虚拟机是无法上网的,需要对网络进行设置。

首先设置主机的网络共享,再看一下vnet8的网络ip,我的是192.168.137.0

image.png

在vmvare的虚拟网络编辑器中,设置ipimage.png

进入虚拟机进行网卡设置

进入网卡设置目录
cd /etc/sysconfig/network-scripts/
设置网卡
vi ifcfg-ens33
设置如下(重点是下面几个设置,固定IP)
BOOTPROTO=static
IPADDR=192.168.137.101
NETMASK=255.255.255.0
GATEWAY=192.168.137.1
ONBOOT=yes
设置完成后重启网卡
service network restart
重启后验证上网情况
ping www.baidu.com

xshell远程连接机器

一直在虚拟机里操作是不方便的,所以我们通过xshell进行远程连接。网络已通,所以我们用用户名密码连接即可。

image.png

上面操作完成后,我们可以使用vmvare的克隆功能,快速的复制出其他两台虚拟机。不过要记得复制完以后。进入系统把ip修改为不同的地址。

克隆虚拟机

image.png

克隆自 虚拟机中的当前状态

image.png

完整克隆

image.png

克隆完成后,修改node02和node03的网络设置。

进入网卡设置目录
cd /etc/sysconfig/network-scripts/
设置网卡
vi ifcfg-ens33
设置如下(node02改成192.168.137.102   node03改成192.168.137.103 )
IPADDR=192.168.137.101

此时将三台虚拟机开启,最终的效果三台虚拟机正常运行,xshell可以远程同时操作这三台机器。

image.png

这样第二部分,三台centos虚拟机新建完成,下面我们可以进行CDH环境的安装了。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
数据采集 搜索推荐 Java
Java 大视界 -- Java 大数据在智能教育虚拟学习环境构建与用户体验优化中的应用(221)
本文探讨 Java 大数据在智能教育虚拟学习环境中的应用,涵盖多源数据采集、个性化推荐、实时互动优化等核心技术,结合实际案例分析其在提升学习体验与教学质量中的成效,并展望未来发展方向与技术挑战。
|
3月前
|
传感器 分布式计算 大数据
“用大数据盯着天看地”——聊聊环境监测的精准化升级
“用大数据盯着天看地”——聊聊环境监测的精准化升级
104 0
|
4月前
|
传感器 机器学习/深度学习 算法
Java 大视界 -- Java 大数据在智能农业温室环境调控与作物生长模型构建中的应用(189)
本文探讨了Java大数据在智能农业温室环境调控与作物生长模型构建中的关键应用。通过高效采集、传输与处理温室环境数据,结合机器学习算法,实现温度、湿度、光照等参数的智能调控,提升作物产量与品质。同时,融合多源数据构建精准作物生长模型,助力农业智能化、精细化发展,推动农业现代化进程。
|
6月前
|
缓存 Linux 数据安全/隐私保护
Linux环境下如何通过手动调用drop_caches命令释放内存
总的来说,记录住“drop_caches” 命令并理解其含义,可以让你在日常使用Linux的过程中更加娴熟和自如。
1173 23
|
6月前
|
Arthas 监控 Java
Arthas mc(Memory Compiler/内存编译器 )
Arthas mc(Memory Compiler/内存编译器 )
187 6
|
SQL 机器学习/深度学习 分布式计算
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
627 1
|
8月前
|
机器学习/深度学习 存储 PyTorch
PyTorch内存优化的10种策略总结:在有限资源环境下高效训练模型
在大规模深度学习模型训练中,GPU内存容量常成为瓶颈,特别是在训练大型语言模型和视觉Transformer时。本文系统介绍了多种内存优化策略,包括混合精度训练、低精度训练(如BF16)、梯度检查点、梯度累积、张量分片与分布式训练、
342 14
PyTorch内存优化的10种策略总结:在有限资源环境下高效训练模型
|
7月前
|
弹性计算 固态存储 ice
阿里云服务器ECS内存型2核16G、4核32G和8核64G配置实例、费用和性能参数表
本文整理了2025年阿里云服务器租赁价格表,涵盖2核16G、4核32G和8核64G配置收费标准。CPU内存比为1:8,提供多种实例规格如ECS内存型r8i、通用算力型u1等。价格由CPU内存、公网带宽及系统盘组成,支持优惠折扣(年付6.7折起)。文中详细列出各配置参考价格、公网带宽与系统盘收费,并对比不同实例规格性能,如Intel Xeon和AMD EPYC处理器系列,帮助用户选择高性价比方案。具体价格以阿里云官网为准。
1027 4
|
12月前
|
缓存 Ubuntu Linux
Linux环境下测试服务器的DDR5内存性能
通过使用 `memtester`和 `sysbench`等工具,可以有效地测试Linux环境下服务器的DDR5内存性能。这些工具不仅可以评估内存的读写速度,还可以检测内存中的潜在问题,帮助确保系统的稳定性和性能。通过合理配置和使用这些工具,系统管理员可以深入了解服务器内存的性能状况,为系统优化提供数据支持。
789 4
|
存储 大数据 数据处理
大数据环境下的性能优化策略
大数据环境下的性能优化策略
432 2

热门文章

最新文章