超详细!搭建本地大数据研发环境(16G内存+CDH)(一)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 工欲善其事必先利其器,在经过大量的理论学习以后,需要有一个本地的研发环境来进行练手。已经工作的可以不依赖于公司的环境,在家也可以随意的练习。而自学大数据的同学,也可以进行本地练习,大数据是一门偏实践的学科,在找工作之前进行一些实践操作,也更利于对大数据知识的理解。本文将从头开始详细的记录整个大数据环境的搭建过程,本文所使用的笔记本电脑内存为16G,将使用CDH6.3.2管理整个大数据集群。本文共四个部分,一定要保证每一个部分都安装成功以后再向下进行。

首先要安装好VMwareWorkstation软件,随后新建三台centos系统的虚拟机,在三台虚拟机中搭建CDH大数据管理工具,最后使用CDH搭建大数据集群。


一、安装VMwareWorkstation虚拟化软件


首先我们使用VMwareWorkstation来快速的进行虚拟机的新建。VMwareWorkstation是一款功能强大的桌面虚拟计算机软件,我们使用的版本为VMwareWorkstation 16.1.2。

1、打开安装程序,点击下一步。

image.png

2、选择接受条款,点击下一步。

image.png

3、修改安装路径,增强型虚拟键盘主要作用是提高安全性,这里不勾选。点击下一步。

image.png

4、将检查更新和体验提升都去掉,点击下一步。

image.png

5、快捷方式看自己的情况选择吧,点击下一步。

image.png

6、点击安装,开始进行虚拟机安装。

image.png

7、安装完成后点击 许可证 用注册机生成的密钥进行产品激活。8、点击完成,大功告成。VMwareWorkstation就成功安装并激活了。

image.png

8、点击完成,大功告成。VMwareWorkstation就成功安装并激活了。

image.png

这样,第一部分VMwareWorkstation软件已经搭建完成。


二、新建三台Centos虚拟机


首先准备Centos7的镜像文件,CentOS-7-x86_64-DVD-1908.iso。

请注意三台虚拟机的CPU初次设置为1核,内存设置为4G(这样虚拟机占用12G,留出一些空间),硬盘为20G,这些以后也是可以修改的。

新建虚拟机

1、打开VMwareWorkstation,选择新建虚拟机

image.png

2、选择自定义安装,点击下一步。

image.png

3、这里不用修改,是VMware的版本和一些限制说明,点击下一步。

image.png

4、这里先选择稍后安装操作系统,点击下一步。

image.png

5、选择系统为Linux,版本为Centos7 64位,点击下一步。

image.png

6、修改虚拟机名称,位置,点击下一步。

image.png

7、CPU默认为1核,点击下一步。

image.png

8、内存设置为4GB,点击下一步。

image.png

9、网络使用默认的NAT,点击下一步。image.png

10、I/O 使用默认image.png

11、磁盘类型默认

12、创建新的虚拟磁盘

image.png

13、设置磁盘大小为20GB

image.png

14、默认文件名

image.png

15、最后可以看到这些设置,点击完成。

image.png

16、虚拟机新建完成,可以继续编辑虚拟机,将安装镜像挂载。

image.png


安装Centos系统

1、开启此虚拟机

image.png

注意:点击进入虚拟机操作,要退出来的话使用 Ctrl + Alt

2、选择安装centos7

image.png

选择语言

image.png

进行基本设置

image.png

设置密码 Bigdataflowing

image.png

提示重启电脑

image.png

等待安装完成,完成后重启。进入操作系统

设置虚拟机网络

此时的虚拟机是无法上网的,需要对网络进行设置。

首先设置主机的网络共享,再看一下vnet8的网络ip,我的是192.168.137.0

image.png

在vmvare的虚拟网络编辑器中,设置ipimage.png

进入虚拟机进行网卡设置

进入网卡设置目录
cd /etc/sysconfig/network-scripts/
设置网卡
vi ifcfg-ens33
设置如下(重点是下面几个设置,固定IP)
BOOTPROTO=static
IPADDR=192.168.137.101
NETMASK=255.255.255.0
GATEWAY=192.168.137.1
ONBOOT=yes
设置完成后重启网卡
service network restart
重启后验证上网情况
ping www.baidu.com

xshell远程连接机器

一直在虚拟机里操作是不方便的,所以我们通过xshell进行远程连接。网络已通,所以我们用用户名密码连接即可。

image.png

上面操作完成后,我们可以使用vmvare的克隆功能,快速的复制出其他两台虚拟机。不过要记得复制完以后。进入系统把ip修改为不同的地址。

克隆虚拟机

image.png

克隆自 虚拟机中的当前状态

image.png

完整克隆

image.png

克隆完成后,修改node02和node03的网络设置。

进入网卡设置目录
cd /etc/sysconfig/network-scripts/
设置网卡
vi ifcfg-ens33
设置如下(node02改成192.168.137.102   node03改成192.168.137.103 )
IPADDR=192.168.137.101

此时将三台虚拟机开启,最终的效果三台虚拟机正常运行,xshell可以远程同时操作这三台机器。

image.png

这样第二部分,三台centos虚拟机新建完成,下面我们可以进行CDH环境的安装了。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
SQL 机器学习/深度学习 分布式计算
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
大数据-81 Spark 安装配置环境 集群环境配置 超详细 三台云服务器
111 1
|
2月前
|
缓存 Ubuntu Linux
Linux环境下测试服务器的DDR5内存性能
通过使用 `memtester`和 `sysbench`等工具,可以有效地测试Linux环境下服务器的DDR5内存性能。这些工具不仅可以评估内存的读写速度,还可以检测内存中的潜在问题,帮助确保系统的稳定性和性能。通过合理配置和使用这些工具,系统管理员可以深入了解服务器内存的性能状况,为系统优化提供数据支持。
46 4
|
2月前
|
存储 大数据 数据处理
大数据环境下的性能优化策略
大数据环境下的性能优化策略
60 2
|
2月前
|
弹性计算
阿里云2核16G云服务器多少钱?亲测ECS内存型r8i租赁价格
阿里云2核16G云服务器,内存型r8i实例1年6折优惠后价格为1901元,月付334.19元,按小时计费0.696221元。更多配置及优惠详情,请访问阿里云ECS页面。
|
3月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
92 1
|
3月前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
68 0
|
3月前
|
存储 算法 C语言
MacOS环境-手写操作系统-17-内存管理算法实现
MacOS环境-手写操作系统-17-内存管理算法实现
45 0
|
3月前
|
Java C语言 iOS开发
MacOS环境-手写操作系统-16-内存管理 解析内存状态
MacOS环境-手写操作系统-16-内存管理 解析内存状态
55 0
|
3月前
|
存储 算法 C语言
MacOS环境-手写操作系统-15-内核管理 检测可用内存
MacOS环境-手写操作系统-15-内核管理 检测可用内存
54 0
|
5月前
|
存储 数据可视化 数据挖掘
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
257 4
大数据环境下的房地产数据分析与预测研究的设计与实现