黑马程序员-大数据入门到实战-前置章节

简介: 黑马程序员-大数据入门到实战-前置章节

1. 环境介绍

基于VMware构建Linux虚拟机

① 是大数据从业者或IT从业者的必备技能之一

② 是成本低廉的方案

2. VMware准备虚拟机

① 设置VMware网段

② 下载Centos操作系统

③ 在VMware中安装Centos操作系统

④ 配置多台Linux虚拟机

3. VMware虚拟机系统设置

3.1 主机名、IP、SSH免密登录

对三台虚拟机完成主机名、固定IP、SSH免密登录等系统设置

3.1.1 配置固定IP地址

① 开启node1,修改主机名为node1,并修改固定ip

# 修改主机名
hostnamectl set-hostname node1;
# 修改IP地址
vim /etc/sysconfig/network-scripts/ifcfg-ens33
IPADDR="192.168.88.101"
#重启网卡
systemctl restart network

同样的操作启动node2和node3

修改node2主机名为node2,设置ip为192.168.88.102

修改node3主机名为node3,设置ip为192.168.88.103

3.1.2 配置主机名映射

① 在Windows系统中修改hosts文件,填入如下内容:

192.168.88.101 node1
192.168.88.102 node2
192.168.88.103 node3

② 在3台Linux的/etc/hosts文件中填入以下内容

192.168.88.101 node1
192.168.88.102 node2
192.168.88.103 node3


3.1.3 配置SSH免密登录

后续安装的集群化软件,多数需要远程登录以及远程执行命令,为了简单起见,配置三台Linux服务器之间的免密码互相SSH登录

① 在每一台机器执行:(一路回车到底)

ssh-keygen -t rsa -b 4096

② 在每一台机器执行:

ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3

执行完毕后,node1、node2、node3之间将完成root用户间的免密互通

3.1.4 创建hadoop用户并配置免密登录

后序大数据的软件,将不以root用户启动

我们将大数据的软件创建一个单独的用户hadoop,并为三台服务器同样配置hadoop用户的免密互通

① 在每一台机器执行:

useradd hadoop #创建hadoop用户

② 在每一台机器执行:

passwd hadoop #设置hadoop用户密码为123456

③ 在每一台机器执行:

su - hadoop #切换到hadoop用户

④ 在每一台机器执行:

ssh-keygen -t rsa -b 4096

⑤ 在每一台机器执行:

ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3

3.2 JDK环境部署

对三台虚拟机完成JDK环境部署

3.2.1 配置JDK环境

① 创建文件夹,用来部署JDK

mkdir -p /export/server

② 解压JDK安装文件

tar -zxvf jdk-8u351-linux-x64.tar.gz -C /export/server

③ 配置JDK的软链接

ln -s /export/server/jdk1.8.0_351 /export/server/jdk

④ 配置JAVA_HOME环境变量

# 编辑/etc/profile文件
export JAVA_HOME=/export/server/jdk
export PATH=$PATH:$JAVA_HOME/bin

⑤ 生效环境变量

source /etc/profile

⑥ 配置java执行程序的软链接

# 删除系统自带的java程序
rm -f /usr/bin/java
# 软链接我们自己安装的java程序
ln -s /export/server/jdk/bin/java /usr/bin/java

⑦ 执行验证

java -version
javac -version

3.3 防火墙、SELinux、时间同步

对三台虚拟机完成防火墙、SELinux、时间同步等系统设置

3.3.1 关闭防火墙和SELinux

集群化软件之间需要通过端口互相通讯,为了避免出现网络不通的问题,我们可以简单在集群内部关闭防火墙

① 在每一台机器执行:

systemctl stop firewalld
systemctl disable firewalld

Linux有一个安全模块:SELinux,用以限制用户和程序的相关权限,来确保系统的安全稳定。

在当前,我们需要关闭SELinux功能,避免导致后面的软件运行出现问题

② 在每一台机器执行:

vim /etc/sysconfig/selinux
# 将第七行SELINUX=enforcing 改为
SELINUX=disabled

3.3.2 修改时区并配置自动时间同步

① 在每一台机器执行:

yum install -y ntp #安装ntp软件

② 更新时区

rm -f /etc/localtime;sudo ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

③ 同步时间

ntpdate -u ntp.aliyun.com

④ 开启ntp服务并设置开机自启

systemctl start ntpd
systemctl enable ntpd

4. 总结

  1. 设置三台Linux的主机名和固定IP
  2. 在Linux系统以及本机中配置了主机名映射
  3. 配置了三台服务器之间root用户的SSH免密互通
  4. 安装配置完成了JDK环境
  5. 关闭了防火墙和SELinux
  6. 更新了时区和同步了时间
  7. 拍摄快照保存状态
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
8月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
10月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
10月前
|
存储 SQL 分布式计算
别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南
别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南
535 19
|
9月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
471 0
|
10月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
8月前
|
数据采集 分布式计算 大数据
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
193 1
|
7月前
|
SQL 分布式计算 大数据
SparkSQL 入门指南:小白也能懂的大数据 SQL 处理神器
在大数据处理的领域,SparkSQL 是一种非常强大的工具,它可以让开发人员以 SQL 的方式处理和查询大规模数据集。SparkSQL 集成了 SQL 查询引擎和 Spark 的分布式计算引擎,使得我们可以在分布式环境下执行 SQL 查询,并能利用 Spark 的强大计算能力进行数据分析。
|
11月前
|
数据采集 数据可视化 大数据
Python入门修炼:开启你在大数据世界的第一个脚本
Python入门修炼:开启你在大数据世界的第一个脚本
224 6
|
SQL 缓存 数据处理
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)
Apache Doris 提出“数据无界”和“湖仓无界”理念,提供高效的数据管理方案。本文聚焦三个典型应用场景:湖仓分析加速、多源联邦分析、湖仓数据处理,深入介绍 Apache Doris 的最佳实践,帮助企业快速响应业务需求,提升数据处理和分析效率
797 3
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)