黑马程序员-大数据入门到实战-前置章节

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云防火墙,500元 1000GB
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 黑马程序员-大数据入门到实战-前置章节

1. 环境介绍

基于VMware构建Linux虚拟机

① 是大数据从业者或IT从业者的必备技能之一

② 是成本低廉的方案

2. VMware准备虚拟机

① 设置VMware网段

② 下载Centos操作系统

③ 在VMware中安装Centos操作系统

④ 配置多台Linux虚拟机

3. VMware虚拟机系统设置

3.1 主机名、IP、SSH免密登录

对三台虚拟机完成主机名、固定IP、SSH免密登录等系统设置

3.1.1 配置固定IP地址

① 开启node1,修改主机名为node1,并修改固定ip

# 修改主机名
hostnamectl set-hostname node1;
# 修改IP地址
vim /etc/sysconfig/network-scripts/ifcfg-ens33
IPADDR="192.168.88.101"
#重启网卡
systemctl restart network

同样的操作启动node2和node3

修改node2主机名为node2,设置ip为192.168.88.102

修改node3主机名为node3,设置ip为192.168.88.103

3.1.2 配置主机名映射

① 在Windows系统中修改hosts文件,填入如下内容:

192.168.88.101 node1
192.168.88.102 node2
192.168.88.103 node3

② 在3台Linux的/etc/hosts文件中填入以下内容

192.168.88.101 node1
192.168.88.102 node2
192.168.88.103 node3


3.1.3 配置SSH免密登录

后续安装的集群化软件,多数需要远程登录以及远程执行命令,为了简单起见,配置三台Linux服务器之间的免密码互相SSH登录

① 在每一台机器执行:(一路回车到底)

ssh-keygen -t rsa -b 4096

② 在每一台机器执行:

ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3

执行完毕后,node1、node2、node3之间将完成root用户间的免密互通

3.1.4 创建hadoop用户并配置免密登录

后序大数据的软件,将不以root用户启动

我们将大数据的软件创建一个单独的用户hadoop,并为三台服务器同样配置hadoop用户的免密互通

① 在每一台机器执行:

useradd hadoop #创建hadoop用户

② 在每一台机器执行:

passwd hadoop #设置hadoop用户密码为123456

③ 在每一台机器执行:

su - hadoop #切换到hadoop用户

④ 在每一台机器执行:

ssh-keygen -t rsa -b 4096

⑤ 在每一台机器执行:

ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3

3.2 JDK环境部署

对三台虚拟机完成JDK环境部署

3.2.1 配置JDK环境

① 创建文件夹,用来部署JDK

mkdir -p /export/server

② 解压JDK安装文件

tar -zxvf jdk-8u351-linux-x64.tar.gz -C /export/server

③ 配置JDK的软链接

ln -s /export/server/jdk1.8.0_351 /export/server/jdk

④ 配置JAVA_HOME环境变量

# 编辑/etc/profile文件
export JAVA_HOME=/export/server/jdk
export PATH=$PATH:$JAVA_HOME/bin

⑤ 生效环境变量

source /etc/profile

⑥ 配置java执行程序的软链接

# 删除系统自带的java程序
rm -f /usr/bin/java
# 软链接我们自己安装的java程序
ln -s /export/server/jdk/bin/java /usr/bin/java

⑦ 执行验证

java -version
javac -version

3.3 防火墙、SELinux、时间同步

对三台虚拟机完成防火墙、SELinux、时间同步等系统设置

3.3.1 关闭防火墙和SELinux

集群化软件之间需要通过端口互相通讯,为了避免出现网络不通的问题,我们可以简单在集群内部关闭防火墙

① 在每一台机器执行:

systemctl stop firewalld
systemctl disable firewalld

Linux有一个安全模块:SELinux,用以限制用户和程序的相关权限,来确保系统的安全稳定。

在当前,我们需要关闭SELinux功能,避免导致后面的软件运行出现问题

② 在每一台机器执行:

vim /etc/sysconfig/selinux
# 将第七行SELINUX=enforcing 改为
SELINUX=disabled

3.3.2 修改时区并配置自动时间同步

① 在每一台机器执行:

yum install -y ntp #安装ntp软件

② 更新时区

rm -f /etc/localtime;sudo ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

③ 同步时间

ntpdate -u ntp.aliyun.com

④ 开启ntp服务并设置开机自启

systemctl start ntpd
systemctl enable ntpd

4. 总结

  1. 设置三台Linux的主机名和固定IP
  2. 在Linux系统以及本机中配置了主机名映射
  3. 配置了三台服务器之间root用户的SSH免密互通
  4. 安装配置完成了JDK环境
  5. 关闭了防火墙和SELinux
  6. 更新了时区和同步了时间
  7. 拍摄快照保存状态
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
14天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
46 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
5天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
1月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
39 3
|
23天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
35 0
|
1月前
|
分布式计算 运维 大数据
我的程序员之路03:我和大数据
我的程序员之路03:我和大数据
|
1月前
|
SQL 运维 大数据
我的程序员之路02:大数据实习篇
我的程序员之路02:大数据实习篇
|
3月前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
3月前
|
分布式计算 资源调度 Hadoop
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
|
3月前
|
大数据 API 数据处理
揭秘!Flink如何从默默无闻到大数据界的璀璨明星?起源、设计理念与实战秘籍大公开!
【8月更文挑战第24天】Apache Flink是一款源自Stratosphere项目的开源流处理框架,由柏林理工大学等机构于2010至2014年间开发,并于2014年捐赠给Apache软件基金会。Flink设计之初即聚焦于提供统一的数据处理模型,支持事件时间处理、精确一次状态一致性等特性,实现了流批一体化处理。其核心优势包括高吞吐量、低延迟及强大的容错机制。
60 1
|
3月前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
61 1