《Spark与Hadoop大数据分析》——2.4 安装 Hadoop 和 Spark 集群

简介: 本节书摘来自华章计算机《Spark与Hadoop大数据分析》一书中的第2章,第2.4节,作者 [美]文卡特·安卡姆(Venkat Ankam),译 吴今朝,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.4 安装 Hadoop 和 Spark 集群

在安装 Hadoop和Spark之前,让我们来了解一下 Hadoop和Spark的版本。在 Cloudera、Hortonworks和MapR这所有三种流行的Hadoop发行版中,Spark都是作为服务提供的。在本书编写的时候,最新的Hadoop和Spark版本分别是2.7.2和2.0。但是,Hadoop发行版里可能是一个较低版本的Spark,这是因为Hadoop和 Spark 的发行周期并不同步。

对于后续章节的实践练习,我们会使用来自 Cloudera、Hortonworks 和 MapR 的免费虚拟机(virtual machine,VM),或使用开源版本的 Apache Spark。这些 VM 让我们很容易开始使用 Spark 和 Hadoop。同样的练习也可以在较大的集群上运行。

在笔记本电脑上使用虚拟机的先决条件如下:

image

下载并运行 Cloudera Hadoop 发行版(Cloudera Distribution for Hadoop,CDH)的说明如下:

(1)从http://www.cloudera.com/content/www/en-us/downloads.html 下载最新的 quickstart CDH VM。请根据笔记本电脑上安装的虚拟化软件(VirtualBox 或 VMWare)来下载相应的版本。

(2)将其解压缩到一个目录下(使用 7-Zip 或 WinZip)。

(3)在使用 VMWare Player 的情况下,单击Open a Virtual Machine,并指向你已经解压缩了虚拟机的目录。选择 cloudera-quickstart-vm-5.x.x-x-vmware.vmx 文件,然后单击 Open。

(4)单击Edit virtual machine settings,然后把内存增加到 7 GB(如果你的笔记本电脑有 8 GB 内存)或 8 GB(如果您的笔记本电脑有超过 8 GB 内存)。将处理器数量增加到 4 个。单击 OK。

(5)单击Play virtual machine。

(6)选择I copied it,然后单击 OK。

(7)这样,你的虚拟机就会启动并运行了。

(8)Cloudera Manager 安装在虚拟机上,但默认情况下处于关闭状态。如果要使用 Cloudera Manager,请双击并运行 Launch Cloudera Manager Express以设置 Cloudera Manager。它在启动/停止/重新启动集群上服务的过程中是有帮助的。

(9)虚拟机的登录凭据是用户名(cloudera)和密码(cloudera)。

如果你要使用 Cloudera Quickstart 的 Docker 镜像,可以参照 http://blog.cloudera.com/blog/2015/12/docker-is-the-new-quickstart-option-for-apache-hadoop-and-cloudera 上的说明。

下载和运行 Hortonworks 数据平台(Hortonworks Data Platform,HDP)Sandbox 的说明如下:

(1)从http://hortonworks.com/products/hortonworks-sandbox/#install下载最新版本的 HDP Sandbox。请根据笔记本电脑上安装的虚拟化软件(VirtualBox 或 VMWare)下载相应的版本。

(2)按照同一个下载页面上的安装指南中的说明进行操作。

(3)打开浏览器并输入 sandbox 中显示的地址,如 http://192.168.139.158/ 。单击View Advanced Options以查看所有链接。

(4)使用 putty 作为root用户,hadoop作为初始密码来访问 sandbox。你需要在首次登录时更改密码。此外,可以运行ambari-admin-password-reset命令重置Ambari的管理员密码。

(5)要开始使用 Ambari,请打开浏览器并输入 ipaddressofsandbox:8080,并使用上一步创建的管理凭据。启动 Ambari 所需的服务。

(6)要将主机名映射到 Windows 中的 IP 地址,请转到 C:WindowsSystem32driversetchosts,然后输入 IP 地址和主机名,中间用空格分隔符隔开。你需要管理员权限才能执行此操作。

下载和运行 MapR Sandbox 的说明如下:

(1)从https://www.mapr.com/products/mapr-sandbox-hadoop/download下载最新的 sandbox。请根据笔记本电脑上安装的虚拟化软件(VirtualBox 或 VMWare)下载相应的版本。

(2)按照 http://doc.mapr.com/display/MapR/MapR+Sandbox+for+Hadoop上的说明设置 sandbox。

(3)使用 Putty 登录到 sandbox。

(4)root 用户的密码是 mapr。

(5)要启动 HUE 或 MapR 控制系统(MapR Control System,MCS),请导航到 MapR Sandbox 提供的 URL。

(6)要将主机名映射到 Windows 中的 IP 地址,请转到 C:WindowsSystem32driversetchosts,然后输入 IP 地址和主机名,中间用空格分隔符隔开。

下面给出了下载和运行 Apache Spark 预制二进制文件的说明,以便在你预先安装了 Hadoop 集群的情况下使用。以下说明还可用于安装最新版本的 Spark,并在之前的虚拟机上使用它:

(1)从以下位置下载为 Hadoop 预制的 Spark:

image

(2)把 SPARK_HOME 和 PATH 变量添加到配置文件脚本,如以下命令所示,这样每次登录时这些环境变量就都设置好了:

image

(3)通过向 spark-env.sh 添加以下环境变量,让 Spark 了解 Hadoop 配置目录和 Java home。请复制 conf 目录中的模板文件:

image

(4)将 hive-site.xml 复制到 Spark 的 conf 目录:

image

(5)在复制模板文件后,将 spark-2.0.0-bin-hadoop2.7/conf/log4j.properties 文件中的日志级别(log level)更改为 ERROR。

image

相关文章
|
11天前
|
分布式计算 DataWorks 大数据
MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表,是什么原因
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表,是什么原因
|
16天前
|
分布式计算 大数据 数据处理
[AIGC大数据基础] Spark 入门
[AIGC大数据基础] Spark 入门
141 0
|
16天前
|
分布式计算 监控 Hadoop
Ganglia监控Hadoop与HBase集群
Ganglia监控Hadoop与HBase集群
|
22天前
|
存储 分布式计算 Hadoop
Hadoop集群搭建
Hadoop集群搭建
|
22天前
|
分布式计算 负载均衡 Hadoop
Hadoop集群节点添加
Hadoop集群节点添加
|
22天前
|
存储 分布式计算 Hadoop
Hadoop集群规模扩展
【4月更文挑战第14天】Hadoop集群扩展可通过添加更多节点、垂直扩展(增强单节点资源)和水平扩展(增加节点数量)来实现。关键点包括规划扩展策略、确保集群稳定性和优化配置。注意在扩展过程中要保证数据完整性,并根据需求调整以提升集群性能和效率。
21 1
|
分布式计算 大数据 Hadoop
技术派:优酷土豆用Spark完善大数据分析
大数据,一个似乎已经被媒体传播的过于泛滥的词汇,的的确确又在逐渐影响和改变着我们的生活。也许有人认为大数据在中国仍然只是噱头,但在当前中国互联网领域,大数据以及大数据所催生出来的生产力正在潜移默化地推动业务发展,并为广大中国网民提供更加优秀的服务。
1421 0
|
4月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
162 0
|
28天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
4月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。