《Hadoop集群与安全》一第1章 构建Hadoop集群

简介:

本节书摘来自华章出版社《Hadoop集群与安全》一书中的第1章,作者 (美)Danil Zburivsky Sudheesh Narayanan,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章 构建Hadoop集群

Hadoop是一款免费开源的分布式存储和计算平台。在构建该平台后,用户可以使用商用硬件中的集群来存储和处理大量数据。在过去的数年中,Hadoop已经成为大数据项目的事实标准。本章会讲述以下内容:
选择Hadoop集群硬件。
Hadoop发行版。
为Hadoop集群选择操作系统。
本章会讲解为Hadoop集群选择和配置硬件的概念,还会介绍不同的Hadoop发行版(其数量每年都在增加)以及它们之间的异同点。
无论读者是Hadoop管理员还是架构师,构建集群的第一步是确定使用硬件的类型以及成本,但是在读者下单购买硬件准备大干一场之前还有一些必要的问题需要考虑。这些问题都与集群设计有关,比如集群需要存储的数据量、数据增长率的估计、主要的数据访问模式,集群是主要用于预定义的计划任务,还是用于探索性数据分析的多租户环境?Hadoop的架构和数据访问模型具有极大的灵活性,它能够承载不同类型的工作量,比如批处理海量数据或者配合诸如Impala这样的项目进行实时分析。
某些集群更适合于特定类型的任务,因此在选择硬件阶段就应考虑到集群的设计以及目的,这是非常重要的。在处理由成百上千个服务器所组成的集群时,最初有关硬件和总体布局的决定会对集群的性能、稳定性以及对应的成本起着至关重要的作用。

相关文章
|
1月前
|
数据采集 分布式计算 监控
Hadoop集群长时间运行数据倾斜原因
【6月更文挑战第20天】
27 6
|
1月前
|
分布式计算 监控 网络协议
Hadoop集群长时间运行网络延迟原因
【6月更文挑战第20天】
37 2
|
3天前
|
存储 分布式计算 Hadoop
Hadoop格式化前检查集群状态
【7月更文挑战第22天】
31 14
|
22天前
|
SQL 分布式计算 关系型数据库
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
27 2
|
1月前
|
存储 缓存 分布式计算
|
1月前
|
存储 分布式计算 负载均衡
Hadoop集群长时间运行
【6月更文挑战第19天】
22 3
|
1月前
|
存储 分布式计算 监控
Hadoop集群添加新的DataNode
【6月更文挑战第19天】
20 1
|
1月前
|
分布式计算 资源调度 负载均衡
Hadoop集群配置
【6月更文挑战第13天】
50 5
|
1月前
|
存储 分布式计算 资源调度
如何优化Hadoop集群的内存使用?
【6月更文挑战第18天】如何优化Hadoop集群的内存使用?
41 6
|
1月前
|
存储 分布式计算 监控
如何提高Hadoop集群的网络传输速度?
【6月更文挑战第18天】如何提高Hadoop集群的网络传输速度?
29 3