《Hadoop集群与安全》一导读

简介: 许多已有的Hadoop发行版本通过某种类型的图形界面来简化Hadoop的安装。这种方法极大地缩短了构建完整Hadoop集群所需的时间,同时也降低了管理集群配置的复杂性。

image

前 言

在过去的数年中,Hadoop已经成为数据集成平台的标准解决方案。各企业都在数据基础设施架构中融入新的技术,这要求系统工程师和数据管理员要迅速地掌握新组件的各个方面。由于Hadoop是一款包含多种软件的产品,其中集成了多种不同的开源项目,因此掌握这些技术并不简单,需要进行正确安装和配置才能确保Hadoop平台的健壮性和稳定性。
许多已有的Hadoop发行版本通过某种类型的图形界面来简化Hadoop的安装。这种方法极大地缩短了构建完整Hadoop集群所需的时间,同时也降低了管理集群配置的复杂性。自动化安装和配置的问题在于隐藏了许多有关Hadoop组件协同工作的重要细节,比如某些组件需要其他组件的原因或者哪些是最为关键的配置参数,等等。
本书前6章讲解如何手动安装和配置所有主要Hadoop组件。通过设置一个完全可运行的集群,你将会对Hadoop内部的运行机制产生一定的了解并且有助于你调试任何可能发生的问题。你也可以将第1~6章用作主要Hadoop组件和综合配置选项的快速参考。在编写本书的过程中,我自己在实际配置Hadoop集群时也参阅了本书来查找某个特定的变量或者在配置操作系统时寻找最佳步骤。这更加让我坚信,本书会为其他充满热情和经验丰富的Hadoop管理员与开发者提供帮助。
目前,许多组织在生产环境中实现Hadoop。当一个组织开始大数据之旅,大数据的安全就成为一个重要的问题,而保障敏感数据的安全具有最高的优先级。企业安全部门会担心将Hadoop集成到企业系统后带来的安全隐患。本书第7~13章则提供保障基于Hadoop的大数据平台安全的实现方案和最佳实践,覆盖Kerberos安全协议和Hadoop安全机制的设计思想,并且包括在企业内部来确保Hadoop及其生态系统安全的详细方法。这部分的目标是通过深入研究大数据安全参考架构,从企业视角提供端到端的大数据安全,并且详细介绍如何集成各种技术构建一个安全的大数据平台。

目 录

第1章 构建Hadoop集群
1.1 选择Hadoop集群硬件
1.2 Hadoop发行版
1.3 为Hadoop集群选择操作系统
1.4 小结
第2章 安装和配置Hadoop
2.1 在Hadoop集群中配置操作系统
2.2 设置NameNode
2.3 小结
第3章 配置Hadoop生态系统
3.1托管Hadoop生态项目
3.2 Sqoop
3.2.1安装和配置Sqoop
3.2.2 Sqoop导入示例
3.2.3 Sqoop导出示例
3.3 Hive
3.3.1Hive架构
3.3.2安装Hive Metastore
3.3.3 安装Hive客户端 
3.3.4 安装Hive Server
3.4Impala
3.4.1 Impala架构
3.4.2 安装Impala state store
3.4.3 安装Impala server
3.5 小结

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7天前
|
分布式计算 负载均衡 Hadoop
Hadoop集群节点添加
Hadoop集群节点添加
|
12天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
40 9
|
13天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
【4月更文挑战第4天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
22 4
|
16天前
|
存储 分布式计算 Hadoop
【Hadoop】Hadoop的三种集群模式
【4月更文挑战第9天】【Hadoop】Hadoop的三种集群模式
|
17天前
|
分布式计算 Hadoop Java
centos 部署Hadoop-3.0-高性能集群(一)安装
centos 部署Hadoop-3.0-高性能集群(一)安装
17 0
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop集群基本测试
Hadoop集群基本测试
26 0
|
3月前
|
分布式计算 Hadoop Java
linux上面hadoop配置集群
linux上面hadoop配置集群
46 0
|
4月前
|
分布式计算 Hadoop Windows
解决Windows环境下hadoop集群的运行
解决Windows环境下hadoop集群的运行
35 0
|
4月前
|
分布式计算 Hadoop 大数据
大数据成长之路-- hadoop集群的部署(4)退役旧数据节点
大数据成长之路-- hadoop集群的部署(4)退役旧数据节点
54 0
|
4月前
|
分布式计算 Hadoop 大数据
大数据成长之路-- hadoop集群的部署(3)HDFS新增节点
大数据成长之路-- hadoop集群的部署(3)HDFS新增节点
68 0

相关实验场景

更多