Hadoop 3.x版本的新特性

简介: 【6月更文挑战第18天】

image.png
Hadoop 3.x版本带来了许多新特性和改进,以下是详细的新特性归纳:

  1. Java版本要求升级

    • Hadoop 3.x要求最低Java版本为JDK 8,所有Hadoop JAR包都是基于Java 8编译的。这意味着还在使用Java 7或更低版本的用户需要升级到Java 8才能正常运行Hadoop 3.x。
  2. HDFS Erasure Coding(EC技术)

    • Hadoop 3.x引入了HDFS Erasure Coding,这是一种新的数据保护机制,可以在数据存储时使用更少的冗余数据来实现更高的数据可靠性,降低存储成本。
    • 与标准HDFS副本机制的3倍开销相比,使用像Reed-Solomon(10,4)这样的标准编码的空间开销仅为1.4倍。
  3. YARN Timeline Service v.2

    • 新版本的YARN Timeline Service提供了更加灵活和高效的应用程序历史记录和监控功能,使用户能够更好地了解和管理其应用程序的运行情况。
  4. Hadoop Common包的升级

    • Hadoop 3.x中升级了Hadoop Common包,包括一些新的功能和改进,以提高系统的性能和可靠性。
  5. 流式数据处理改进

    • Hadoop 3.x中对流式数据处理功能进行了改进,包括对Apache Kafka和Apache Storm等流处理框架的更好支持,以及对流式数据处理性能的优化。
  6. 支持更多的硬件和操作系统平台

    • Hadoop 3.x扩展了对更多硬件和操作系统平台的支持,使其更加灵活和易于部署。
  7. Shell脚本重构

    • Hadoop Shell脚本已被重写,以修复许多长期存在的错误并包括一些新功能。尽管Hadoop的开发人员一直在寻求兼容性,但某些更改可能会破坏现有的安装。
  8. MapReduce任务本地优化

    • MapReduce增加了对map输出收集器的本地执行的支持,对于shuffle密集型工作,这可以使性能提高30%或更多。
  9. 支持多个NameNode

    • 在Hadoop 3.x中,HDFS支持两个以上的NameNode,通过配置三个NameNode和五个JournalNode,群集可以忍受两个节点的故障,而不仅仅是一个节点的故障。
  10. 默认服务端口变更

    • Hadoop 3.x中多个服务的默认端口已被更改,这有助于减少与其他应用程序的端口冲突问题。
  11. DataNode内部负载均衡

    • Hadoop 3.x在DataNode内部添加了负载均衡功能,以优化数据存储和访问性能。
  12. 支持文件系统连接器

    • Hadoop 3.x提供了对多种文件系统的连接器支持,增强了Hadoop与外部存储系统的集成能力。

这些新特性和改进使得Hadoop 3.x成为一个更加强大和高效的大数据处理框架,能够更好地满足现代数据处理和分析的需求。

目录
相关文章
|
6月前
|
分布式计算 Hadoop Java
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
143 0
|
分布式计算 资源调度 Hadoop
|
SQL 消息中间件 分布式计算
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
977 0
如何查看spark与hadoop、kafka、Scala、flume、hive等兼容版本【适用于任何版本】
|
5月前
|
分布式计算 Hadoop Android开发
hadoop-eclipse-plugin(版本hadoop2.7.3)
hadoop-eclipse-plugin(版本hadoop2.7.3)
169 6
hadoop-eclipse-plugin(版本hadoop2.7.3)
|
6月前
|
分布式计算 Hadoop 容器
Hadoop组件版本不兼容
【5月更文挑战第7天】Hadoop组件版本不兼容
64 3
|
6月前
|
分布式计算 Hadoop 大数据
最新版本——Hadoop3.3.6单机版完全部署指南
最新版本——Hadoop3.3.6单机版完全部署指南
1013 57
|
分布式计算 资源调度 Hadoop
【Flink】版本 1.13+ 集成 Hadoop 问题
【Flink】版本 1.13+ 集成 Hadoop 问题
454 0
|
存储 SQL 分布式计算
Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、大数据技术生态体系、推荐系统框架图
高可靠性、高扩展性、高效性、高容错性YARN架构概述、MapReduce架构概述、HDFS、YARN、MapReduce三者关系、1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。 2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。 3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。MapReduce将计算过程分为两个阶段:
Hadoop 概述、Hadoop 发展历史、Hadoop 三大发行版本、Hadoop优势、Hadoop组成、Hadoop1.x、2.x、3.x区别、HDFS架构概述、大数据技术生态体系、推荐系统框架图
|
分布式计算 自然语言处理 Hadoop
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)
148 0
【云计算 Hadoop】Hadoop 版本 生态圈 MapReduce模型(二)