本文来自:自译+百度
Apache Hadoop 是一款可靠、可升级、分布式计算的开源软件。
Apache Hadoop 的开源软件库是专门为处理跨大数据簇而设计的处理模型族。它主要被设计用来按比例从一个到成千上万的无服务平均的分配计算任务和内存。而不是依靠硬件提供高可用性,库本身的目的是检测和处理应用层的故障,因此再一组计算机上提供高可用性服务,每一台计算机都容易出现故障。
这个项目包括这些模型:
Hadoop Common:支持其它Hadoop模块的通用实用程序。
Hadoop Distributed File System(HDFS):提供对应用程序数据的高通量访问的分布式文件系统。
Hadoop YARN:作业调度与集群资源管理框架。
Hadoop MapReduce:基于线性的大数据量并行处理系统。
Apache 中的其它与Hadoop相关的项目包括:
Ambari:一个基于网络的工具、配置、管理、监控Apache的Hadoop集群包括Hadoop HDFSHiveHCatalogHBaseZooKeeperOoziePig and Sqoop.Ambari还提供了一个仪表板查看集群健康如热图和查看MapReduce能力,Pig和Hive应用视觉和功能,一个用户友好的方式其性能诊断。
Avro:数据序列化系统。
Cassandra:无单点故障的可扩展多主数据库。
ChukWa:一个用于管理大型分布式系统的数据采集系统。
HBase:一个可扩展的,支持结构化数据存储的大型分布式数据库。
Hive:数据仓库的基础设施,提供数据汇总和专案查询。
Mahout:一个可扩展的机器学习和数据挖掘库。
Pig:高级数据流语言和执行框架的并行计算。
Spark:快速和通用计算的Hadoop数据引擎。Spark提供了一个简单而富有表现力的比那成模型,支持多种应用,包括ETL, 机器学习,数据流处理,图形计算。
Tez:广义数据流变成框架,建立在Hadoop之上,他提供了一个强大灵活的引擎来执行任务的任意DAG为批处理和交互式的使用情况数据的过程。Tez采用Hadoopd的生态系统,在Pig等框架和其它的商业软件中渠道MapReduce Hadoop作为执行表的存在。
ZooKeeper:分布式应用的高性能的协调服务。