Hadoop的基本工作原理
将文件切分成等大的数据块,存储到多台机器上
将数据切分、容错、负载均衡等功能透明化
可将HDFS看成一个容量巨大、具有高容错性的磁盘
Hadoop的应用
海量数据的可靠性存储
数据归档
HDFS(分布式文件系统)结构图
YARN(资源管理系统)
负责集群的资源管理和调度
使得多种计算框架可以运行在一个集群中
YARN的特点
良好的扩展性、高可用性
对多种类型的应用程序进行统一管理和调度
自带了多种多用户调度器,适合共享集群环境
YARN结构
MapReduce(分布式计算框架)
MapReduce特点
良好的扩展性
高容错性
适合PB级以上海量数据的离线处理
MapReduce结构图