Hadoop核心组件(二)

简介: Hadoop核心组件(二)

Hadoop2.X另外1个重要组件就是MapReduce,Hadoop 1.X 生态几乎是**以 MapReduce为核心**的。


- MapReduce(Map 和 Reduce 分布式运算编程框架):MapReduce是一种计算模型,于大规模数据集(大于1TB)的并行计算。


 - “Map”对数据集上的独立元素进行指定的操作,生成**键值对**(例如:手机通讯录中,键:小明,值:13333333333(小明号码),这就是所谓键值对,不要想太复杂了)形式中间结果;

 - “Reduce”则对之间结果中相同“键”的所有“值”进行规约,以得到最终结果。

相关文章
|
存储 分布式计算 资源调度
Hadoop 三大组件及作用【重要】
Hadoop 三大组件及作用【重要】
475 0
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
359 0
|
8月前
|
SQL 分布式计算 Hadoop
【赵渝强老师】Hadoop生态圈组件
本文介绍了Hadoop生态圈的主要组件及其关系,包括HDFS、HBase、MapReduce与Yarn、Hive与Pig、Sqoop与Flume、ZooKeeper和HUE。每个组件的功能和作用都进行了简要说明,帮助读者更好地理解Hadoop生态系统。文中还附有图表和视频讲解,以便更直观地展示这些组件的交互方式。
665 5
|
11月前
|
存储 分布式计算 Hadoop
Hadoop 的两个主要组件是什么?
【8月更文挑战第12天】
1144 4
Hadoop 的两个主要组件是什么?
|
11月前
|
存储 分布式计算 资源调度
什么是Hadoop及其组件?
【8月更文挑战第31天】
670 1
|
存储 分布式计算 大数据
Hadoop 生态圈中的组件如何协同工作来实现大数据处理的全流程
Hadoop 生态圈中的组件如何协同工作来实现大数据处理的全流程
|
SQL 消息中间件 分布式计算
Hadoop生态圈组件及其作用
Hadoop生态圈组件及其作用
|
分布式计算 Hadoop 容器
Hadoop组件版本不兼容
【5月更文挑战第7天】Hadoop组件版本不兼容
213 3
|
SQL 存储 分布式计算
Hadoop学习笔记(HDP)-Part.02 核心组件原理
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
725 0
Hadoop学习笔记(HDP)-Part.02 核心组件原理
|
SQL 存储 分布式计算
Hadoop生态各个组件的关系
Hadoop生态各个组件的关系
106 0

相关实验场景

更多