大数据入门与实战-Hadoop生态圈技术总览

简介: 大数据入门与实战-Hadoop生态圈技术总览

1 Hadoop生态圈技术纵览


51.png


52.png

2 分布式概念


53.png


3 HDFS 读写过程


54.png

HDFS 读过程


55.png

HDFS 写过程


4 伪分布式集群


56.png


5 MapReduce


MapReduce是一个编程框架,允许我们在分布式环境中对大型数据集执行分布式和并行处理:

  • MapReduce由两个不同的任务组成  Map和Reduce。
  • 正如MapReduce的名称所示,reducer阶段发生在mapper阶段完成之后。
  • 因此,第一个是Map任务,其中读取并处理数据块以生成作为中间输出的键值对。
  • Mapper或map作业(键值对)的输出被输入到Reducer。
  • reducer从多个map作业中接收键值对。
  • 然后,reducer将这些中间数据元组(中间键值对)聚合成一组较小的元组或键值对,这是最终输出。


MapReduce教程:MapReduce的字数统计示例

让我们通过一个示例来了解MapReduce是如何工作的,有一个 名为example.txt的文本文件,其内容如下:


Dear, Bear, River, Car, Car, River, Deer, Car ,Bear


现在,假设我们必须使用MapReduce对sample.txt执行单词统计,将找到这些单词和每个单词出现的次数。


57.png

  • 首先,我们将输入分成三个分区,如图所示。这将在所有Map节点之间分配工作。
  • 然后,我们对每个映射器中的单词进行标记,并为每个标记或单词提供硬编码值(1)。给出硬编码值等于1的理由是每个单词本身都会出现一次。
  • 现在,将创建一个键值对列表,其中键是单词和值是1。所以,对于第一行(Dear, Bear, River),我们有3个键值对 - Dear,1; Bear,1; River,1。映射过程在所有节点上保持不变。
  • 在映射器阶段之后,发生分区和重排的分区过程,以便将具有相同键的所有元组发送到相应的reducer。
  • 因此,在排序和重排阶段之后,每个reducer将具有唯一键和与该键相对应的值列表。例如,Bear,[1,1]; Car,[1,1,1] ..等
  • 现在,每个Reducer计算该值列表中存在的值。如图所示,reducer获取一个值列表,其中键值为[1,1]。然后,它计算列表中的1的数量,并将最终输出给出为 - Bear,2。
  • 最后,然后收集所有输出键/值对并将其写入输出文件中。


参考资料


MapReduce Tutorial – Fundamentals of MapReduce with MapReduce Example

https://www.cniao5.com/


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
7月前
|
存储 人工智能 大数据
云栖2025|阿里云开源大数据发布新一代“湖流一体”数智平台及全栈技术升级
阿里云在云栖大会发布“湖流一体”数智平台,推出DLF-3.0全模态湖仓、实时计算Flink版升级及EMR系列新品,融合实时化、多模态、智能化技术,打造AI时代高效开放的数据底座,赋能企业数字化转型。
1428 0
|
9月前
|
数据采集 人工智能 分布式计算
ODPS在AI时代的发展战略与技术演进分析报告
ODPS(现MaxCompute)历经十五年发展,从分布式计算平台演进为AI时代的数据基础设施,以超大规模处理、多模态融合与Data+AI协同为核心竞争力,支撑大模型训练与实时分析等前沿场景,助力企业实现数据驱动与智能化转型。
622 4
|
7月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
9月前
|
SQL 分布式计算 大数据
我与ODPS的十年技术共生之路
ODPS十年相伴,从初识的分布式计算到共生进化,突破架构边界,推动数据价值深挖。其湖仓一体、隐私计算与Serverless能力,助力企业降本增效,赋能政务与商业场景,成为数字化转型的“数字神经系统”。
|
9月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。
|
9月前
|
机器学习/深度学习 算法 Java
Java 大视界 -- Java 大数据在智能物流运输车辆智能调度与路径优化中的技术实现(218)
本文深入探讨了Java大数据技术在智能物流运输中车辆调度与路径优化的应用。通过遗传算法实现车辆资源的智能调度,结合实时路况数据和强化学习算法进行动态路径优化,有效提升了物流效率与客户满意度。以京东物流和顺丰速运的实际案例为支撑,展示了Java大数据在解决行业痛点问题中的强大能力,为物流行业的智能化转型提供了切实可行的技术方案。
|
9月前
|
SQL 分布式计算 大数据
SparkSQL 入门指南:小白也能懂的大数据 SQL 处理神器
在大数据处理的领域,SparkSQL 是一种非常强大的工具,它可以让开发人员以 SQL 的方式处理和查询大规模数据集。SparkSQL 集成了 SQL 查询引擎和 Spark 的分布式计算引擎,使得我们可以在分布式环境下执行 SQL 查询,并能利用 Spark 的强大计算能力进行数据分析。
|
10月前
|
数据采集 自然语言处理 分布式计算
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
大数据岗位技能需求挖掘:Python爬虫与NLP技术结合
|
8月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
592 14
|
9月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
868 0