史上最快! 10小时大数据入门实战(五)-分布式计算框架MapReduce

简介: 目录1 MapReduce概述2 MapReduce编程模型之通过wordcount词频统计分析案例入门MapReduce执行流程InputFormatOutputFormatOutputFormt接口决定了在哪里以及怎样持久化作业结果。
img_31c02313cd1c68e85e3ef322b328bd0f.png
目录

1 MapReduce概述

img_21772479c37477f2663b37afa25ba195.png

2 MapReduce编程模型之通过wordcount词频统计分析案例入门

img_5d2daa00b3a473373efecad040fdd45b.png

MapReduce执行流程

img_9ae90c753f87d07e3b7fdc241edc0aa8.png

img_cbb97b46bd33f93053c7c69c822efaeb.png
img_dc7e7cb5609d1a0f358884ed626850ca.png
  • InputFormat


    img_16473a45dc363ac8209c0710ce77d44e.png

    img_43390f7a5cad73be40d35df5219aaa52.png

    img_54b0d2f1f1d74018e4cf00da2de9420e.png

    img_f3cd519ba9566c789e36a1ae992d84b6.png
  • OutputFormat
    OutputFormt接口决定了在哪里以及怎样持久化作业结果。Hadoop为不同类型的格式提供了一系列的类和接口,实现自定义操作只要继承其中的某个类或接口即可。你可能已经熟悉了默认的OutputFormat,也就是TextOutputFormat,它是一种以行分隔,包含制表符界定的键值对的文本文件格式。尽管如此,对多数类型的数据而言,如再常见不过的数字,文本序列化会浪费一些空间,由此带来的结果是运行时间更长且资源消耗更多。为了避免文本文件的弊端,Hadoop提供了SequenceFileOutputformat,它将对象表示成二进制形式而不再是文本文件,并将结果进行压缩。

3 MapReduce核心概念

img_ebf4e000b41168f64408e8cd2c82785d.png

img_012fc39139036b05a3b472a52bdd01f5.png

3.1 Split

img_88e2b0cb4862ac7f00a702a40b900757.png

3.2 InputFormat

4 MapReduce 1.x 架构

img_2e9c8bad53ff5768c8035383d59c7a6b.png
img_4b43d8f44554c1f661ed6b853cf8ff76.png

img_c99f71c1d8960304ce729d90dc1af0eb.png

img_65957ec055cca28dd458567b69bd6d60.png

img_f79e62c52e5c243ce783920e55f4b37b.png

5 MapReduce 2.x 架构

img_2c490e0c50c9170c2c0f1d74e33d116e.png

6 Java 实现 wordCount

img_5127dd9a55a2f5507bc2151c4d5665d3.png

img_41227dd66b0d83cfdd106c4ea0278434.png
clean package

img_3fd46fea456df3397e9cf6e21a1c29e0.png
上传到Hadoop服务器

img_ceec34ba2cc18cfc821cff9c4e715c90.png
全路径没有问题

img_ce05f034248354a076e68ac4d0092471.png

7 重构

img_cfcd5a21a7c56e8b0d2c8fec67246cd1.png

8 Combiner编程

img_c0c578f8d99ecda4828992c076f9af3c.png

9 Partitoner

img_f5d970db39fa491d2ccc0c49b2be80c8.png

img_34ae74cbc9211497f3ca07ff881823e5.png

10 JobHistoryServer

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
12月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
存储 SQL 分布式计算
别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南
别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南
839 19
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
684 0
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
SQL 缓存 数据处理
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)
Apache Doris 提出“数据无界”和“湖仓无界”理念,提供高效的数据管理方案。本文聚焦三个典型应用场景:湖仓分析加速、多源联邦分析、湖仓数据处理,深入介绍 Apache Doris 的最佳实践,帮助企业快速响应业务需求,提升数据处理和分析效率
951 3
数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
925 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
727 8