文档备案控制台

开发者社区数据库文章正文

大数据基础-MapReduce

2022-10-20 259

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： MapReduce初了解

Hadoop中Hdfs负责存储，Yarn负责资源管理，负责计算的框架，名为MapReduce，仅仅存储数据是毫无意义的，数据的价值在于运算，在海量数据运算中，我们就能挖掘数据的价值。

通过讲数据分发到不同节点进行计算，最后再汇总的计算思想，就是MapReduce的设计核心。

分布式计算

我们自己写的JDBC代码是在一台机器上运行，mysql数据库是在另一台机器上运行。

正常情况下，我们通过jdbc代码去mysql中获取一条数据，速度还是很快的，但是有一个极端情况，如果我们要获取的数据量很大，达到了几个G，甚至于几十G，就会很慢，主要是两方面原因。

1.磁盘IO

2.网络IO

这两个里面其实最耗时的还是网络 io ，我们平时在两台电脑之间传输一个几十 G 的文件也需要很长时间的，但是如果是使用U盘拷贝就很快了，所以可以看出来主要耗时的地方是在网络IO上面。

如果我们考虑把计算程序移动到mysql上面去执行，就可以节省网络IO

移动数据是传统的计算方式，现在的一种新思路是移动计算。

如果我们数据量很大的话，我们的数据肯定是由很多个节点存储的，这个时候我们就可以把我们的程序代码拷贝到对应的节点上面去执行。

分布式计算的步骤

1.对每个节点进行局部计算
2.对每个节点的局部计算结果就行全局汇总

文章标签：

云原生大数据计算服务 MaxCompute

Java

分布式计算

关系型数据库

资源调度

MySQL

Hadoop

数据库

存储

大数据

数据库连接

关键词：

云原生大数据计算服务 MaxCompute mapreduce

大数据mapreduce

mapreduce大数据

开源大数据平台 E-MapReduce大数据

相关实践学习

基于MaxCompute的热门话题分析

Apsara Clouder大数据专项技能认证配套课程：基于MaxCompute的热门话题分析

颜学长

目录

相关文章

武子康

|

分布式计算资源调度 Hadoop

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

武子康

431 2 2

土木林森

|

分布式计算大数据分布式数据库

"揭秘HBase MapReduce高效数据处理秘诀：四步实战攻略，让你轻松玩转大数据分析！"

【8月更文挑战第17天】大数据时代，HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架，能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数，以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析，还可扩展至更复杂的数据处理任务，为企业提供强有力的大数据技术支持。

土木林森

419 1 1

wljslmz

|

分布式计算大数据 Hadoop

MapReduce：大数据处理的基石

【8月更文挑战第31天】

wljslmz

656 0 0

郑小健

|

机器学习/深度学习分布式计算算法

MaxCompute 的 MapReduce 与机器学习

【8月更文第31天】随着大数据时代的到来，如何有效地处理和分析海量数据成为了一个重要的课题。MapReduce 是一种编程模型，用于处理和生成大型数据集，其核心思想是将计算任务分解为可以并行处理的小任务。阿里云的 MaxCompute 是一个面向离线数据仓库的计算服务，提供了 MapReduce 接口来处理大规模数据集。本文将探讨如何利用 MaxCompute 的 MapReduce 功能来执行复杂的计算任务，特别是应用于机器学习场景。

郑小健

356 0 0

_BugMan

|

分布式计算自然语言处理大数据

【大数据】MapReduce JAVA API编程实践及适用场景介绍

【大数据】MapReduce JAVA API编程实践及适用场景介绍

_BugMan

536 1 1

土木林森

|

存储分布式计算算法

"揭秘！MapReduce如何玩转压缩文件，让大数据处理秒变‘瘦身达人’，效率飙升，存储不再是烦恼！"

【8月更文挑战第17天】MapReduce作为Hadoop的核心组件，在处理大规模数据集时展现出卓越效能。通过压缩技术减少I/O操作和网络传输的数据量，不仅提升数据处理速度，还节省存储空间。支持Gzip等多种压缩算法，可根据需求选择。示例代码展示了如何配置Map输出压缩，并使用GzipCodec进行压缩。尽管压缩带来CPU负担，但在多数情况下收益大于成本，特别是Hadoop能够自动处理压缩文件，简化开发流程。

土木林森

354 0 0

_BugMan

|

存储缓存分布式计算

【大数据】计算引擎MapReduce

【大数据】计算引擎MapReduce

_BugMan

681 0 0

ZShiJ

|

分布式计算数据可视化 Hadoop

大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现

大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现

ZShiJ

4050 0 0

诸葛子房

|

分布式计算 Hadoop

Hadoop系列 mapreduce 原理分析

Hadoop系列 mapreduce 原理分析

诸葛子房

262 1 1

武子康

|

分布式计算资源调度 Hadoop

Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化编写Mapper和Reducer和Driver 附带POM 详细代码图文等内容

Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化编写Mapper和Reducer和Driver 附带POM 详细代码图文等内容

武子康

374 3 3

热门文章

最新文章

开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践

蚂蚁金服高级技术专家徐红星：蚂蚁金服大数据开放式创新实践

阿里云大数据利器Maxcompute-使用mapjoin优化查询

2016大数据创新大赛——机场客流量的时空分布预测模型解析

阿里开发者招聘节 | 阿里云MaxCompute平台诚招技术人才啦！

AI加持的阿里云飞天大数据平台技术揭秘

2022年最强大数据面试宝典（全文50000字，建议收藏）（三）

阿里云大数据acp证书有用吗？阿里云大数据acp考试难度？

天池大数据竞赛 Spaceack带你利用Pandas，趋势图与桑基图分析美国选民候选人喜好度

开源大数据比对平台(dataCompare)新版本发布

Hadoop MapReduce 调优参数

MapReduce分布式编程

Hadoop MapReduce计算框架

java与大数据：Hadoop与MapReduce

DataWorks产品使用合集之在DataWorks中，在MapReduce作业中指定两个表的所有分区如何解决

【Hive】所有的Hive任务都会有MapReduce的执行吗？

Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】（部分图片来源于网络）【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】（图片来源于网络）

Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】（图片来源于网络）

请描述一下MapReduce的工作流程。

MapReduce计数器,Tash的运行机制,shuffle过程,压缩算法

相关课程

更多

大数据Impala教程

大数据Spark2020最新课程（知识精讲与实战演练）第二阶段

大数据Spark2020版（知识精讲与实战演练）第三阶段

大数据Spark2020版（知识精讲与实战演练）第四阶段

2020版大数据实战项目之DMP广告系统（第六阶段）

Hadoop 分布式计算框架 MapReduce

相关电子书

更多

MaxCompute Serverless 架构演进

Data+AI时代大数据平台应该如何建设

大数据AI一体化的解读

下一篇

开通oss服务