MapReduce 基础模型|学习笔记

简介: 快速学习 MapReduce 基础模型

开发者学堂课程【Java 高级编程MapReduce 基础模型】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/20/detail/427


MapReduce 基础模型


内容简介:


1.MapRuduce 基础模型


MapRuduce 基础模型

在进行数据分析的处理之中有一个最重要的基础模型:MapReduce 模型,对于这个模型一共是分为两个部分:Map 处理部分,Reduce 分析部分,在进行数据分析之前必须要对数据进行合理的处理,而后才可以做统计分析操作。

 

范例:MapRuduce 基础模型

要分析用户的订单,首先存入订单数据:

购买的商品名称  private string name;

购买的商品价格  private double price;

购买的商品数量  private int amount;

public Order(String name,double price,int amount){

this.name = name;

this.price = price;

this.amount =amount;

}

为了分析问题,在代码中应该把所有的 get 方法都提供。

public int getAmount(){

return amount;

}

public String getName(){

return name;

}

public double getPrice(){

return price;

}

如果想使用 Stream 进行分析处理,则一定要将全部要分析的数据保存在集合之中,如下

List<Order> all = new ArrayList<Order>();

all.add(new Order(“小强娃娃”,9.9,10));

all.add(new Order(“林弱娃娃”,2987.9,3));

all.add(new Order(“不强牌笔记本电脑”,8987.9,8));

all.add(new Order(“弱强茶杯”,2.9,800));

all.add(new Order(“阿强牌煎饼”,0.9,138));

1.png

分析购买商品之中带有“强”的信息数据,先对其进行过滤操作,对商品单价和数量进行处理,分析汇总

DoubleSummaryStatistics stat=         all.stream().filter((ele)->ele.getName().contains(“强”)).mapToDouble((orderObject.getPrice()*orderObject,getAmount()).summaryStatistics();

System.out.println(“购买数量” + stat.getCount());

System.out.println(“购买总价” + stat.getSum());

System.out.println(“平均花费” + stat.getAverage());

System.out.println(“最高花费” + stat.getMax());

System.out.println(“最低花费” + stat.getMin());

图片2.png

运行结果为:

购买数量: 4

购买总价: 74446.4

平均花费: 18611.6

最高花费: 71903.2

最低花费: 99.0

以上这就是MapReduce的基础操作流程

这些分析操作只是 JDK 本身提供的支持,而实际当中,由于面对的是大数据环境,这种操作又将所有数据都保存在内存里面,由于数据非常大故而是不能实现的,所以这只是提出的一个基础模型而已。

 

相关文章
|
6月前
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
223 0
|
SQL 分布式计算 并行计算
Hadoop学习笔记(三)之MapReduce
Hadoop学习笔记(三)之MapReduce
|
5月前
|
分布式计算 Hadoop Java
MapReduce编程模型——在idea里面邂逅CDH MapReduce
MapReduce编程模型——在idea里面邂逅CDH MapReduce
85 15
|
5月前
|
分布式计算 资源调度 数据处理
YARN支持哪些非基于MapReduce的计算模型?
【6月更文挑战第19天】YARN支持哪些非基于MapReduce的计算模型?
68 11
|
5月前
|
存储 分布式计算 Hadoop
MapReduce编程模型——自定义序列化类实现多指标统计
MapReduce编程模型——自定义序列化类实现多指标统计
48 0
|
5月前
|
机器学习/深度学习 分布式计算 并行计算
MapReduce是一种用于并行计算的编程模型和处理大规模数据集的实现
MapReduce是一种用于并行计算的编程模型和处理大规模数据集的实现
77 0
|
6月前
|
机器学习/深度学习 分布式计算 监控
面经:MapReduce编程模型与优化策略详解
【4月更文挑战第10天】本文是关于MapReduce在大数据处理中的关键作用的博客摘要。作者分享了面试经验,强调了MapReduce的基本原理、Hadoop API、优化策略和应用场景。MapReduce包含Map和Reduce两个主要阶段,Map阶段处理输入数据生成中间键值对,Reduce阶段进行聚合计算。面试重点包括理解MapReduce工作流程、使用Hadoop API编写Map/Reduce函数、选择优化策略(如分区、Combiner和序列化)以及应用场景,如日志分析和机器学习。
137 2
|
6月前
|
分布式计算 监控 Hadoop
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
278 0
|
6月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
534 0
|
存储 SQL 弹性计算
视频-《 E-MapReduce 组件介绍》|学习笔记(四)
快速学习视频-《 E-MapReduce 组件介绍》
102 0
视频-《 E-MapReduce 组件介绍》|学习笔记(四)