备案控制台

开发者社区大数据文章正文

2 weekend110的mapreduce介绍及wordcount + wordcount的编写和提交集群运行 + mr程序的本地运行模式

2017-11-13 1606

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

把我们的简单运算逻辑，很方便地扩展到海量数据的场景下，分布式运算。

Map作一些，数据的局部处理和打散工作。

Reduce作一些，数据的汇总工作。

这是之前的，weekend110的hdfs输入流之源码分析。现在，全部关闭断点。

//4个泛型中，前两个是指定mapper输入数据的类型，KEYIN是输入的key类型，VALUE是输入的value的类型

//map 和 reduce的数据输入输出是以key-value对的形式封装的

//默认情况下，框架传递给我们的mapper的输入数据中，key是要处理的文本中一行的起始偏移量，这一行的内容作为value

//mapreduce框架每读一行数据就调用一次该方法

//具体业务逻辑就写在这个方法体中，而且我们业务要处理的数据已经被框架传递进来，在方法的参数中key-value

//key是这一行数据的起始偏移量,value是这一行的文本内容

有这么多信息，可以封装到对象里，job对象，

如何批量换变量名快捷键是，alt + shift + r

/home/hadoop/app/hadoop-2.4.1/bin/hadoop fs -mkdir -r /wc/srcdata

/home/hadoop/app/hadoop-2.4.1/bin/hadoop

jar wc.jar cn.itcast.hadoop.mr.wordcount.WCRunner /wc/srcdata/ /wc/output/

以上是weekend110的wordcount的编写和提交集群运行。

要注意的是，路径。

/wc/srcdata/，其实也就是hdfs://weekend110:9000/wc/srcdata/

下面，weekend110的mr程序的本地运行模式，

出现错误，

Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

http://www.linuxidc.com/Linux/2014-12/111065.htm

参考13，运行报错(11)：

缺乏hadoop.dll，下载hadoop.dll放到hadoop/bin目录下即可，

但是之后运行依然报错，还需要手动设置下hadoop在windows下的运行路径，

于是在Eclipse运行环境中，在运行的WordCount.java中，右键点击在下拉菜单栏里面选择Run Configurations，然后加上path的设置，Run顺利通过。参数如下图所示：

http://www.aboutyun.com/thread-8311-1-1.html

最后，还是报这个错误。

http://blog.csdn.net/congcong68/article/details/42043093

C:\Windows\System32下缺少hadoop.dll,把这个文件拷贝到C:\Windows\System32下面即可。

即，经过这折腾，问题得到了解决。

以上是mr程序的本地运行模式，需要注意地方是，

总共就这3个地方。

以上是weekend110的mr程度的本地运行模式

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5895120.html，如需转载请自行联系原作者

文章标签：

Windows

大数据

分布式计算

Hadoop

关键词：

开源大数据平台 E-MapReduce集群

mapreduce集群

mapreduce wordcount

mapreduce程序

mapreduce运行

技术小哥哥

目录

相关文章

aliyun4381607004

|

6月前

|

SQL 分布式计算关系型数据库

阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践

本文以云厂商售后技术支持的角度，从客户的需求出发，对于阿里云EMR-Trino集群的选型，外连多引擎的场景、Ldap以及Kerberos鉴权等问题进行了简要的实践和记录，模拟客户已有的业务场景，满足客户需求的同时对过程中的问题点进行解决、记录和分析，包括但不限于Mysql、ODPS、Hive connector的配置，Hive、Delta及Hudi等不同表格式读取的兼容，aws s3、阿里云 oss协议访问异常的解决等。

aliyun4381607004

429 1 2

武子康

|

1月前

|

分布式计算资源调度 Hadoop

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

大数据-80 Spark 简要概述系统架构部署模式与Hadoop MapReduce对比

武子康

62 2 2

武子康

|

1月前

|

分布式计算资源调度 Hadoop

Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化编写Mapper和Reducer和Driver 附带POM 详细代码图文等内容

Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化编写Mapper和Reducer和Driver 附带POM 详细代码图文等内容

武子康

84 3 3

武子康

|

1月前

|

分布式计算资源调度 Hadoop

Hadoop-05-Hadoop集群集群WordCount 超详细真正的分布式计算上传HDFS MapReduce计算 YRAN查看任务上传计算下载查看

Hadoop-05-Hadoop集群集群WordCount 超详细真正的分布式计算上传HDFS MapReduce计算 YRAN查看任务上传计算下载查看

武子康

45 1 1

尹正杰

|

2月前

|

分布式计算资源调度 Hadoop

在YARN集群上运行部署MapReduce分布式计算框架

主要介绍了如何在YARN集群上配置和运行MapReduce分布式计算框架，包括准备数据、运行MapReduce任务、查看任务日志，并启动HistoryServer服务以便于日志查看。

尹正杰

58 0 0

蓝易云

|

3月前

|

分布式计算 Hadoop Java

Hadoop_MapReduce中的WordCount运行详解

MapReduce的WordCount程序在分布式系统中计算大数据集中单词出现的频率时，提供了一个可以复用和可伸缩的解决方案。它体现了MapReduce编程模型的强大之处：简单、可靠且将任务自动分布到一个集群中去执行。它首先运行一系列的Map任务来处理原始数据，然后通过Shuffle和Sort机制来组织结果，最后通过运行Reduce任务来完成最终计算。因此，即便数据量非常大，通过该模型也可以高效地进行处理。

蓝易云

91 1 1

wljslmz

|

3月前

|

分布式计算资源调度监控

MapReduce程序中的主要配置参数详解

【8月更文挑战第31天】

wljslmz

75 0 0

JavaPub

|

5月前

|

分布式计算 Java Hadoop

简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行

简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行

JavaPub

55 0 0

孜倦与shine

|

5月前

|

分布式计算数据挖掘

通过mapreduce程序统计旅游订单（wordcount升级版）

通过mapreduce程序统计旅游订单（wordcount升级版）

孜倦与shine

45 0 0

孜倦与shine

|

5月前

|

分布式计算大数据

mapreduce 实现带有ex前缀的词频统计wordcount 大作业

mapreduce 实现带有ex前缀的词频统计wordcount 大作业

孜倦与shine

32 0 0

热门文章

最新文章

Hadoop: MapReduce2的几个基本示例

MapReduce中的分布式缓存使用

c#扩展出MapReduce方法

MapReduce实现日记-任务粒度如何把握

《大数据解决方案构建详解以阿里云E-MapReduce为例》电子版地址

【底层服务/编程功底系列】「大数据算法体系」带你深入分析MapReduce算法 — Shuffle的执行过程

99 MapReduce操作Hbase

MapReduce【数据压缩】

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

Idea里面老版本MapReduce设置FileInputFormat参数格式变化

阿里云E-MapReduce Trino专属集群外连引擎及权限控制踩坑实践

阿里云E-MapReduce集群-开源Ldap密码不安全问题解决方案

伪分布式安装部署（运行MapReduce程序）

Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结（二）

Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结（一）

Hadoop基础学习---6、MapReduce框架原理（二）

Hadoop基础学习---6、MapReduce框架原理（一）

Hadoop基础学习---5、MapReduce概述和WordCount实操（本地运行和集群运行）、Hadoop序列化

MapReduce 优化经验

MapReduce 的原理、流程【重要】

相关课程

更多

Hadoop 分布式计算框架 MapReduce

Hadoop 分布式资源管理框架 YARN

相关电子书

更多

Apache Hadoop 3.0: What’s new in YARN & MapReduce

spark替代HIVE实现ETL作业

Why is my Hadoop* job slow

下一篇

无影云桌面