备案控制台

开发者社区问答正文

hadoop2.2.0集群运行wordcount例子生成2个结果文件- hadoop报错

最近在虚拟机中安装了Hadoop2.2.0的集群，nameNode是redhat的，dataNode是ubuntu的，起服务进程都是正常的,通过JPS和50070都可以正常访问，运行例子wordcount后发现在输出文件夹里生成了2个结果文件,part-r-00000,part-r-00001，这2个文件里的内容完全不一样，就是把单词统计结果分别存到了2个文件中，结果是正确的，但是分在了2个文件中。请教大神，这会是什么问题导致的？SSH方面我配置了nameNode可以免登陆到dataNode，副本那个参数我配置了2，虽然只有1台dataNode

展开

收起

montos 2020-06-03 10:20:11 598 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

montos

根据我的理解，你应该有2个reducer 这两个reducer 分别输出这两个文件。

可以参考 MultipleOutputs api文档进行重命名或者其他处理：

http://hadoop.apache.org/docs/r2.3.0/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html

另见解释

http://stackoverflow.com/questions/10924852/map-reduce-output-files-part-r-and-part
######怎么看是不是有2个reduce？我看了参考的网址，上面说的是用代码，可是我现在是运行例子程序，而且是直接用shell脚本运行jar######
我找到原因了，是因为mapred-site.xml中我配的了mapred.map.tasks和mapred.reduce.tasks。

<property>

<name>mapred.map.tasks</name>

<value>10</value>

<description>As a rule of thumb, use 10x the number of slaves(i.e., number of tasktrackers).

</description>

</property>

<property>

<name>mapred.reduce.tasks</name>

<value>2</value>

<description>As a rule of thumb, use 2x the number of slaveprocessors (i.e., number of tasktrackers).

</description>

</property>
我查了这个属性的设置是需要根据硬件环境相关的并发数，可能我设置的数量不正确导致，我把这2项属性设置去除后就正常了
######setReduceTaskNum?######我不是用代码去跑的，所以我也不清楚是不是你说的这个，我只是直接命令行运行jar包

2020-06-03 10:20:21

赞同展开评论

问答分类：

分布式计算 Ubuntu Hadoop Linux 网络安全云虚拟主机

问答标签：

hadoop集群 hadoop集群运行 hadoop运行 hadoop集群wordcount wordcount hadoop

问答地址：

开发者社区 > 大数据 > 问答

相关问答

Hadoop中关系型数据库的表很难在集群中展开放到不同的机器上为什么呢？

893

1

0

新版数据湖对比 Hadoop 集群优势是什么？

655

1

0

flink cdc 一定要打成jar包提交到集群运行吗？能不能像连Hadoop集群一样，通过连接UR

1133

1

0

flink的高可用必须搭建Hadoop 集群吗？

845

1

0

各位，问一个问题，在生产环境使用Flink CDC必需要搭建一个hadoop集群来管理检查点吗？

897

1

0

hadoop + ha集群提交pi任务的时候为什么一直在hang的状态呀？

1124

1

0

ECS上搭建的Hadoop集群迁移步骤是怎样的？

2767

1

0

Hadoop集群环境包括那些内容？

2260

1

0

查看Hadoop集群数据节点的步骤是什么？

1796

1

0

Hadoop集群创建测试数据的操作步骤是什么？

864

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

阿里云短信服务工程师连我方发送记录只会收阿里云错误码都不知道吗？

qwen3-32b和qwen-2.5-32b-Instruct有什么区别

我就想把本地的 vm 虚拟机迁移到 ECS，整的这些文档又臭又长，有这精力你录个视频不行吗？

为什么现在连qwen3-coder 之类的模型都不能选了，就一个智能回答？

biz.util.invokeWorkbench这个api打开窗口方式变了

相关文章

Centos 7.2 系统安装mysql5.7.10指定版本

Python学习之旅：从基础到实战第三章

在CentOS服务器上编译并部署NiFi源码

等保合规日志 “暗礁” 识别：5 个常见错误 + 规避方法

阿里云服务器购买、域名注册、备案和域名绑定全流程指南，图文教程参考

还有其他疑问?