hadoop mapreduce遍历的目录含有子目录报错-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

hadoop mapreduce遍历的目录含有子目录报错

2016-04-12 10:39:23 6202 2

使用的是e-mapreduce服务,使用的oss当中的文件作为数据源,但是e-mapreduce似乎没有办法读取文件底下的子目录当中的内容,总是会报错,所以想请问一下有什么办法能够让mapreduce能够读取oss当中的数据目录底下的子目录?
16/04/12 11:09:21 INFO mapreduce.Job: Task Id : attempt_1460374656242_0003_m_000001_0, Status : FAILED
Error: java.io.IOException: 'oss://id:key@emr-logs2.oss-cn-hangzhou-internal.aliyuncs.com/wordcount/sub' is a directory

at com.aliyun.fs.oss.nat.NativeOssFileSystem.open(NativeOssFileSystem.java:436)
at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:766)
at org.apache.hadoop.mapreduce.lib.input.LineRecordReader.initialize(LineRecordReader.java:85)
at org.apache.hadoop.mapred.MapTask$NewTrackingRecordReader.initialize(MapTask.java:545)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:783)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1628)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
取消 提交回答
全部回答(2)
  • 老谈
    2019-07-17 18:41:10

    也可以添加 FileInputFormat.setInputDirRecursive(job, true);
    这样也会遍历子目录

    2 0
  • 封神
    2019-07-17 18:41:10

    可以在 /etc/emr/hadoop-conf/mapred-site.xml 设置

      <property>
        <name>mapreduce.input.fileinputformat.input.dir.recursive</name>
        <value>true</value>
      </property>

    就会遍历子目录了


    如果是hive的话,你可以,在SQL脚本中写上

     hive> SET mapreduce.input.fileinputformat.input.dir.recursive=true
    
    0 0
添加回答
相关问答

1

回答

Hadoop的核心 技术组件之一MapReduce 的优点是什么?

2022-01-13 18:05:17 431浏览量 回答数 1

1

回答

有什么方法可以解决Hadoop MapReduce和早期Spark在shuffle过程中的问题?

2021-12-06 21:21:24 334浏览量 回答数 1

1

回答

hadoop的mapreduce编程模型是什么?

2021-12-06 23:40:50 105浏览量 回答数 1

1

回答

Hadoop中为 MapReduce 提供资源管理服务是什么呢?

2021-12-05 13:30:05 148浏览量 回答数 1

1

回答

Hadoop中如何查看运行mapreduce程序的结果?

2021-12-04 20:24:20 130浏览量 回答数 1

1

回答

Hadoop shuffle中mapreduce提供partitioner接口有什么作用?

2021-12-05 11:00:28 98浏览量 回答数 1

1

回答

hadoop启动报错?报错

2020-06-14 15:29:58 315浏览量 回答数 1

1

回答

hadoop运行报错?报错

2020-06-08 17:27:07 262浏览量 回答数 1

2

回答

hadoop流命令?报错

2020-06-08 15:54:20 1225浏览量 回答数 2

5

回答

hadoop mapreduce与spark,我该如何选择呢?

2016-04-12 17:09:50 7978浏览量 回答数 5
+关注
封神
封神 09年加入阿里巴巴,阿里云高级技术专家、架构师;专注在大数据、分布式数据库领域,10年分布式研发经验;参与研发万台大数据Hadoop离线计算平台;负责研发多款阿里云一级大数据及数据库产品,如云Cassandra
34
文章
259
问答
问答排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载