开发者社区> 问答> 正文

如何使用spark同时读取不同文件夹中的多个文件?

我试图同时读取不同路径中的多个文件。在sql server中,路径“/mapr/ia1.comscore.com/output/cms/cmcm/227m/2018????/app/RunningApp/part-.txt ”告诉服务器读取正在运行的所有文件本月的应用程序文件夹227m(2018年11月)。'2018 ????' 表示2018年11月的所有日期。这样,我们不必告诉sql server逐个读取每个日期。这里'2018 ????' 指从'20181101'到'20181130'的所有日期。我想在spark中做同样的事情。但似乎火花无法识别这种格式的路径。我也试过改变'2018 ????' 太'2018 ',仍然不起作用。

有谁知道如何解决这一问题?

请注意“/mapr/ia1.comscore.com/output/cms/cmcm/227m/20181101/app/RunningApp/part-*.txt”)在spark中效果很好。

我使用zeppelin作为笔记本。

展开
收起
社区小助手 2018-12-21 13:16:25 4699 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    最简单的方法是传递路径列表,例如 sparkContext.read.text(paths=[path1, path2, ...])

    2019-07-17 23:23:22
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载