我试图同时读取不同路径中的多个文件。在sql server中,路径“/mapr/ia1.comscore.com/output/cms/cmcm/227m/2018????/app/RunningApp/part-.txt ”告诉服务器读取正在运行的所有文件本月的应用程序文件夹227m(2018年11月)。'2018 ????' 表示2018年11月的所有日期。这样,我们不必告诉sql server逐个读取每个日期。这里'2018 ????' 指从'20181101'到'20181130'的所有日期。我想在spark中做同样的事情。但似乎火花无法识别这种格式的路径。我也试过改变'2018 ????' 太'2018 ',仍然不起作用。
有谁知道如何解决这一问题?
请注意“/mapr/ia1.comscore.com/output/cms/cmcm/227m/20181101/app/RunningApp/part-*.txt”)在spark中效果很好。
我使用zeppelin作为笔记本。
最简单的方法是传递路径列表,例如 sparkContext.read.text(paths=[path1, path2, ...])
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。