开发者社区> 问答> 正文

如何在spark中解压缩并读取包含多个压缩文件的文件

我有一个文件AA.zip,它还包含ex aa.tar.gz,bb.tar.gz等多个文件

我需要在spark scala中读取这些文件,我该如何实现?

这里唯一的问题是提取zip文件的内容。

展开
收起
社区小助手 2018-12-12 11:21:07 5331 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    所以HDFS上的ZIP会有点棘手,因为它们不能很好地拆分,所以你必须为每个执行程序处理1个或更多的zip文件。这也是为数不多的情况之一,你可能不得不退回,SparkContext因为出于某种原因,Spark中的二进制文件支持并不是那么好。

    https://spark.apache.org/docs/2.4.0/api/scala/index.html#org.apache.spark.SparkContext

    有一个readBinaryFiles可以访问zip二进制数据的地方,然后您可以使用java或scala中的常规ZIP处理。

    2019-07-17 23:20:03
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载