spark DataFrame写入HDFS怎么压缩-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

spark DataFrame写入HDFS怎么压缩

2019-03-18 15:45:57 4290 1

spark DataFrame写入HDFS怎么压缩?写成txt文件的格式

取消 提交回答
全部回答(1)
  • mrztest
    2019-07-17 23:31:09

    (1)  spark textFile加载多个目录:
      其实很简单,将多个目录(对应多个字符串),用,作为分隔符连接起来
       val inputPath = List("hdfs://localhost:9000/test/hiveTest", "hdfs://localhost:9000/test/hiveTest2")
                        .mkString(",")
      sparkContext
          .textFile( inputPath )
    (2) spark  rdd  saveAsTextFile 输出到HDFS 文件压缩
        rdd.saveAsTextFile( "hdfs://localhost:9000/test/out" ) //正常不压缩
        rdd.saveAsTextFile( "hdfs://localhost:9000/test/outGzip", classOf[ GzipCodec ] )    //Gzip压缩输出
        rdd.saveAsTextFile( "hdfs://localhost:9000/test/outBzip2", classOf[ BZip2Codec ] )  //bzip2 压缩输出
      hadoop 文件压缩格式对比:http://www.echojb.com/web-application-server/2017/07/10/449381.html


    test

    0 0
相关问答

1

回答

spark DataFrame写入HDFS是怎么压缩的?

2021-12-08 17:42:22 160浏览量 回答数 1

1

回答

Spark Streaming 原理是什么?

2022-01-13 15:54:26 1118浏览量 回答数 1

1

回答

spark streaming是怎么收集和处理数据的?

2021-12-07 22:52:45 114浏览量 回答数 1

1

回答

Flink 相比传统的 Spark Streaming 有些什么区别?

2021-12-08 17:54:39 368浏览量 回答数 1

1

回答

Spark Streaming中的DStream的转化操作是什么?

2021-12-07 20:17:05 111浏览量 回答数 1

1

回答

Spark Streaming中的DStream的输出操作是什么?

2021-12-07 20:17:49 136浏览量 回答数 1

1

回答

spark streaming中的foreachRDD(func)方法是什么?

2021-12-07 08:05:05 291浏览量 回答数 1

1

回答

如何使用Spark Streaming SQL进行 PV/UV统计?

2020-12-28 11:38:30 486浏览量 回答数 1

1

回答

使用Spark Streaming SQL进行 PV/UV统计的准备工作?

2020-12-28 11:39:00 418浏览量 回答数 1

1

回答

spark streaming实时程序 进程总是运行三四个小时左右不知道原因挂掉

2019-12-20 21:25:15 877浏览量 回答数 1
+关注
社区小助手
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。
12
文章
824
问答
问答排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载