文档备案控制台

开发者社区问答正文

spark DataFrame写入HDFS是怎么压缩的？

spark DataFrame写入HDFS是怎么压缩的？

展开

收起

芯在这 2021-12-08 17:42:22 831 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

(1) spark textFile加载多个目录：其实很简单，将多个目录（对应多个字符串），用,作为分隔符连接起来 val inputPath = List("hdfs://localhost:9000/test/hiveTest", "hdfs://localhost:9000/test/hiveTest2") .mkString(",") sparkContext .textFile( inputPath )

（2） spark rdd saveAsTextFile 输出到HDFS 文件压缩 rdd.saveAsTextFile( "hdfs://localhost:9000/test/out" ) //正常不压缩 rdd.saveAsTextFile( "hdfs://localhost:9000/test/outGzip", classOf[ GzipCodec ] ) //Gzip压缩输出 rdd.saveAsTextFile( "hdfs://localhost:9000/test/outBzip2", classOf[ BZip2Codec ] ) //bzip2 压缩输出

2021-12-08 17:43:08

赞同展开评论

问答分类：

分布式计算 Spark

问答标签：

apache spark Dataframe spark文件存储HDFS版 apache spark HDFS 文件存储HDFS版spark 文件存储HDFS版压缩

问答地址：

开发者社区 > 大数据 > 问答

相关问答

阿里云E-MapReduce如何讓 spark 任務的 dataframe可以出現在日志之內?

320

0

0

Spark的RDD和DataFrame编程模式如何帮助提升核算效率？

114

1

0

spark 写入oss-hdfs任务，spark客户端一直在等待，如何解决？

214

1

0

通过flink sql把数据写入hdfs，如何设置对生产的文件进行压缩？

552

1

0

在表格存储中spark dataframe读写OTS的话使用如下会报错，如何解决?

154

0

0

我想使用FlinkSink写hdfs使用snappy压缩代码是这样写（参考下列）提交后报错是为什么？

680

1

0

数据写入HDFS 我想指定压缩格式，不想指定存储格式可以吗？

792

2

0

Flinksink hdfs 压缩的时候会报这个错，你们遇见过嘛？

231

1

0

可否在后面总结RDS（hdfs spark presto)那里加上对emr-impala 的补充？

353

1

0

如何在EMR Hive或Spark中访问OSS-HDFS

273

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

部署coclaw，报错如下，怎么办？应该点击哪里？

claude code接入千问3.5效果怎么样如题,用过的老哥给评测一下

灵码如何使用skills呢

copaw在魔搭平台搭建控制面板卡死重启无效

阿里云服务器镜像系统选哪个比较好？稳定和兼容性如何？

相关文章

关于阿里云 ODPS（MaxCompute）的全面介绍和应用

关于阿里云 ODPS（MaxCompute）的全面介绍和应用

MaxCompute SQL AI 实践

MaxCompute SQL AI实战：两个真实业务场景的高效落地

一行 SQL 搞定外卖平台评价智能分析 —— MaxCompute SQL AI 实战

还有其他疑问?