开发者社区> 问答> 正文

Spark使用parquet文件存储格式能带来哪些好处?

Spark使用parquet文件存储格式能带来哪些好处?

展开
收起
茶什i 2019-10-29 10:39:43 1864 0
1 条回答
写回答
取消 提交回答
  • 1) 如果说HDFS 是大数据时代分布式文件系统首选标准,那么parquet则是整个大数据时代文件存储格式实时首选标准
    2) 速度更快:从使用spark sql操作普通文件CSV和parquet文件速度对比上看,绝大多数情况
    会比使用csv等普通文件速度提升10倍左右,在一些普通文件系统无法在spark上成功运行的情况
    下,使用parquet很多时候可以成功运行 3) parquet的压缩技术非常稳定出色,在spark sql中对压缩技术的处理可能无法正常的完成工作
    (例如会导致lost task,lost executor)但是此时如果使用parquet就可以正常的完成
    4) 极大的减少磁盘I/o,通常情况下能够减少75%的存储空间,由此可以极大的减少spark sql处理
    数据的时候的数据输入内容,尤其是在spark1.6x中有个下推过滤器在一些情况下可以极大的
    减少磁盘的IO和内存的占用,(下推过滤器)
    5) spark 1.6x parquet方式极大的提升了扫描的吞吐量,极大提高了数据的查找速度spark1.6和spark1.5x相比而言,提升了大约1倍的速度,在spark1.6X中,操作parquet时候cpu也进行了极大的优化,有效的降低了cpu
    6) 采用parquet可以极大的优化spark的调度和执行。我们测试spark如果用parquet可以有效的减少stage的执行消耗,同时可以优化执行路径

    2019-10-30 14:46:51
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载