备案控制台

开发者社区问答正文

Spark使用parquet文件存储格式的优点是什么？

Spark使用parquet文件存储格式的优点是什么？

展开

收起

芯在这 2021-12-06 00:30:22 674 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

真的很搞笑

如果说HDFS 是大数据时代分布式文件系统首选标准，那么parquet则是整个大数据时代文件存储格式实时首选标准

操作速度更快：从使用spark sql操作普通文件CSV和parquet文件速度对比上看，绝大多数情况会比使用csv等普通文件速度提升10倍左右，在一些普通文件系统无法在spark上成功运行的情况下，使用parquet很多时候可以成功运行。

parquet的压缩技术非常稳定出色，在spark sql中对压缩技术的处理可能无法正常的完成工作（例如会导致lost task，lost executor）但是此时如果使用parquet就可以正常的完成。

极大的减少磁盘I/O，通常情况下能够减少75%的存储空间，由此可以极大的减少spark sql处理数据的时候的数据输入内容，尤其是在spark1.6x中有个下推过滤器在一些情况下可以极大的减少磁盘的IO和内存的占用，（下推过滤器）

spark 1.6x parquet方式极大的提升了扫描的吞吐量，极大提高了数据的查找速度spark1.6和spark1.5x相比而言，提升了大约1倍的速度，在spark1.6X中，操作parquet时候cpu也进行了极大的优化，有效的降低了cpu

采用parquet可以极大的优化spark的调度和执行。我们测试spark如果用parquet可以有效的减少stage的执行消耗，同时可以优化执行路径。

2021-12-06 00:30:48

赞同展开评论

问答分类：

分布式计算文件存储 Spark

问答标签：

apache spark格式文件存储格式 apache spark parquet格式 apache spark parquet parquet文件存储格式

问答地址：

开发者社区 > 大数据 > 问答

相关问答

storm&spark2中为什么文件格式改变load仍然是lazy的机制啊？

1261

1

0

storm&spark2中load操作机制会随着文件格式的改变而改变吗？

1247

1

0

怎么使用Spark分析Parquet文件？

399

1

0

Spark使用JindoFS计算加速读取parquet数据的前提是什么？

568

1

0

Spark程序中使用SQL语句把数据作为ORC文件格式保存的方法是什么？

658

1

0

Spark程序中使用SQL语句创建ORC格式的表的方法是什么？

1047

1

0

Spark Parquet在行式存储下的统计信息是什么？

376

1

0

Spark Parquet在列式存储的执行过程是什么？

397

1

0

Spark Parquet在行式存储下的执行过程是什么？

289

1

0

Spark Parquet列式存储和行式存储的区别是什么？

398

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

lmstudio拉起qwq-32b-q3_k_m.gguf模型报错？

工作中，拥有什么样的“软技能”可以跨越周期、终身成长？

在idea中使用通义灵码插件时，回答结果比较长时会发生中断，导致回答不完整

关于wan2.1显存占用的问题

一键生成讲解视频，AI的理解和生成能力到底有多强？

相关文章

Dataphin功能Tips系列（47）-支持通过Spark本地客户端提交Spark Batch任务

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

打破资源边界、告别资源浪费：ACK One 多集群Spark和AI作业调度

Dataphin功能Tips系列（41）-Hadoop集群管理

场景题：100G的文件里有很多id，用1G内存的机器排序，怎么做？

还有其他疑问?