基于Spark的处理存储在SSD上的数据
我们目前正在使用基于Spark 2.1的应用程序,该应用程序分析和处理大量记录以生成用于报告生成的一些统计数据。现在我们正在使用150个执行器,每个执行器2个核心和每个执行器10 GB用于我们的spark作业,数据大小约为3TB,以parquet 格式存储。处理12个月的数据需要大约15分钟的时间。
现在为了提高性能,我们希望尝试基于SSD的完整节点将数据存储在HDFS中。那么问题是,是否有任何特殊的配置/优化要做SSD?基于SSD的HDFS与基于HDD的HDFS的Spark处理性能是否有任何研究?
http://spark.apache.org/docs/latest/hardware-provisioning.html#local-disks
SPARK_LOCAL_DIRS 是您需要更改的配置。
用例是K意味着算法,但会有所帮助
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。