开发者社区> 问答> 正文

spark中优化数据结构具体是什么意思?

spark中优化数据结构具体是什么意思?

展开
收起
游客ahv54x37wvm7u 2021-12-07 20:33:08 493 0
1 条回答
写回答
取消 提交回答
  • Java中,有三种类型比较耗费内存: 1)对象,每个Java对象都有对象头、引用等额外的信息,因此比较占用内存空间。 2)字符串,每个字符串内部都有一个字符数组以及长度等额外信息。 3)集合类型,比如HashMap、LinkedList等,因为集合类型内部通常会使用一些内部类来封装集合元素,比如Map.Entry Spark官方建议,在Spark编码实现中,特别是对于算子函数中的代码,尽量不要使用上述三种数据结构,尽量使用字符串替代对象,使用原始类型(比如Int、Long)替代字符串,使用数组替代集合类型,这样尽可能地减少内存占用,从而降低GC频率,提升性能。

    2021-12-07 20:33:24
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载