开发者社区> 问答> 正文

针对Lindorm数据源分区数量少导致Spark执行效率低的问题,有哪些处理策略?

针对Lindorm数据源分区数量少导致Spark执行效率低的问题,有哪些处理策略?

展开
收起
不吃核桃 2024-07-29 15:50:03 26 0
1 条回答
写回答
取消 提交回答
  • 针对Lindorm数据源分区数量少导致Spark执行效率低的问题,有两种处理策略:一是进行重分区(repartition算子),但会触发shuffle,增加额外的IO成本;二是Lindorm进行预分区,但需要结合rowkey的设计一起使用,可能会影响scan的效率。

    2024-07-29 16:16:56
    赞同 2 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载