开发者社区> 问答> 正文

spark kafka direct stream的一个问题

sparkstreaming使用kakfa direct streaming api创建streaming。这个api是从kafka文件中直接获取数据的,kafka topic有多少个分区就对应着stream中的rdd有多少个分区。我想问问如何在不增加kafka topic分区的前提下,增加rdd的中的分区呢?当然repartition就算了,shuffle过程不值当呀

展开
收起
hbase小能手 2018-11-07 16:23:00 2189 0
1 条回答
写回答
取消 提交回答
  • 社区管理员

    1、增加rdd的分区有几种方式:
    (1)修改spark.default.parallelism的默认值
    (2)repartition重分区

    2、topic分区的最大数量<= min(单台kafka集群设备的core),因为有多少分区就有多大的并行度,但是不能超过设备的core数量。

    希望对小伙伴们有帮助。

    2019-07-17 23:12:44
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载