sparkstreaming使用kakfa direct streaming api创建streaming。这个api是从kafka文件中直接获取数据的,kafka topic有多少个分区就对应着stream中的rdd有多少个分区。我想问问如何在不增加kafka topic分区的前提下,增加rdd的中的分区呢?当然repartition就算了,shuffle过程不值当呀
1、增加rdd的分区有几种方式:
(1)修改spark.default.parallelism的默认值
(2)repartition重分区
2、topic分区的最大数量<= min(单台kafka集群设备的core),因为有多少分区就有多大的并行度,但是不能超过设备的core数量。
希望对小伙伴们有帮助。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。