问题描述
使用Kafka消费Azure EventHub中数据,遇见消费慢的情况可以如何来调节呢?
问题解答
查看Kafka Consumer的配置参数,其中最只要的一个参数为:max.poll.records, 表示Consumer每次调用poll()时取到的records的最大数。一般情况,在增加max.poll.records后,能让消费速度起到明显的提升。
Consumer读取partition中的数据是通过调用发起一个fetch请求来执行的。而从KafkaConsumer来看,它有一个poll方法。但是这个poll方法只是可能会发起fetch请求。原因是:Consumer每次发起fetch请求时,读取到的数据是有限制的,通过配置项max.partition.fetch.bytes来限制的。而在执行poll方法时,会根据配置项个max.poll.records来限制一次最多pool多少个record。
那么就可能出现这样的情况: 在满足max.partition.fetch.bytes限制的情况下,假如fetch到了100个record,放到本地缓存后,由于max.poll.records限制每次只能poll出15个record。那么KafkaConsumer就需要执行7次才能将这一次通过网络发起的fetch请求所fetch到的这100个record消费完毕。其中前6次是每次pool中15个record,最后一次是poll出10个record。
更多Kafka Consumer Configuration见:https://www.cnblogs.com/rainwang/p/7493742.html
参考资料
kafka消费指定每次最大消费消息数量 max.poll.records: https://blog.csdn.net/yangshengwei230612/article/details/106636827
kafka consumer 配置详解:https://www.cnblogs.com/rainwang/p/7493742.html