开发者社区> 问答> 正文

spark当中Kafka 分布式的情况下,如何保证消息的顺序?

spark当中Kafka 分布式的情况下,如何保证消息的顺序?

展开
收起
游客ahv54x37wvm7u 2021-12-12 20:50:52 708 0
1 条回答
写回答
取消 提交回答
  • Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。

    同一个 Partition 用一个 write ahead log 组织,所以可以保证 FIFO 的顺序。 不同 Partition 之间不能保证顺序。但是绝大多数用户都可以通过 message key 来定义,因为同一个 key 的 message 可以保证只发送到同一个 Partition。比如说 key 是 user id,table row id 等等,所以同一个 user 或者同一个 record 的消息永远只会发送到同一个 Partition上,保证了同一个 user 或 record 的顺序。 当然,如果你有 key skewness 就有些麻烦,需要特殊处理。

    实际情况中: (1)不关注顺序的业务大量存在;(2)队列无序不代表消息无序。

    第(2)条的意思是说: 我们不保证队列的全局有序,但可以保证消息的局部有序。举个例子: 保证来自同1个 order id 的消息,是有序的!

    Kafka 中发送1条消息的时候,可以指定(topic, partition, key) 3个参数。partiton 和 key 是可选的。如果你指定了 partition,那就是所有消息发往同1个 partition,就是有序的。并且在消费端,Kafka 保证,1个 partition 只能被1个 consumer 消费。或者你指定 key(比如 order id),具有同1个 key 的所有消息,会发往同1个 partition。也是有序的。

    2021-12-12 20:51:23
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载