Kafka(分布式发布订阅消息系统)

简介: http://kafka.apache.org/目前越来越多的开源分布式处理系统如Apache Storm、Spark都支持与Kafka集成。 使用场景:设想这样一个情景:想分析用户在网站上的的浏览行为。这些浏览日志,存数据库浪费,直接存硬盘又怕到时候操作效率低。 此时,消息系统就是一个选择。 1.组件 Broker ['brəʊkə] n.经纪人 Kafka集群包含一个或多个
+关注继续查看
http://kafka.apache.org/

目前越来越多的开源分布式处理系统如Apache Storm、Spark都支持与Kafka集成。

微笑使用场景:设想这样一个情景:想分析用户在网站上的的浏览行为。这些浏览日志,存数据库浪费,直接存硬盘又怕到时候操作效率低。
此时,消息系统就是一个选择。


1.组件

Broker
['brəʊkə] n.经纪人
Kafka集群包含一个或多个服务器,这种服务器被称为broker。
Topic
每条发布到Kafka集群的消息都有一个类别,这个类别被称为Topic。
Partition
每个Topic包含一个或多个Partition。
Producer
生产者,负责发布消息到Kafka broker。
Consumer
消费者,从Kafka broker读取消息的客户端。
Consumer Group

每个Consumer属于一个特定的Consumer Group。


2.常用类

2.1消费者

kafka.javaapi.consumer.ConsumerConnector
kafka消费者的连接信息。
ConsumerConnector kafka.consumer.Consumer.createJavaConsumerConnector(ConsumerConfig arg0)
创建ConsumerConnector。
Map<String, List<KafkaStream<byte[], byte[]>>> kafka.javaapi.consumer.ConsumerConnector.createMessageStreams(Map<String, Integer> topicCountMap)
根据制定的map创建
kafka.consumer.KafkaStream<byte[], byte[]>
Kafka消息流。
kafka.consumer.ConsumerIterator<byte[], byte[]>
kafka消费者的迭代器。
MessageAndMetadata<byte[], byte[]>
Kafka消息。
byte[] kafka.message.MessageAndMetadata.message()
得到MessageAndMetadata中的信息。

2.2生产者

kafka.javaapi.producer.Producer<Integer, String>
kafka生产者。
kafka.javaapi.producer.Producer.Producer<Integer, String>(ProducerConfig arg0)
Producer的构造函数。
kafka.producer.ProducerConfig
Producer配置。
kafka.producer.ProducerConfig.ProducerConfig(Properties arg0)
ProducerConfig的构造函数。
void kafka.javaapi.producer.Producer.send(KeyedMessage<Integer, String> arg0)
kafka生产者发送消息。

3.消息交付特点

1. kafka对消息的重复、丢失、错误以及顺序没有严格的要求。
2. kafka提供at-least-once delivery,即当consumer宕机后,有些消息可能会被重复delivery。
3. 因每个partition只会被同一consumer group内的一个consumer消费,故kafka保证每个partition内的消息会被顺序的订阅。

4. Kafka为每条消息为每条消息计算CRC校验,用于错误检测,crc校验不通过的消息会直接被丢弃掉。

5.增减consumer,broker,partition会导致rebalance,所以rebalance后consumer对应的partition会发生变化。

4. partition 的个数考虑

a) 如果consumer比partition多,是浪费,因为kafka的设计是在一个partition上是不允许并发的,所以consumer数不要大于partition数。
b) 如果consumer比partition少,一个consumer会对应于多个partitions,这里主要合理分配consumer数和partition数,否则会导致partition里面的数据被取的不均匀。

5.带弄懂

a)server怎么标识不同的consumer?是zk自己分配编号,还是consumer构造函数的参数指定?
b) 何为一个consumer?进程还是线程还是别的什么?
c)consumer所在机器性能低,个数与partition个数一致还是消费不充分怎么办?
目录
相关文章
|
12月前
|
消息中间件 存储 负载均衡
|
消息中间件 大数据 Kafka
分布式消息队列Kafka之发布订阅消息系统
分布式消息队列Kafka之发布订阅消息系统
201 0
分布式消息队列Kafka之发布订阅消息系统
|
消息中间件 Kafka Shell
Kafka的安装及发布订阅消息系统(windows)
下载并运行kafka;简单发布订阅消息系统实现
143 0
Kafka的安装及发布订阅消息系统(windows)
|
消息中间件 数据可视化 NoSQL
ELK+Kafka搭建分布式日志收集系统
ELK+Kafka搭建分布式日志收集系统
355 0
ELK+Kafka搭建分布式日志收集系统
|
消息中间件 存储 监控
SpringBoot+kafka+ELK分布式日志收集
快速搭建ELK完成日志收集
9284 0
|
SQL 存储 NoSQL
最新鲜的美团现场面试41题(三面技术+HR面):Redis+Kafka+分布式
  一面 hashmap与concurrenthashmap的区别 垃圾回收算法以及垃圾回收器 CMS的回收步骤 G1和CMS的区别 CMS哪个阶段是并发的哪个阶段是串行的? G1内部是如何分区的(re...
1431 0
|
消息中间件 监控 应用服务中间件
ELK+logback+kafka+nginx 搭建分布式日志分析平台
ELK+logback+kafka+nginx 搭建分布式日志分析平台 ELK(Elasticsearch , Logstash, Kibana)是一套开源的日志收集、存储和分析软件组合。
2453 0
|
消息中间件 Java Kafka
JavaWeb项目架构之Kafka分布式日志队列
架构、分布式、日志队列,标题自己都看着唬人,其实就是一个日志收集的功能,只不过中间加了一个Kafka做消息队列罢了。 kafka介绍 Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。
11256 0
|
消息中间件 分布式计算 Hadoop
一脸懵逼学习KafKa集群的安装搭建--(一种高吞吐量的分布式发布订阅消息系统)
1:KafKa的官方网址:http://kafka.apache.org/ 开发流程图,如: 2:KafKa的基础知识: 2.1:kafka是一个分布式的消息缓存系统2.2:kafka集群中的服务器都叫做broker2.
1546 0
推荐文章
更多