死磕-kafka(二)

简介: 死磕-kafka(二)

一、为什么需要kafka

①、kafka起源于LinkedIn公司,LinkedIn需要收集各个业务系统和应用的指标数据来进行数据分析。

②、原先是使用"自定义开发"系统来实现的,但是需要采集的数据量非常大的,且内容很复杂,而且除了采集系统的基础指标(内存,CPU,磁盘,网络等)外,还要采集很多和业务相关的数据指标。

③、而且随着数据量的增长,业务的需求的复杂度增高,这个自定义开发的系统的问题也越来越多。

例如:一个HTTP请求过来,如果数据内容是XML数据格式进行传输的话,需要先对这部分数据做解析处理,然后才能拿来做离线分析。

但是解析XML数据格式的解析过程也是非常复杂的,出现问题,定位也非常麻烦,需要很长的处理时间,所以说无法做到实时服务。

④、之后这家公司寻找了一个可支持大数据并且实时服务而且支持水平扩展的解决方案,尝试用过ActiveMQ,但是它不支持水平扩展,并且ActiveMQ内部有很多的bug。

⑤、然后这个公司就自己开发了一个既满足实时处理需求,又可以支持水平扩展的消息系统-kafka,它还拥有高吞吐量特性。

⑥、2010年,kafka项目被托管到Github的开源社区,2021年,kafka成为Apache 项目基金会的一个开源项目,如今,kafka项目已经成为Apache项目基金会的顶级项目之一。


今天先到这了,明天见~~

目录
打赏
0
2
2
0
55
分享
相关文章
这么酷的Kafka,背后的原理了解一下又不会死!
这么酷的Kafka,背后的原理了解一下又不会死!
237 2
这些年背过的面试题——Kafka篇
本文是技术人面试系列Kafka篇,面试中关于Kafka都需要了解哪些基础?一文带你详细了解,欢迎收藏!
【面试题系列】:Kafka 夺命11问,你能扛到第几问?
1.说说你对 Kafka 的理解 kafka是一个流式数据处理平台,他具有消息系统的能力,也有实时流式数据处理分析能力,只是我们更多的偏向于把他当做消息队列系统来使用。 如果说按照容易理解来分层的话,大致可以分为3层: 第一层是Zookeeper,相当于注册中心,他负责kafka集群元数据的管理,以及集群的协调工作,在每个kafka服务器启动的时候去连接到Zookeeper,把自己注册到Zookeeper当中 第二层里是kafka的核心层,这里就会包含很多kafka的基本概念在内: Record:
158 0
【面试题系列】:Kafka 夺命11问,你能扛到第几问?
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等