开发者社区> javaedge> 正文

Kafka实战(六) - 核心API及适用场景全面解析

简介: Kafka实战(六) - 核心API及适用场景全面解析
+关注继续查看

1 核心API

● Producer API

允许一个应用程序发布一串流式数据到一或多个Kafka topic。

● Consumer API

允许一个应用程序订阅一个或多个topic ,并且对发布给他们的流式数据进行处理。


● Streams API

允许一个应用程序作为一个流处理器,消费一个或者多个topic产生的输入流,然后生产一个输出流到一个或多个topic中去,在输入输出流中进行有效的转换。

● Connector API

允许构建并运行可重用的生产者或者消费者,将Kafka topics连接到已存在的应用程序或者数据系统。比如,连接到一个关系型数据库,捕捉表(table) 的所有变更内容。


在Kafka中,客户端和服务器之间的通信是通过简单,高性能,语言无关的TCP协议完成的。

此协议已版本化并保持与旧版本的向后兼容性。Kafka提供多种语言客户端。


2.png


2 Kafka API - producer

3.png


  • Producer会为每个partition维护一个缓冲,用来记录还没有发送的数据,每个缓冲区大小用batch.size指定,默认值为16k.


  • linger.ms为,buffer中的数据在达到batch.size前,需要等待的时间


  • acks用来配置请求成功的标准


  • send异步方法


image.png


3 Kafka API - Consumer

3.1 Simple Cnsumer

位于kafka.javaapi.consumer包中,不提供负载均衡、容错的特性每次获取数据都要指定topic、partition、offset、 fetchSize

3.2 High-level Consumer

该客户端透明地处理kafka broker异常,透明地切换consumer的partition, 通过和broker交互来实现consumer group级别的负载均衡。

  • Group


5.png

4 整体架构


image.png

5 使用场景

5.1 消息系统

消息系统被用于各种场景,如解耦数据生产者,缓存未处理的消息。Kafka 可作为传统的消息系统的替代者,与传统消息系统相比,kafka有更好的吞吐量、更好的可用性,这有利于处理大规模的消息。


根据经验,通常消息传递对吞吐量要求较低,但可能要求较低的端到端延迟,并经常依赖kafka可靠的durable机制。


在这方面,Kafka可以与传统的消息传递系统(ActiveMQ 和RabbitMQ)相媲美。


5.2 存储系统

写入到kafka中的数据是落地到了磁盘上,并且有冗余备份,kafka允许producer等待确认,通过配置,可实现直到所有的replication完成复制才算写入成功,这样可保证数据的可用性。


Kafka认真对待存储,并允许client自行控制读取位置,你可以认为kafka是-种特殊的文件系统,它能够提供高性能、低延迟、高可用的日志提交存储。


5.3 日志聚合

日志系统一般需要如下功能:日志的收集、清洗、聚合、存储、展示。


Kafka常用来替代其他日志聚合解决方案。(官方说法,略有夸大嫌疑)


和Scribe、Flume相 比,Kafka提供同样好的性能、更健壮的堆积保障、更低的端到端延迟。

日志会落地,导致kafka做 日志聚合更昂贵


kafka可实现日志的清洗(需要编码)、聚合(可靠但昂贵,因为需要落地磁盘)、存储。

ELK是现在比较流行的日志系统。在kafka的配合 下才是更成熟的方案,kafka在ELK技术栈中,主要起到buffer的作用,必要时可进行日志的汇流。

5.4 跟踪网站活动

kafka的最初始作用就是,将用户行为跟踪管道重构为一组实时发布-订阅源。

把网站活动(浏览网页、搜索或其他的用户操作)发布到中心topics中,每种活动类型对应一个topic。基于这些订阅源,能够实现一系列用例,如实时处理、实时监视、批量地将Kafka的数据加载到Hadoop或离线数据仓库系统,进行离线数据处理并生成报告。


每个用户浏览网页时都生成了许多活动信息,因此活动跟踪的数据量通常非常大。(Kafka实际应用)


5.5 流处理 - kafka stream API

Kafka社区认为仅仅提供数据生产、消费机制是不够的,他们还要提供流数据实时处理机制

从0.10.0.0开始, Kafka通过提供Strearms API来提供轻量,但功能强大的流处理。实际上就是Streams API帮助解决流引用中一些棘手的问题,比如:

  • 处理无序的数据
  • 代码变化后再次处理数据
  • 进行有状态的流式计算

Streams API的流处理包含多个阶段,从input topics消费数据,做各种处理,将结果写入到目标topic, Streans API基于kafka提供的核心原语构建,它使用kafka consumer、 producer来输入、输出,用Kfka来做状态存储。


流处理框架: flink spark streamingJ Stortm、 Samza 本是正统的流处理框架,Kafka在流处理中更多的是扮演流存储的角色。



7.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
干货 | 通用 api 封装实战,带你深入理解 PO
在普通的接口自动化测试中,如果接口的参数,比如 url,headers等传参改变,或者测试用例的逻辑、断言改变,那么整个测试代码都需要改变。apiobject设计模式借鉴了pageobject的设计模式,可以实现一个优雅、强大的接口测试框架。 apiobject设计模式可以简单分为6个模块,分别是API对象、接口测试框架、配置模块、数据封装、Utils、测试用例。 - 接口测试框架:ba
31 0
Kafka实战(六) - 核心API及适用场景全面解析
Kafka实战(六) - 核心API及适用场景全面解析
24 0
Kafka实战(四) -Kafka门派知多少
Kafka不是一个单纯的消息引擎系统,而是能够实现精确一次(Exactly-once)处理语义的实时流处理平台 Storm/Spark Streaming/Flink,在大规模流处理领域主流 Kafka经过这么长时间不断的迭代,现在已经能够稍稍比肩这些框架 Kafka社区对于这些框架心存敬意 目前国内鲜有大厂将Kafka用于流处理的尴尬境地,毕竟Kafka是从消息引擎“半路出家”转型成流处理平台的,它在流处理方面的表现还需要经过时间的检验。
2212 0
场景体验报告——冬季实战营第四期
第四期着重练习了容器技术,容器可以理解为一个装应用软件的箱子,箱子里面有软件运行所需的依赖库和配置,开发人员可以把这个箱子搬到任何机器上,无需因为更换了机器而重新进行复杂的配置,就可以顺利将这个箱子中的软件跑起来。
44 0
前端培训-初级阶段-场景实战(2019-05-30)-input 搜索如何防抖,如何处理中文输入
前端最基础的就是 HTML+CSS+Javascript。掌握了这三门技术就算入门,但也仅仅是入门,现在前端开发的定义已经远远不止这些。前端小课堂(HTML/CSS/JS),本着提升技术水平,打牢基础知识的中心思想,我们开课啦(每周四)。 场景实战这块内容每个人的内容都不一样。所以最近的更新基本都是我遇到并解决掉的问题。后期会把他们的内容贴地址。
7 0
实战Kafka ACL机制
1.概述   在Kafka0.9版本之前,Kafka集群时没有安全机制的。Kafka Client应用可以通过连接Zookeeper地址,例如zk1:2181:zk2:2181,zk3:2181等。来获取存储在Zookeeper中的Kafka元数据信息。
1800 0
fastjson解析json字符串,key缺少双引号导致下游服务无法解析
背景说明 在使用fastjson 1.2.60版本将对象转化为json字符串时,为处理Map值为null的情况,采用了WRITE_MAP_NULL_FEATURES属性,但该属性解析出来的key中缺少双引号,在key包含特殊字符时,如“-”和“:",下游服务在进行反序列化时出现无法解析的错误,从而出现问题。
3407 0
C#实战技能之WebApi+Task+WebSocket
一、背景介绍 环境的局限性: 用户在使用XX客户端的时候,必须每台电脑都安装打印组件,同时由于XX客户端使用的是 websocket进行通讯,这就必须限制用户的电脑浏览器必须是IE10.0+以上版本,这种局限性在我们公司仓库部署实施和用户体验极其不好。
1307 0
Linux Ubuntu实战安装Kafka集群管理器 Kafka Manager
Linux Ubuntu实战安装Kafka集群管理器 Kafka Manager经验分享,详细步骤。
2459 0
+关注
javaedge
关注公众号:JavaEdge,后台回复面试,领取更多大厂求职资源。曾在百度、携程、华为等大厂搬砖,专注Java生态各种中间件原理、框架源码、微服务、中台等架构设计及落地实战,只生产硬核干货!
2303
文章
1
问答
文章排行榜
最热
最新
相关电子书
更多
OceanBase 入门到实战教程
立即下载
阿里云图数据库GDB,加速开启“图智”未来.ppt
立即下载
实时数仓Hologres技术实战一本通2.0版(下)
立即下载