Kafka运维平台设计实践

本文涉及的产品
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,118元/月
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
简介: 在集群规模小,接入服务不多的情况下,我们一般都是通过命令或者客户端API的方式去运维Kafka,随着集群规模的增加,手动去运维的方式不利于我们统一运维Kafka集群和对接入服务进行管理。且对于高可用来说,缺少了很多例如:监控,告警,服务自愈等功能。

业务需求

在集群规模小,接入服务不多的情况下,我们一般都是通过命令或者客户端API的方式去运维Kafka,随着集群规模的增加,手动去运维的方式不利于我们统一运维Kafka集群和对接入服务进行管理。且对于高可用来说,缺少了很多例如:监控,告警,服务自愈等功能。

本文会先介绍一版“能用”的Kafka运维平台应该具备什么功能

功能需求

集群管理

从Kafka集群开始,也是平时开发接入的入口,我们知道Kafka集群由两部分组成

  • broker
  • zookeeper

从Kafka的角度来说,并不太关注zookeeper相关的数据,或者说应该由类似于zookeeper运维平台去关注,不过由于Kafka元数据存储在zookeeper,后续监控数据需要根据zookeeper去获取,所以平台上也是需要记录zookeeper地址。

所需功能:

  • 集群地址,用于连接kafka
  • zookeeper,用于获取kafka元数据
  • 集群节点概况

数据来源:

  • 管理平台数据
  • Broker数据

Topic管理

主题-Topic

Topic与集群是被包含的关系,逻辑视图上没有提现,但是在系统上要体现这一点。日常开发中,与Kafka的交互都是通过Topic,基本也是运维平台最核心的一块。

分区-Partition

Topic在Kafka中是个逻辑概念,实际交互是通过来确定交互对象的,所以也是一个主题的并发的上限。因此在对主题进行管理时,从创建时指定分区调整分区,再到运维过程中需要的对分区进行分配、重平衡,这些功能都需要包含在内。

相关API:

KafkaAdminClient.createPartitions 增加分区

KafkaAdminClient.alterPartitionReassignments 调整现有分区/副本,2.4新增

副本-Replica

除了分区之外,还有一个副本的概念,由一个主副本和多个从副本组成,Kafka通过多副本实现系统的高可用,对外交互的只有主副本,一般我们需要保证消息不丢失的情况,会将消息写到主副本后,并不返回消息写成功,而是等待其他从副本拉取主副本数据后再返回成功,保证所有副本都存在所有数据。管理功能需要包含副本调整

相关API:

KafkaAdminClient.createPartitions 增加分区

KafkaAdminClient.alterPartitionReassignments 调整现有分区/副本,2.4新增

消息

消息不停从生产端写入,而后被消费端读取,我们需要知道消息有没有写到broker,和提供消费回溯的能力

功能:

  • 消息查询

kafka是没有直接查询消息的API的,所以需要创建消费者,通过seek指定partition的offset,进而消费一定数据进行返回

相关API:

KafkaConsumer.offsetsForTimes 时间转换offset

KafkaConsumer.assign 分配分区

KafkaConsumer.seek 设置分区offset

  • 消息回溯:

和消息查询基本一致,有几点差异:

  • 消息回溯创建消费客户端时groupId与需要回溯的消费客户端相同
  • 需要获取需要回溯Topic下的所有partition进行seek
  • 需要提交重置后的offset

相关API:

KafkaAdminClient.listConsumerGroupOffsets 获取消费组所有订阅的分区和offset

KafkaConsumer.offsetsForTimes 时间转换offset

KafkaConsumer.assign 分配分区

KafkaConsumer.seek 设置分区offset

KafkaConsumer.commitSync 提交offset

监控告警

监控数据来源

除了与Kafka相关的功能性需求,运维平台必不可少的就是监控和告警,监控数据来源于Kafka的三端,都提供了JMX获取监控数据,通过任务定时抓取监控点数据。

告警规则

根据定时抓取到的监控点数据,配置告警规则,在达到预设阈值时,将告警信息推送到相关人员。

最后

在介绍了Kafka运维平台相关功能设计之后,相信大家也对运维平台有了一定的了解,当然这也只是达到“能用”的程度,还有很多功能未曾提及,例如,多租户的实现;管理相关的工单、审批;生产端、消费端相关功能;多集群备份、迁移等等。

写这类文章很难把握尺度,怕写少了不明白,写多了停不下来,(huoxu)以后有时间再写吧,感谢阅读。

目录
相关文章
|
9天前
|
人工智能 运维 负载均衡
智能运维新时代:AI在云资源管理中的应用与实践
智能运维新时代:AI在云资源管理中的应用与实践
89 23
|
4天前
|
运维 Cloud Native 开发工具
智能运维:云原生大规模集群GitOps实践
智能运维:云原生大规模集群GitOps实践,由阿里云运维专家钟炯恩分享。内容涵盖云原生运维挑战、管理实践、GitOps实践及智能运维体系。通过OAM模型和GitOps优化方案,解决大规模集群的发布效率与稳定性问题,推动智能运维工程演进。适用于云原生环境下的高效运维管理。
|
11天前
|
Kubernetes Java 持续交付
小团队 CI/CD 实践:无需运维,Java Web应用的自动化部署
本文介绍如何使用GitHub Actions和阿里云Kubernetes(ACK)实现Java Web应用的自动化部署。通过CI/CD流程,开发人员无需手动处理复杂的运维任务,从而提高效率并减少错误。文中详细讲解了Docker与Kubernetes的概念,并演示了从创建Kubernetes集群、配置容器镜像服务到设置GitHub仓库Secrets及编写GitHub Actions工作流的具体步骤。最终实现了代码提交后自动构建、推送镜像并部署到Kubernetes集群的功能。整个过程不仅简化了部署流程,还确保了应用在不同环境中的稳定运行。
49 9
|
18天前
|
存储 弹性计算 运维
云端问道 7 期实践教学-使用操作系统智能助手 OS Copilot 轻松运维与编程
使用操作系统智能助手 OS Copilot 轻松运维与编程
44 14
|
19天前
|
运维 监控 Cloud Native
构建深度可观测、可集成的网络智能运维平台
本文介绍了构建深度可观测、可集成的网络智能运维平台(简称NIS),旨在解决云上网络运维面临的复杂挑战。内容涵盖云网络运维的三大难题、打造云原生AIOps工具集的解决思路、可观测性对业务稳定的重要性,以及产品发布的亮点,包括流量分析NPM、网络架构巡检和自动化运维OpenAPI,助力客户实现自助运维与优化。
|
1月前
|
运维 监控 持续交付
自动化运维在现代数据中心的应用与实践####
本文探讨了自动化运维技术在现代数据中心中的应用现状与实践案例,分析了其如何提升运维效率、降低成本并增强系统稳定性。通过具体实例,展示了自动化工具如Ansible、Puppet及Docker在环境配置、软件部署、故障恢复等方面的实际应用效果,为读者提供了一套可参考的实施框架。 ####
|
21天前
|
运维 监控 Cloud Native
云原生之运维监控实践:使用 taosKeeper 与 TDinsight 实现对 时序数据库TDengine 服务的监测告警
在数字化转型的过程中,监控与告警功能的优化对保障系统的稳定运行至关重要。本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品之一,详细介绍了如何利用 TDengine、taosKeeper 和 TDinsight 实现对 TDengine 服务的状态监控与告警功能。作者通过容器化安装 TDengine 和 Grafana,演示了如何配置 Grafana 数据源、导入 TDinsight 仪表板、以及如何设置告警规则和通知策略。欢迎大家阅读。
47 0
|
1月前
|
运维 监控 Devops
自动化运维实践:打造高效的DevOps流水线
在软件开发的快节奏中,自动化运维成为提升效率、确保质量的关键。本文将引导你理解自动化运维的价值,通过实际案例分享如何构建一个高效、可靠的DevOps流水线。我们将从持续集成(CI)开始,逐步深入到持续部署(CD),并展示代码示例来具体说明。准备好让你的运维工作飞跃式进步了吗?让我们开始吧!
|
1月前
|
人工智能 运维 自然语言处理
智能化运维:AI在IT运维领域的深度应用与实践####
本文探讨了人工智能(AI)技术在IT运维领域的深度融合与实践应用,通过分析AI驱动的自动化监控、故障预测与诊断、容量规划及智能决策支持等关键方面,揭示了AI如何赋能IT运维,提升效率、降低成本并增强系统稳定性。文章旨在为读者提供一个关于AI在现代IT运维中应用的全面视角,展示其实际价值与未来发展趋势。 ####
254 4
|
1月前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在企业IT管理中的应用与实践####
本文深入探讨了智能化运维(AIOps)的核心技术原理,通过对比传统运维模式,揭示了AIOps如何利用大数据、机器学习等先进技术提升故障预测准确性、优化资源分配及自动化处理流程。同时,文章详细阐述了智能化运维平台的实施步骤,包括数据收集与分析、模型训练与部署、以及持续监控与优化,旨在为企业IT部门提供一套切实可行的智能化转型路径。最后,通过几个典型应用案例,如某大型电商平台的智能告警系统和金融企业的自动化故障排查流程,直观展示了智能化运维在实际业务场景中的显著成效,强调了其在提升运维效率、降低运营成本方面的关键作用。 ####
54 4