基于eBPF的云原生可观测性开源工具Kindling之Kindling-agent 性能测试评估

本文涉及的产品
应用实时监控服务-应用监控,每月50GB免费额度
应用实时监控服务-用户体验监控,每月100OCU免费额度
可观测监控 Prometheus 版,每月50GB免费额度
简介: Kindling-agent作为数据采集器,其性能如何想必是很多使用者关心的问题,本文将通过实际的压测数据来说明Kindling的性能。

背景

Kindling-agent是基于eBPF的云原生可观测性开源工具Kindling中采集端的组件,能够通过采集和分析内核事件,获取运行于同一宿主机上的其他服务的业务、网络等指标。其工作模式是在主机上以独立进程的方式收集所需数据,所以只需要我们在应用所在主机部署Kindling-agent即可启动相应能力,随后可以通过prometheus和grafana套件对不同机器上探针采集的数据进行整合分析和查看,当然也可以用其他工具获取数据并进行分析展示。尽管Kindling-agent基于eBPF的方式进行的监控方式减少了对被监控应用的侵入,但始终还是和用户应用共享同一台宿主机的CPU、内存、磁盘、网络等资源。这使得所有想要使用Kindling-agent的用户都想知道该工具在真实环境中的性能表现以及预期资源使用情况。Kindling项目进行了一系列的测试来验证该采集工具的性能表现,这些测试反应了Kindling-agent在不同压力下良好的性能表现和可靠性。

测试目标

  1. 检验高负载(5000 TPS)场景下,Kindling-agent对应用的性能影响和agent本身的资源使用情况。
  2. 检验常规负载(1000 TPS)场景下,Kindling-agent对应用的性能影响和agent本身的资源使用情况。

测试环境


内核版本



3.10.0-1160.53.1



CPU



Intel(R) Xeon(R) Platinum 8269CY CPU @ 2.50GHz,8C



内存



16G


Jmeter和Kindling-agent以K8S工作负载的方式进行部署,测试应用和Jmeter分别运行在两台CentOS7(fedora)上。

结果说明

1. 基线指测试应用在无探针安装时的进行压力测试获得的指标,包括以下信息:

  • machine-cpu: 机器总CPU使用总体百分比
  • machine-mem: 机器总内存使用总体百分比
  • application-cpu: 测试应用CPU使用核数
  • application-memory: 测试应用内存使用
  • application-latency: 测试应用请求延迟
  • application-tps:测试应用每秒事务数

2. 安装探针后的测试应用在压力测试时的性能指标。

3. 探针自身的性能损耗,包括CPU和内存使用,在一些较低内核版本的机器中,Kindling使用内核模块代替eBPF实现了相同的功能,你将会在测试中看到两种实现下不同的性能表现。

测试用例

用例1

为了验证Kindling-agent在高负载下的性能表现,用例1使用了Skywalking的benchmark1程序。该程序为一个常规的Springboot应用,对外提供HTTP服务,其预期TPS为5000,预期延时为85ms。Kindling会捕获该程序的异常/慢的请求数据(即Trace),并统计程序运行时间段内的关键性指标(Metric),如平均响应时间、错误率、请求字节数和请求数等。这些Trace和Metric能够有效的保障程序的可观测性。下面的测试结果中是待测程序在5000TPS下的性能表现,baseline表示未启用agent下的资源开销和性能表现。

1.png

在资源使用上,Kindling-agent 一共消耗了约0.64C来处理并统计 5000 TPS下的关键性能指标,并通过Prometheus暴露在HTTP接口上。对于应用程序的资源使用,在基线测试中,应用程序需要花费2.5C处理现有的业务请求,在部署了探针后,程序需要使用2.6C处理现有的业务请求,即相对于基线增加了4%的额外开销,内存方面则几乎没有影响。对于应用程序的服务表现,可以看到,在5000TPS的负载下,Kindling-agent对应用程序的响应时间和TPS的影响都非常小。大多数正常的业务都包含一定的处理逻辑,单节点吞吐量很少能够达到5000TPS。因此,对于大多数的业务应用来说,不需要担心Kindling-agent对应用本身的处理能力造成影响。

用例2

如之前所述,用例1中的TPS明显高于正常的用户应用。为此,测试用例2增加了处理每个请求时的CPU使用,并下调了请求压力,使该场景更接近于生产环境下的常规压力。

2.png

在资源使用上,Kindling-agent 一共消耗了 0.12C 用于数据处理和统计。

对于应用的资源使用,在1000TPS下,基线使用1.37C 处理现有的请求,安装agent后相较于基线几乎没有额外开销。服务表现方面,在1000TPS下,基线的响应时间为272ms , TPS为 1044 ; 安装agent后相较于基线几乎不变。总的来说,在常规负载下,Kindling-agent对用户应用几乎没有影响。

总结

上述用例说明Kindling可以在较低的资源开销下支持轻量化部署,且易于管理;能够深入分析请求到协议栈在内核执行情况;能够提供语言无关,应用无侵入的监控体验,为您的应用带来新一代的可观测能力。


测试原始数据详见:原始数据

KINDLING项目地址:KINDLING

欢迎对云可观测性感兴趣的小伙伴与我们联系:Kindling官网

相关实践学习
通过性能测试PTS对云服务器ECS进行规格选择与性能压测
本文为您介绍如何利用性能测试PTS对云服务器ECS进行规格选择与性能压测。
目录
相关文章
|
8天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
43 4
|
4月前
|
人工智能 Cloud Native API
Higress 重磅更新:AI 能力全面开源,云原生能力再升级
Higress 最新的 1.4 版本基于为通义千问,以及多家云上 AGI 厂商客户提供 AI 网关的积累沉淀,开源了大量 AI 原生的网关能力。同时也在 Ingress、可观测、流控等云原生能力上做了全方位升级。
21373 276
|
1月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
1月前
|
机器学习/深度学习 人工智能 算法
Agent Q:具备自我学习、评估的智能体
近年来,人工智能领域取得了显著进步,特别是智能体技术备受瞩目。智能体作为AI系统核心,能自主学习、决策和执行任务,应用广泛。Agent Q作为一种具备自我学习和评估能力的智能体,通过强化学习算法,能自动优化行为策略,适应复杂环境,无需人工干预。此外,它还能根据评估指标调整策略,持续提升任务完成质量。尽管存在复杂环境适应性和计算资源消耗等挑战,Agent Q仍为智能机器人、自动驾驶等领域的应用提供了新思路,推动了AI技术的发展。论文详细内容可在此处获取:https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
67 1
|
2月前
|
关系型数据库 分布式数据库 数据库
开源云原生数据库PolarDB PostgreSQL 15兼容版本正式发布
PolarDB进行了深度的内核优化,从而实现以更低的成本提供商业数据库的性能。
|
3月前
|
运维 监控 Cloud Native
|
4月前
|
存储 监控 Cloud Native
kubevela可观测体系问题之KubeVela云原生时代可观测性挑战的问题如何解决
kubevela可观测体系问题之KubeVela云原生时代可观测性挑战的问题如何解决
|
5月前
|
弹性计算 监控 Cloud Native
构建多模态模型,生成主机观测指标,欢迎来战丨2024天池云原生编程挑战赛
本次比赛旨在如何通过分析 ECS 性能数据和任务信息,综合利用深度学习、序列分析等先进技术,生成特定机器的性能指标。参赛者的解决方案将为云资源管理和优化决策提供重要参考,助力云计算资源的高效稳定运行和智能化调度。
650 16
|
5月前
|
Kubernetes Cloud Native 开发者
阿里云网络发布 alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
**阿里云发布开源版ALB控制器v1.2.0,对齐商业版ALB Ingress Controller v2.10.0。新版本增强了功能特性,提升了用户体验,并提供了最佳实践。功能更新包括自定义标签、QUIC协议支持、转发规则和安全策略等。此外,还引入了ReadinessGate实现滚动升级时的平滑上线和Prestop钩子确保平滑下线。用户可从GitHub获取开源代码,通过Docker Hub拉取镜像,开始使用alibaba-load-balancer-controller v1.2.0。**
274 3
阿里云网络发布 alibaba-load-balancer-controller v1.2.0:开启云原生网关开源新篇章!敬请探索!
|
5月前
|
Kubernetes Cloud Native 开发者
阿里云网络发布云原生网关 alibaba-load-balancer-controller v1.2.0,持续拥抱开源生态
alibaba-load-balancer-controller开源版本正式推出v1.2.0,能力对齐ALB Ingress Controller商业版v2.10.0。

相关产品

  • 性能测试