让运维回归简单!龙蜥社区 SysAK 衍生版——KSysAK 的大 V 体验 | 开发者说

简介: 使用 KSysAK 进行内核内存泄漏检测的使用体验。

编者按:【开发者说】龙蜥社区副理事长单位浪潮信息,为开发者提供基于 Anolis OS 的衍生版——浪潮信息服务器操作系统云峦 KeyarchOS 使用和体验的分享平台。本文转载自浪潮信息操作系统,系统异常定位分析工具 KSysAK 在龙蜥社区开源项目 SysAK 的基础上,浪潮信息云峦操作系统研发及运维人员设计和研发的多个运维工具的集合。以下为 CSDN 知名博主“小威要向诸佬学习呀”使用 KSysAK 进行内核内存泄漏检测的使用体验。欢迎阅读。

 

一、基本信息

1.1 概述系统异常定位分析工具 KSysAK 是云峦操作系统研发及运维人员总结开发及运维经验在龙蜥社区开源项目 SysAK 的基础上,设计和研发的多个运维工具的集合,可以覆盖系统的日常监控、线上问题诊断和系统故障修复等常见运维场景。工具的整体设计上,力图让运维工作回归简单,让系统运维人员不需要深入了解内核就能找出问题的所在。



系统运维工具按功能划分可分为监控和诊断模式:

  • 系统监控:针对各种系统资源(CPU、内存、网络、文件 IO、内核管理结构等)提供更精细化的资源监控,帮助业务运维实现细粒度的运维调度,高效运用资源。
  • 系统诊断:诊断的典型问题如负载异常、网络抖动、内存泄漏、IO毛刺、性能瓶颈、应用异常等,针对性的提供工具,同时尽量减少工具的专业性,让用户更易使用和解读。

而为了实现以上功能,并能够为用户提供简单易用操作界面,系统运维工具 KSysAK 提供了多个子工具,着重解决不同场景下的监控数据的采集、统计及数据诊断。

1.2 环境详解

IP地址:100.2.93.X架构:x86_64类型:虚拟机操作系统版本:KOS5.8-sp1内核版本:4.19.91-27.4.7.kos5.x86_64KSysAK版本:1.3.0用户名:root

1.3 工具

分类 工具名称 备注
内存泄露memleak test_page_leak.ko 模拟page泄露的工具
模拟slab泄露的工具 test_slab_leak.ko  
模拟vmalloc泄露的工具 test_vmalloc_leak.ko  
延迟抖动runlatency testrunlatency 模拟进程运行延迟情况

二、Linux 内核内存泄漏检测

内核内存泄漏是指在 Linux 系统中,由于代码中的错误或缺陷,分配给内核的内存未能被正确释放而导致的问题。这可能会导致系统性能下降,最终耗尽系统的可用内存,甚至导致系统崩溃。

下面我将介绍一些在 Linux 系统中检测和解决内核内存泄漏的方法:Linux 内核内存分配有几种不同的机制,其中包括 slab、page 和 vmalloc。

 

KSysAK memleak内存泄露检测工具步骤:

1、 集成到项目中

将KSysAK memleak的内存泄漏检测代码集成到需要检测的项目中。这通常涉及将检测代码插入到项目的适当位置,以确保能够准确追踪内存分配和释放情况。

2、 编译和运行项目

使用适当的编译选项编译项目,并确保项目成功编译。然后运行项目,让其正常执行一系列操作,包括内存的申请和释放。

3、 收集内存泄漏数据在项目运行期间,KSysAK memleak将记录内存分配和释放的详细信息。这些数据包括每次内存分配的调用堆栈、分配大小、分配位置等。收集这些数据用于后续的内存泄漏分析。

4、 分析内存泄漏数据

使用KSysAK memleak提供的分析工具,对收集到的内存泄漏数据进行分析。这可以帮助识别潜在的内存泄漏源头、内存泄漏的大小以及泄漏发生的位置。通过这些信息,开发人员可以准确地定位问题并采取相应的修复措施。

5、 修复内存泄漏

一旦通过分析工具确定了内存泄漏的位置和原因,开发人员就可以修复这些问题。修复可能涉及修改代码以确保正确释放内存、修复内存管理逻辑的错误等。在修复后,可以重新运行项目并使用KSysAK memleak进行验证,确保内存泄漏问题已得到解决。

需要注意的是,KSysAK memleak 是一种基于宏调用的内存泄漏检测工具,它可能会对项目性能产生一定的影响。因此,在使用 KSysAK memleak 进行内存泄漏检测时,建议仅在开发和调试阶段使用,并在完成内存泄漏修复后将其从项目中移除,以确保项目的性能和稳定性不受影响。

2.1 page内存泄露检测

执行 ksysak memleak -t page -i 80 启动检测 page 内存泄露程序,运行 80s (若来不及执行检测程序则可以延长时间)。

 



其系统基本信息如下,可以看到当前系统为 CentOS Linux 7。

2.2 slab内存泄露检测

执行 slabtop 命令以查看当前系统的 Slab 使用情况。

执行 cat /proc/slabinfo 命令,获取更详细的 Slab 缓存信息。

使用perf工具跟踪内核中的 Slab 分配和释放操作。

执行ksysak memleak -t slab -i 80检测启动slab内存泄露检测程序,运行80s(若来不及执行检测程序则可以延长时间)。



其系统基本信息如下,可以看到当前系统为 CentOS Linux 7。

三、OS异常分析

OS 异常分析是操作系统中的一种重要技术,用于处理在程序运行过程中发生的异常情况。当程序执行时遇到某些无法处理的错误或特殊情况时,操作系统会通过异常处理机制来响应,以保护系统的稳定性和安全性。3.1 系统巡查执行#ksysak ossre_client -d 可扫描日志文件查看系统运行过程中的所有异常信息。

四、检测系统中延迟抖动

服务器操作系统运行过程中,对应用运行的干扰源可能会很多,但干扰不一定会对业务造成影响,所以至少需要包含这些干扰源的频率和运行时间,来评估是否是关键因素。

至少需要包括以下干扰源的统计:

  • 设备硬件中断:如果在业务运行过程中,某一类中断频率过高或者集中到某个 cpu,或者单次运行过长,那么都可能会影响到业务的性能,可以对中断进行打散绑定等操作观察效果。
  • 系统定时中断:系统定时器过多,也可能会对业务的唤醒造成延迟,通常可以分析业务进程是否有大量的使用高精度定时器。
  • 软中断:可能是网络流量是否有突发增加等。

Runlatency 作为系统运维工具 KSysAK 的一个子工具,用于诊断系统中可能影响应用运行延迟抖动的地方并输出延迟因素。其内核中监控影响进程调度的延时因素(关中断、长时间不调度、运行队列长)。可监控整个系统或单个进程的中断和调度信息,监控的数据包括:

  • 进程/线程调度延迟:比如运行队列挤压、排队时间过长以及高优先级应用抢占或本身调度策略设置不合理。
  • 中断和软中断响应不及时:业务运行过程会依赖于中断和软中断执行过程,包括网络收发包、IO 读写等。因此可以分析关中断时长来判断中断的响应时间。
  • 内核态执行过长:包括系统本身存在的瓶颈以及内核里其他资源竞争等情况。

4.1 系统巡查

执行系统延迟抖动模拟程序 testrunlatency.python (在/root)。

执行ksysak runlatency -e 启动延迟抖动监控。

执行 ksysak runlatency -r ./out , 将监控数据输出到out目录下。

执行ksysak runlatency -d 关闭监控。

查看 out 目录下的输出结果如下:

nosch, hard, soft 类型的延迟信息,所属 CPU,进程 id,延时时间, 命令行,堆栈信息等。

使用 curl 用于测试 Web应用的响应和时间,较小的延迟时间通常表示系统或服务能够更快地响应用户的请求

五、产品总结

KSysAK 是一款多个运维工具集合的“结晶”,它可以大大提高运维人员的工作效率,其主要功能是系统的日常监控、线上问题的诊断和系统故障修复,对于系统的检测非常的详细,该产品的主要特点是覆盖面广,使用不受限,这大大体现了产品的实用和广泛性,让运维工作回归简单,让系统运维人员不需要深入了解内核就能找出问题的所在,非常方便!总体来说,不管是对用户个人还是在岗的工作人员,这款工具一定是当之无愧的,但是在某些方面还是可以再优化的,例如:

  • 可以增强定制化:工具应该允许用户更细粒度地定制模拟泄漏的场景。比如,用户应该能够指定泄漏的大小、速度、以及泄漏发生的位置。
  • 详细的报告:工具应该生成详细且易于理解的报告,以帮助用户识别和解决内存泄漏问题。报告应该包括泄漏的大小、位置、以及可能的解决方案。
  • 实时检测和警报:工具应该能实时监测内存泄露,并在发现潜在问题时向用户发出警报,这样有助于在问题严重前及时解决问题。


还可以做一个可视化界面,对于很多用户来说,命令行可能不爱看,或者说有点复杂,一个直观的用户界面将有助于用户更方便地使用这些工具。最后,为了确保这些工具的有效性和准确性,建议定期进行质量测试和验证。这样可以确保它们在不同场景和配置下都能可靠地工作。


更多龙蜥开发者的故事,点击下方图片阅读:

—— 完 ——

相关文章
|
3天前
|
人工智能 运维 架构师
开始报名,龙蜥社区系统运维联盟MeetUp暨iAutoBASE专题论坛来啦
12月27日,探讨车用基础软件技术及生态发展,欢迎报名。
开始报名,龙蜥社区系统运维联盟MeetUp暨iAutoBASE专题论坛来啦
|
3月前
|
机器学习/深度学习 人工智能 运维
|
4月前
|
人工智能 运维 Anolis
|
7月前
|
弹性计算 运维 安全
ECS系统如何高效运维|开发者分享会
今天分享的内容来自阿里云弹性计算技术专家郑大禹的“ECS系统高效运维实践”。全文围绕ECS运维的痛点和挑战、如何实现高效运维以及典型案例分享这3个主题内容进行讲解。
111514 4
|
5月前
|
人工智能 运维
学习若依的好地方,若依社区,好的运维,社区,也可以运营自己的社区,可以用于投放软件产品和海报展示,有空可以研究怎样运行社区,好的标题设计
学习若依的好地方,若依社区,好的运维,社区,也可以运营自己的社区,可以用于投放软件产品和海报展示,有空可以研究怎样运行社区,好的标题设计
|
7月前
|
运维 监控 Cloud Native
从故障演练到运维工具产品力评测的探索 | 龙蜥技术
随着AI和云原生技术的发展,业界运维工具百花齐放,该如何让优秀的工具脱颖而出?
|
7月前
|
运维 Linux 项目管理
|
7月前
|
人工智能 运维 安全
产学研用全覆盖!信通院、中兴通讯、复旦大学等 12 家厂商共同成立龙蜥社区系统运维联盟(SOMA)
龙蜥社区系统运维联盟(SOMA)龙蜥社区系统运维联盟正式成立!联盟以推动系统运维技术进步、促进产学研合作为目的。