技术笔记:Linux内核跟踪和性能分析

简介: 技术笔记:Linux内核跟踪和性能分析

尽管通过打印进行调试可以满足大多数调试需求,但在某些情况下,我们需要在运行时监视Linux内核以跟踪奇怪的行为,包括延迟、CPU占用、调度问题等等。在Linux世界中,实现这一点最有用的工具是内核本身的一部分。最重要的是ftrace,这是一种Linux内核内部跟踪工具,也是本文章的主要主题。


使用Ftrace来检测代码


函数跟踪(Function Trace),简称为Ftrace,它的作用远不止它的名字。例如,它可以用来测量处理中断所花费的时间,跟踪耗时的功能,计算激活高优先级任务的时间,跟踪上下文切换,等等。


Ftrace由Steven Rostedt开发,自2008年2.6.27版本以来一直包含在内核中。这个框架为记录数据提供了一个调试环缓冲区。这些数据是由内核集成的跟踪程序收集的。Ftrace工作在debugfs文件系统之上,大多数情况下,当它被启用时,它被挂载在自己的名为tracing的目录中。在大多数现代Linux发行版中,它默认挂载在/sys/kernel/debug/目录下(仅对root用户可用),这意味着您可以在/sys/kernel/debug/tracing/中使用Ftrace。


为了在您的系统上支持Ftrace,需要启用以下内核选项:


CONFIG_FUNCTION_TRACER


CONFIG_FUNCTION_GRAPH_TRACER


CONFIG_STACK_TRACER


CONFIG_DYNAMIC_FTRACE


上述选项依赖于通过启用CONFIG_HAVE_FUNCTION_TRACER、CONFIG_HAVE_DYNAMIC_FTRACE和CONFIG_HAVE_FUNCTION_GRAPH_TRACER选项来支持跟踪特性的体系结构。


要挂载tracefs目录,您可以在/etc/fstab文件中添加以下一行:


tracefs /sys/kernel/debug/tracing tracefs defaults 0 0


或者你可以在运行时使用以下命令来挂载它:


mount -t tracefs nodev /sys/kernel/debug/tracing


目录的内容应该是这样的:


# ls /sys/kernel/debug/tracing/


README set_event_pid


available_events set_ftrace_filter


available_filter_functions set_ftrace_notrace


available_tracers set_ftrace_pid


buffer_size_kb set_graph_function


buffer_total_size_kb set_graph_notrace


current_tracer snapshot


dyn_ftrace_total_info stack_max_size


enabled_functions stack_trace


events stack_trace_filter


free_buffer trace


function_profile_enabled trace_clock


instances trace_marker


max_graph_depth trace_options


options trace_pipe


per_cpu trace_stat


printk_formats tracing_cpumask


saved_cmdlines tracing_max_latency


saved_cmdlines_size tracing_on


set_event tracing_thresh


我们不会描述所有这些文件和子目录,因为在官方文档中已经介绍过了。相反,我们将简单描述与上下文相关的文件:


available_tracers:可用的跟踪程序。


tracing_cumask:允许跟踪选定的CPUs。掩码应该以十六进制字符串格式指定。例如,要只跟踪core 0,您应该在该文件中包含1。要跟踪core 1,应该在其中包含一个2。对于core 3,应该包括数字8。


current_tracer:当前正在运行的跟踪程序。


tracing_on:负责启用或禁用向环形缓冲区写入数据的系统文件(要启用此功能,必须将数字1添加到文件中;若要禁用它,则添加数字0)。


trace:以人类可读格式保存跟踪数据的文件。


既然我们已经介绍了Ftrace并描述了它的功能,那么我们就可以深入研究它的用法,了解它在跟踪和调试方面有多么有用。


可用的tracers


我们可以使用以下命令查看可用的tracers列表:


# cat /sys/kernel/debug/tracing/available_tracers


blk mmiotrace function_graph wakeup_dl wakeup_rt wakeup irqsoff function nop


让我们快速了解一下每种tracer的特点:


function:没有参数的函数调用tracer。


function_graph:带有子调用的函数调用tracer。


blk:与块设备I/O操作相关的调用和事件tracer(这就是blktrace所使用的)。


mmiotrace:内存映射的I/O操作tracer。它跟踪一个模块对硬件的所有调用。它是通过CONFIG_MMIOTRACE启用的,这取决于CONFIG_HAVE_MMIOTRACE_SUPPORT。


irqsoff:跟踪禁用中断的区域,并保存最大延迟时间最长的跟踪。这个跟踪程序依赖于CONFIG_IRQSOFF_TRACER。


preemptoff:取决于CONFIG_PREEMPT_TRACER。它类似于irqsoff,但是跟踪并记录禁用抢占的时间。


preemtirqsoff:类似于irqsoff和preemptoff,但它跟踪并记录禁用irqs和/或抢占的最大时间。


CONFIG_SCHED_TRACER启用的wakeup和wakeup_rt:前者跟踪并记录最高优先级任务在被唤醒后被调度所需的最大延迟,而后者跟踪并记录仅用于实时(RT)任务所需的最大延迟(与当前唤醒跟踪程序的方式相同)。


nop:最简单的跟踪器,顾名思义,它什么都不做。nop跟踪程序只是显示trace_printk()调用的输出。


irqsoff、preemptoff和preemtirqsoff是所谓的延迟跟踪器。它们测量中断被禁用多长时间,抢占被禁用多长时间,以及中断和/或抢占被禁用多长时间。Wakeup延迟跟踪器测量一个进程在被所有任务或RT任务唤醒后需要多长时间才能运行。


The function tracer


我们将从函数跟踪器开始介绍Ftrace。让我们来看一个测试脚本:


# cd /sys/kernel/debug/tracing


# echo function

# echo 1 > tracing_on


# sleep 1


# echo 0 > tracing_on


# less trace


这个脚本相当简单,但有几件事值得注意。我们通过将当前跟踪程序的名称写入current_tracer文件来启用当前跟踪程序。接下来,我们将1写入tracing_on,这将启用循环缓冲区。语法要求在1和>之间有个空格,“echo1> tracing_on”将不能工作。一行之后,我们禁用它(如果将0写入tracing_on,缓冲区将不会被清除,Ftrace也不会被禁用)。


我们为什么要这么做?在两个echo命令之间,我们看到sleep 1命令。我们启用缓冲区,运行这个命令,然后禁用它。这使得跟踪程序可以包含与命令运行时发生的所有系统调用相关的信息。在脚本的最后一行中,我们给出在控制台中显示跟踪数据的命令。一旦脚本运行,我们将看到以下打印输出(这只是一个小片段):


打印输出以缓冲区中的条目数量和写入的条目总数相关的信息开始。这两个数字之间的差就是填充缓冲区时丢失的事件数。然后,有一个包含以下信息的//代码效果参考:http://www.lyjsj.net.cn/wx/art_23374.html

函数列表:

进程名(TASK)。


进程标识符(PID)。


进程运行的CPU (CPU#)。


函数开始时间(TIMESTAMP)。这个时间戳是自启动以来的时间。


被跟踪函数的名称(FUNCTION)和在 '<-' 符号后面被调用的父函数。例如,在输出的第一行中,irq_may_run函数是由handle_fasteoi_irq调用的。


现在我们已经熟悉了函数跟踪器及其特性,我们可以了解下一个跟踪器,它具有更丰富的特性,并提供更多的跟踪信息,例如调用graph。


The function_graph tracer


function_graph tracer的工作方式就像function tracer一样,但是以更详细的方式:显示每个函数的入口和出口点。使用这个跟踪器,我们可以跟踪带有子调用的函数,并测量每个函数的执行时间。


让我们编辑前面例子中的脚本:


# cd /sys/kernel/debug/tracing


# echo function_graph

# echo 1 > tracing_on


# sleep 1


# echo 0 > tracing_on


# less trace


运行这个脚本后,我们得到以下打印输出:


# tracer: function_graph


#


# CPU DURATION FUNCTION CALLS


# | | | | | | |


5) 0.400 us | } / set_next_buddy /


5) 0.305 us | update_load_avg_se();


5) 0.340 us | update_load_avg_cfs_rq();


5) | update_cfs_group() {


5) | reweight_entity() {


5) | update_curr() {


5) 0.376 us | calc_delta();


5) 0.308 us | update_min_vruntime();


5) 1.754 us | }


5) 0.317 us | account_entity_dequeue();


5) 0.260 us | account_entity_enqueue();


5) 3.537 us | }


5) 4.221 us | }


5) 0.261 us | hrtick_update();


5) + 16.852 us | } / dequeue_task_fair /


5) + 23.353 us | } / deactivate_task /


5) | pick_next_task_fair() {


5) 0.286 us | update_curr();


5) 0.271 us | check_cfs_rq_runtime();


5) | pick_next_entity() {


5) 0.441 us | wakeup_preempt_entity.isra.77();


5) 0.306 us | clear_buddies();


5) 1.645 us | }


------------------------------------------


5) SCTP ti-27174 => Composi-2089


------------------------------------------


5) 0.632 us | switch_to_xtra();


5) 0.350 us | finish_task_switch();


5) ! 271.440 us | } / schedule /


5) | _cond_resched() {


5) 0.267 us | rcu_all_qs();


5) 0.834 us | }


5) ! 273.311 us | } / futex_wait_queue_me /


在这个图中,DURATION表示运行一个函数所花费的时间。注意 + 和 ! 符号。加号(+)表示函数耗时超过10微秒,而感叹号(!)表示耗时超过100微秒。在FUNCTION_CALLS下面,我们找到与每个函数调用相关的信息。用于显示每个函数的起始和完成的符号与C编程语言中的相同:括号({})划分函数,一个在开始,一个在结束;不调用任何其他函数的叶子函数用分号(;)标记。


Ftrace还允许使用tracing_thresh选项将跟踪限制在超过一定时间的函数上。应该记录函数的时间阈值必须以微秒单位写入该文件。这可以用来查找内核中花费很长时间的例程。在内核启动时使用它可能很有趣,可以帮助优化启动时间。要在启动时设置阈值,可以在内核命令行中设置,如下所示:


tracing_thresh=200 ftrace=function_graph


这将跟踪所有耗时超过200微秒(0.2毫秒)的函数。您可以使用任何时间间隔的阈值。


在运行时,您可以简单地执行 echo 200 > tracing_thresh 。


Function filters


选择要跟踪的函数。不用说,要跟踪的函数越少,开销就越少。Ftrace打印输出可能很大,并且找到您正在寻找的内容可能非常困难。但是,我们可以使用过滤器来简化搜索:打印输出只显示我们感兴趣的函数的信息。要做到这一点,我们只需要在set_ftrace_filter文件中写入函数名,如下所示:


# echo kfree > set_ftrace_filter


要禁用过滤器,我们在这个文件中添加一个空行:


# echo > set_ftrace_filter


执行如下命令:


# echo kfree > set_ftrace_notrace


结果相反:打印输出将为我们提供除kfree()之外的所有函数的信息。另一个有用的选项是set_ftrace_pid。此工具用于跟踪可以代表特定进程调用的函数。


Ftrace有更多筛选选项。要了解更详细的信息,您可以在上阅读官方文档。


Tracing events


在介绍跟踪事件之前,让我们讨论一下跟踪点(tracepoints)。跟踪点是触发系统事件的特殊代码插入。跟踪点可以是动态的(意味着它们附加了几个检查),也可以是静态的(没有附加检查)。


静态跟踪点不会以任何方式影响系统;它们只是在检测函数的末尾为函数调用添加了几个字节,并在单独的部分中添加了一个数据结构。动态跟踪点在执行相关代码片段时调用跟踪函数。跟踪数据被写入循环缓冲区。跟踪点可以包含在代码中的任何地方。事实上,它们已经可以在很多内核函数中找到。让我们看看摘自mm/slab.c的kmem_cache_free函数:


void kmem_cache_free(struct kmem_cache cachep, void objp)


{


  【...】


  trace_kmem_cache_free(_RETIP, objp);


}


kmem_cache_free本身就是一个跟踪点。只要看看其他内核函数的源代码,我们就能找到无数的例子。


Linux内核有一个特殊的API用于处理来自用户空间的跟踪点。在“/sys/kernel/debug/tracing”目录下,有一个存放系统事件的“events”目录。这些可用于跟踪。在这个上下文中,系统事件可以理解为内核中包含的跟踪点。


可以通过运行以下命令查看这些列表:


# cat /sys/kernel/debug/tracing/available_events


mac80211:drv_return_void


mac80211:drv_return_int


mac80211:drv_return_bool


mac80211:drv_return_u32


mac80211:drv_return_u64


mac80211:drv_start


mac80211:drv_get_et_strings


mac80211:drv_get_et_sset_count


mac80211:drv_get_et_stats


mac80211:drv_suspend


【...】


一个很长的列表将在控制台中打印出来,使用:模式。这有点不方便。我们可以使用下面的命令打印出一个更加结构化的列表:


# ls /sys/kernel/debug/tracing/events


block gpio napi regmap syscalls


cfg80211 header_event net regulator task


clk

相关文章
|
3天前
|
算法 Linux 调度
深入理解Linux内核调度器:从基础到优化####
本文旨在通过剖析Linux操作系统的心脏——内核调度器,为读者揭开其高效管理CPU资源的神秘面纱。不同于传统的摘要概述,本文将直接以一段精简代码片段作为引子,展示一个简化版的任务调度逻辑,随后逐步深入,详细探讨Linux内核调度器的工作原理、关键数据结构、调度算法演变以及性能调优策略,旨在为开发者与系统管理员提供一份实用的技术指南。 ####
19 4
|
7天前
|
缓存 算法 Linux
深入理解Linux内核调度器:公平性与性能的平衡####
真知灼见 本文将带你深入了解Linux操作系统的核心组件之一——完全公平调度器(CFS),通过剖析其设计原理、工作机制以及在实际系统中的应用效果,揭示它是如何在众多进程间实现资源分配的公平性与高效性的。不同于传统的摘要概述,本文旨在通过直观且富有洞察力的视角,让读者仿佛亲身体验到CFS在复杂系统环境中游刃有余地进行任务调度的过程。 ####
27 6
|
5天前
|
缓存 资源调度 安全
深入探索Linux操作系统的心脏——内核配置与优化####
本文作为一篇技术性深度解析文章,旨在引领读者踏上一场揭秘Linux内核配置与优化的奇妙之旅。不同于传统的摘要概述,本文将以实战为导向,直接跳入核心内容,探讨如何通过精细调整内核参数来提升系统性能、增强安全性及实现资源高效利用。从基础概念到高级技巧,逐步揭示那些隐藏在命令行背后的强大功能,为系统管理员和高级用户打开一扇通往极致性能与定制化体验的大门。 --- ###
26 9
|
4天前
|
缓存 负载均衡 Linux
深入理解Linux内核调度器
本文探讨了Linux操作系统核心组件之一——内核调度器的工作原理和设计哲学。不同于常规的技术文章,本摘要旨在提供一种全新的视角来审视Linux内核的调度机制,通过分析其对系统性能的影响以及在多核处理器环境下的表现,揭示调度器如何平衡公平性和效率。文章进一步讨论了完全公平调度器(CFS)的设计细节,包括它如何处理不同优先级的任务、如何进行负载均衡以及它是如何适应现代多核架构的挑战。此外,本文还简要概述了Linux调度器的未来发展方向,包括对实时任务支持的改进和对异构计算环境的适应性。
23 6
|
5天前
|
缓存 Linux 开发者
Linux内核中的并发控制机制:深入理解与应用####
【10月更文挑战第21天】 本文旨在为读者提供一个全面的指南,探讨Linux操作系统中用于实现多线程和进程间同步的关键技术——并发控制机制。通过剖析互斥锁、自旋锁、读写锁等核心概念及其在实际场景中的应用,本文将帮助开发者更好地理解和运用这些工具来构建高效且稳定的应用程序。 ####
21 5
|
5天前
|
算法 Unix Linux
深入理解Linux内核调度器:原理与优化
本文探讨了Linux操作系统的心脏——内核调度器(Scheduler)的工作原理,以及如何通过参数调整和代码优化来提高系统性能。不同于常规摘要仅概述内容,本摘要旨在激发读者对Linux内核调度机制深层次运作的兴趣,并简要介绍文章将覆盖的关键话题,如调度算法、实时性增强及节能策略等。
|
6天前
|
存储 监控 安全
Linux内核调优的艺术:从基础到高级###
本文深入探讨了Linux操作系统的心脏——内核的调优方法。文章首先概述了Linux内核的基本结构与工作原理,随后详细阐述了内核调优的重要性及基本原则。通过具体的参数调整示例(如sysctl、/proc/sys目录中的设置),文章展示了如何根据实际应用场景优化系统性能,包括提升CPU利用率、内存管理效率以及I/O性能等关键方面。最后,介绍了一些高级工具和技术,如perf、eBPF和SystemTap,用于更深层次的性能分析和问题定位。本文旨在为系统管理员和高级用户提供实用的内核调优策略,以最大化Linux系统的效率和稳定性。 ###
|
5天前
|
Java Linux Android开发
深入探索Android系统架构:从Linux内核到应用层
本文将带领读者深入了解Android操作系统的复杂架构,从其基于Linux的内核到丰富多彩的应用层。我们将探讨Android的各个关键组件,包括硬件抽象层(HAL)、运行时环境、以及核心库等,揭示它们如何协同工作以支持广泛的设备和应用。通过本文,您将对Android系统的工作原理有一个全面的认识,理解其如何平衡开放性与安全性,以及如何在多样化的设备上提供一致的用户体验。
|
8天前
|
Linux 数据库
Linux内核中的锁机制:保障并发操作的数据一致性####
【10月更文挑战第29天】 在多线程编程中,确保数据一致性和防止竞争条件是至关重要的。本文将深入探讨Linux操作系统中实现的几种关键锁机制,包括自旋锁、互斥锁和读写锁等。通过分析这些锁的设计原理和使用场景,帮助读者理解如何在实际应用中选择合适的锁机制以优化系统性能和稳定性。 ####
24 6
|
8天前
|
机器学习/深度学习 负载均衡 算法
深入探索Linux内核调度机制的优化策略###
本文旨在为读者揭开Linux操作系统中至关重要的一环——CPU调度机制的神秘面纱。通过深入浅出地解析其工作原理,并探讨一系列创新优化策略,本文不仅增强了技术爱好者的理论知识,更为系统管理员和软件开发者提供了实用的性能调优指南,旨在促进系统的高效运行与资源利用最大化。 ###