linux tracing和profiling概论

简介:


  在工作中经常用到各种跟踪调试工具, strace, ltrace, kprobes, tracepoints, uprobes, ftrace, perf, 和 eBPF。他们之间到底啥关系?本文从总体上进行概述,如果有错误欢迎指正。

1.1.1 系统跟踪

系统跟踪可以分为数据源、收集数据机制和跟踪前端(收集和分析数据的交互)。

数据源可以将其分为probes和tracepoints,对应的源有:

probes :kprobes/uprobes

tracepoints :USDT/kernel tracepoints / lttng-ust

            probe可以在运行时候修改程序来使能跟踪。tracepoint是编译到程序里面的,当使用的时候可以使能或激活,使用tracepoint在没有激活的时候是不会有任何损耗的,另外激活状态下也是很小的开销。

1.1.1.1  kprobes

kprobes是linux内核的debug机制,也可以用来监视生产系统的事件。也可以用来寻找性能瓶颈,指定事件,跟踪问题。

            可以使用Gregg 的

https://github.com/kernel-z/perf-tools/blob/master/kernel/kprobe

            跟踪系统中文件被打印情况,可以使用如下:

./kprobe 'p:myopen do_sys_open filename=+0(%si):string'

            可以打印系统中系统调用open。

            kprobes适用场景,1.跟踪系统调用,其有对应的内核函数do_sys_open;2.在知道哪些内核函数被调用的情况下,定位网络协议栈或文件IO性能问题;3.内核开发者用于定位内核问题。

1.1.1.2  uprobes

uprobes和kprobes 类似,主要是检测用户态函数,例如malloc。

具体参考:

http://www.brendangregg.com/blog/2015-06-28/linux-ftrace-uprobe.html

 

1.1.1.3  USDT/dtrace probes

USDT 为user-mode statically defined traces,就是dtrace probe.

如果程序编译了dtrace probes,就可以使用工具例如eBPF/systemtap来消耗它。当然很多程序例如python默认并没有编译dtrace probes,如果编译进去了,那么可以使用来跟踪python函数调用。

1.1.1.4  tracepoints

tracepoints也是在内核中。相比kprobes,变动比较少。

1.1.1.5  lttng-ust

lttng-ust是跟踪系统,可以将探针编译到程序中,所有跟踪事件发生在用户态。因为不需要上下文切换,所以很快。

1.1.2 收集数据机制

为了理解收集和分析跟踪数据,理解从内核中取出数据到你的手上就非常重要。观察内核自带的几个部分。

1.1.2.1  ftrace

ftrace是比较难以直接使用。很多数据位于/sys/kernel/debug/tracing中。要跟ftrace 交互,可以读写其中的文件。

1.1.2.2  perf_events

使用系统调用perf_event_open从内核中获取数据。内核会将事件写到用户态内存中,可以被直接读取。

1.1.2.3  eBPF

编写eBPF编程(通常使用C语言,或者使用工具来产生该程序),然后让内核将probe附加到kprobe/uprobe/tracepoint/dtrace的探针上。那么程序会将数据写到eBPF缓存中,就得到的精确的数据。

eBFP在最新的内核版本上可用。

 

1.1.1 tracepoint

最后来看下tracepoint。

kernel中有trace_XX形式的函数,这些是kernel的tracepoint,定义在include/linux/tracepoint.h中。

trace_要起作用,需要调用register_trace_##name,给他关联一个probe函数,当调用trace_时就执行probe函数

 

内核中的每个tracepoint提供一个钩子来调用probe函数。一个tracepoint可以打开或关闭。打开时,probe函数关联到tracepoint;关闭时,probe函数不关联到tracepointtracepoint关闭时对kernel产生的影响很小,只是增加了极少的时间开销(一个分支条件判断),极小的空间开销(一条函数调用语句和几个数据结构)。当一个tracepoint打开时,用户提供的probe函数在每次这个tracepoint执行是都会被调用。

1.1.2 关于跟踪器选择

如果你当前或未来计算机运行内核大于4.9,那么就用eBPF,不过在老的版本中eBPF可能帮不到你,那么ftrace 就值得投入分析。

perf trace比较简单,损耗比较低可以直接上手。

使用kprobes也是一个不错的主意。

可以使用perf_events(又名perf)来做CPU的profiling,然后可用火焰图来描述。当然,perf还可以做很多事情,这里先其做CPU profiling。

性能大师Gregg有如下建议:

d88a19530519b8cd8e6a142ce8649a593fd289b1

            如果是性能工程师,就需要选择一个跟踪器如SystemTap,LTTng或sysdig。LTTng相比安全一点,SystemTap功能强大。sysdig有待增加kprobe或tracepoints。

            在工作中可以尽可能的使用perf和ftrace,这已被集成到了eBPF中,然后在使用SystemTap或LTTng来补充。

1.1.3 参考

http://netsplit.com/tracing-on-linux

http://www.brendangregg.com/blog/2015-07-08/choosing-a-linux-tracer.html

LTT: https://en.wikipedia.org/wiki/Linux_Trace_Toolkit

Linux tracing systems & how they fit together

 

目录
相关文章
|
7天前
|
Linux Shell 开发工具
|
2天前
|
Linux
|
7天前
|
网络协议 安全 Linux
|
4天前
|
存储 运维 Linux
|
4天前
|
存储 JSON Linux
|
6天前
|
存储 安全 Ubuntu
Linux dump命令教程
绍了Linuxdump命令的功能,包括用于备份整个文件系统的全备份和增量备份,以及如何在不同Linux发行版中安装和使用dump命令。
44 16
|
1天前
|
运维 监控 Linux
深入了解 Linux 命令:systemd-cgtop
`systemd-cgtop`, 实时监控 Linux cgroup 资源使用的关键工具。它动态显示 CPU、内存、IO 等数据,支持实时更新与多维展示。常用参数 `-n` 限定行数,`-p` 按属性排序。结合 `grep` 可监控特定进程,如 `systemd-cgtop | grep 1234`。排序与限制输出: `systemd-cgtop -p memory -n 5`。最佳实践包括熟悉 cgroup 架构,整合其他监控工具,定期检查以预防资源瓶颈。掌握 `systemd-cgtop` 助力性能优化与管理。
|
10天前
|
存储 安全 Linux
Linux命令sync详解
`sync`命令在Linux中用于将内存缓冲区的数据强制写入磁盘,保证数据持久性和一致性。它在关机、重启或重要文件操作前后使用,以防数据丢失。工作原理是强制将内存中的数据同步到磁盘,特点是阻塞式执行且通常无需参数。常见用法包括安全关机、数据备份和配置文件修改后确保更改生效。应注意,过度使用可能影响性能,应适时使用`fsck`检查文件系统一致性。
|
10天前
|
安全 数据管理 Shell
Linux命令su详解
`su`命令在Linux中用于切换用户身份,常用于权限管理。它允许用户无须注销当前会话就切换到另一个用户,尤其是root。`su`有多种选项,如`-`或`--login`加载目标用户环境,`-c`执行指定命令后返回。使用时需注意权限安全,建议用`sudo`以减少风险。通过限制`/etc/pam.d/su`可加强访问控制。`su`在系统维护和数据管理中扮演角色,但不直接处理数据。
|
10天前
|
存储 运维 安全
Linux命令stat:深入了解文件与文件系统状态
`stat`命令在Linux中用于显示文件和文件系统的详细状态,包括权限、大小、时间戳等。它通过读取inode获取信息,特点是显示全面、易用且支持多种参数,如`-c`自定义格式,`-f`查看文件系统状态,`-L`处理符号链接。例如,`stat example.txt`显示文件详情,`stat -c "%n 的大小是 %s 字节" example.txt`输出文件大小。理解`stat`有助于系统管理和故障排查。