内核调试学习笔记(一)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 内核调试学习笔记(一)

对于这个系列真的是千呼万唤始出来,苦于自己在内核态的定位手段极其的单一。于是来学习一些内核的定位方法。

这个系列会开始不断的学习,我觉得调试手段和基础知识都很重要。

磨刀不误砍柴工。


1、内核调试配置选项

为什么你编译的内核打印的信息是如此的少,以及你想获取很多的调试信息,又无从获取,明明加了打印却显示不出来?

内核拥有多项用于调试的功能,但是这些功能会造成额外的输出并导致性能下降,因此,内核通常都是禁止掉调试功能。

内核调试相关的配置项主要集中在内核配置菜单**"Kernel hacking"中,**在使用下面的调试手段时,先确保内核相关的调试

配置项已经开启。

  • 使用在linux 根目录执行make menuconfig命令进入配置界面;
  • 向下找到kernel hacking 选项并进入;
  • 然后找到“compile-time checks and compiler options”选项并进入;
  • 然后向下找到“compile the kernel with debug info”通过空格键选择,然后保存退出。
  • 然后make 编译

2、BUG()和BUG_ON()

#ifndef HAVE_ARCH_BUG
#define BUG() do { \
  printk("BUG: failure at %s:%d/%s()!\n", __FILE__, __LINE__, __func__); \
  panic("BUG!"); \
} while (0)
#endif
#ifndef HAVE_ARCH_BUG_ON
#define BUG_ON(condition) do { if (unlikely(condition)) BUG(); } while (0)
#endif

当调用BUG()时,内核通过panic()引发OOPS,导致函数调用栈的回溯和打印错误消息,可以把这两个调用当做断言使用,如BUG_ON(bad_thing);

3、dump_strack()函数

if(!debug_check)
{
  printk(KERN_DEBUG "provide some information···\n");
  dump_strack();
}

4、printk()函数

内核是很庞大的,其中的打印信息也很多,太多的打印信息会拖慢内核的启动速度,也不利于我们查找有用的打印信息。

于是内核有了打印优先级的机制,在用printk()打印信息时需要设置优先级,如果不设置优先级也会有一个默认的优先级。

只有打印优先级高于控制台输出的优先级时打印信息才会被打印出来,于是我们可以通过修改控制台输出的优先级来控制打印信息的多少,根据想要查看的打印信息的优先级来修改控制台输出的优先级,这样可以确保能打印出我们想要的打印信息,又尽可能少的打印不需要的信息。

//内核打印等级
#define KERN_EMERG    "<0>" /* system is unusable 最高级别,一般只用来打印崩溃信息*/
#define KERN_ALERT    "<1>" /* action must be taken immediately  需要立即处理的信息*/
#define KERN_CRIT   "<2>" /* critical conditions  关键信息:严重的硬件和软件错误 */
#define KERN_ERR    "<3>" /* error conditions    用来显示硬件错误 */
#define KERN_WARNING  "<4>" /* warning conditions 显示不会造成严重错误的警告信息   */
#define KERN_NOTICE   "<5>" /* normal but significant condition  显示需要引起注意的信息*/
#define KERN_INFO   "<6>" /* informational   显示一般信息,例如驱动所发现的硬件列表    */
#define KERN_DEBUG    "<7>" /* debug-level messages   用来显示调试信息  */
/* printk's without a loglevel use this.. */
#define DEFAULT_MESSAGE_LOGLEVEL 4 /* KERN_WARNING */
/* We show everything that is MORE important than this.. */
#define MINIMUM_CONSOLE_LOGLEVEL 1 /* Minimum loglevel we let people use */
#define DEFAULT_CONSOLE_LOGLEVEL 7 /* anything MORE serious than KERN_DEBUG */
int console_printk[4] = {
  DEFAULT_CONSOLE_LOGLEVEL, /* console_loglevel */
  DEFAULT_MESSAGE_LOGLEVEL, /* default_message_loglevel */
  MINIMUM_CONSOLE_LOGLEVEL, /* minimum_console_loglevel */
  DEFAULT_CONSOLE_LOGLEVEL, /* default_console_loglevel */
};
console_printk数组在kernel/printk.c里定义,其中4个元素是默认的优先级。
(1)DEFAULT_CONSOLE_LOGLEVEL:控制台日志级别,优先级高于该值的消息将被打印至控制台;
(2)DEFAULT_MESSAGE_LOGLEVEL:默认的消息日志级别,将用该优先级来打印没有指定优先级的消息。
(3)MINIMUM_CONSOLE_LOGLEVEL:控制台日志级别可被设置的最小值(最高优先级)。
(4)DEFAULT_CONSOLE_LOGLEVEL:默认的控制台日志级别,控制台日志级别的缺省值。

将DEFAULT_CONSOLE_LOGLEVEL修改为你想要的等级,一般设置成你想要打印出的消息的等级,这样可以确保打印出你需要的信息,又尽可能少的打印无用信息。

动态修改控制台输出等级

查看当前的控制台输出等级

~ # cat /proc/sys/kernel/printk 
7                            4                     1                  7
当前的日志级别 未明确指定日志级别的默认消息级别  最小允许的日志级别 引导时的默认日志级别

修改当前的输出等级

echo 4 > /proc/sys/kernel/printk

上面就是通过echo命令往printk文件写数据,将当前的日志级别改为4;

频繁打印带来的问题

(1)慢速控制台设备输出过多的消息导致系统变慢,因为控制台会频繁的占用CPU;

(2)当程序出错后会不停的打印出错信息。虽然我们设置的输出等级,但是一般都会运行printk输出出错打印,程序正常运行时不会有打印,但是当程序出错后,程序有可能会不停的打印出错信息,这样也会造成输出巨量消息;

printk_ratelimit()通过跟踪发送到控制台的消息数量,如果输出的速度超过一个阈值则返回零,从而避免发送重复消息;

if(printk_ratelimit())
  { 
    printk(KERN_NOTICE "The printer is still on fire\n");
  }

(1)printk_ratelimit文件:在重新打开消息之前应该等待的秒数

(2)printk_ratelimit_burst文件:在进行速度限制之前可以接受的消息数;

~ # cat /proc/sys/kernel/printk_ratelimit
5
~ # 
~ # 
~ # cat /proc/sys/kernel/printk_ratelimit_burst 
10

5、dmesg命令

在终端输入dmesg命令会打印出内核从启动开始的输出打印,根据输出信息定位问题(all)

6、使用strace跟踪系统调用

  • (1)strace命令常用来跟踪进程执行时的系统调用(参数、返回值、执行消耗等)和接收的信号
  • (2)输出参数含义:每一行都是一条系统调用,等号左边是系统调用的函数名及其参数右边是该调用的返回值

strace常用参数

-c 统计每个系统调用的执行时间、运行次数、出错的次数等;
-d 输出strace关于标准错误的调试信息;
-f 跟踪由fork调用产生的子进程;
-t 在输出中的每一行前加上时间信息;
-tt 在输出的每一行前加上微秒级时间信息;
-T 显示每个调用消耗的时间;
-o filename 将strace的输出写入文件filename;
-p pid 跟踪指定的pid进程
-v 输出所有的系统调用信息,一些关于环境变量、状态的信息默认不输出

7、使用OOPS调试系统故障

Linux内核在发生kernel panic时会打印出Oops信息,把目前的寄存器状态、堆栈内容、以及完整的Call trace都show给我们看,这样就可以帮助我们定位错误;

8、使用gdb

  • (1)使用gdb调试内核就是把内核当做一个应用程序,首先要掌握gdb命令、了解目标平台的汇编代码,具备对源代码和优化后的汇编代码进行匹配的能力;
  • (2)为了让gdb使用内核的符号信息,必须打开CONFIG_DEBUG_INFO编译选项
  • (3)内核需要未压缩的内核镜像文件,还需要在命令行提供core文件的命令。例如:gdb /usr/src/linux/vmlinux /proc/kcore

9、使用kdb、Linux跟踪工具包、动态探测

嘿嘿这里很需要哦。从ftrace、kdb、ebpf开始,一个跟踪的需要的手段有好多需要学习的。

感谢前辈的优秀blog!!!


相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
目录
相关文章
本地内核调试神器 —— livekd 使用总结
本地内核调试神器 —— livekd 使用总结
|
NoSQL Linux C语言
Linux内核调试方法总结【转】
转自:http://my.oschina.net/fgq611/blog/113249 内核开发比用户空间开发更难的一个因素就是内核调试艰难。内核错误往往会导致系统宕机,很难保留出错时的现场。调试内核的关键在于你的对内核的深刻理解。
1891 0
|
2月前
|
Shell Linux
Linux shell编程学习笔记82:w命令——一览无余
Linux shell编程学习笔记82:w命令——一览无余
|
6月前
|
NoSQL Linux
Linux下的系统编程——gdb调试工具(三)
Linux下的系统编程——gdb调试工具(三)
66 0
Linux下的系统编程——gdb调试工具(三)
|
6月前
|
NoSQL Linux
Linux系统中调试GDB调试方法入门分享
Linux系统中调试GDB调试方法入门分享
99 0
|
Linux API
linux系统编程 获取系统信息
linux系统编程 获取系统信息
95 0
|
Linux 测试技术 API
Linux内核调试技术(一)kprobe使用与实现
Linux内核调试技术(一)kprobe使用与实现
|
NoSQL Linux
Linux系统调试篇——GDB调试入门
Linux系统调试篇——GDB调试入门
|
安全 Linux Go
本地内核调试环境搭建,就这么简单!
本地内核调试环境搭建,就这么简单!
一个Linux驱动工程师必知的内核配置知识
一个Linux驱动工程师必知的内核配置知识