Linux开发coredump文件分析实战分享

简介: Linux开发coredump文件分析实战分享

前言:

coredump 分析是嵌入式linux开发中经常使用的方法,我们也可以经常看到相关的使用教程,但是网上很少有一个多线程应用coredump文件的分析过程介绍,今天我来分享一下自己实际使用中一些案例,来给大家进行一下分享,受限于代码和篇幅。我此处只描述一些我认为比较有特色的问题,工作中遇到很多的coredump文件都可以用这些框架思维去解决。

作者:良知犹存

转载授权以及围观:欢迎关注微信公众号:羽林君

或者添加作者个人微信:become_me


情节介绍:

我在调试一个功能时候,产生了一些coredump文件 正好出现了不一样的程序报错的情况 ,正好借这个机会给大家分享一下。一般coredump文件产生的原因有空指针、数组越界、多线程多次释放、堆栈溢出等等。这里我就是按照自己遇到的情况,找了一些比较有代表性的给大家做一个简单的分享。

首先我们对应调试的话 使用gdb调试 先得熟悉一下gdb调试得各个命令,以下两篇文章是我之前进行gdb工作的描述,

一文入门Linux下gdb调试(一)

一文入门Linux下gdb调试(二)

所以本文就不多做赘述,只进行对应coredump文件分析时候,我们需要进行查看分析的实战。

首先我们用带有debug信息的可执行文件进行调试

gdb executable_file coredump_file

示例一:指针初始化失败

进入之后第一件事情就是 使用 bt命令查看堆栈信息4edc953e2c684bbe819ffa954c899c08.png

在这个coredump文件中,我们很容易看到一个函数的传入地址和类成员函数有明显的数据区别。如此明显的部分我们就可以直接下定论之后,进行细节查看。

f  n

通过帧编号来选择帧,帧编号可以通过 bt 命令来查看。

我们查看对应的第 17帧的堆栈信息4edc953e2c684bbe819ffa954c899c08.png

通过上面截图我们可以看到在第17帧中 this这个类实体化的地址出现了问题。

为了对比我们又查看了对应20帧的堆栈信息以及对应帧的详细信息4edc953e2c684bbe819ffa954c899c08.png

然后我们需要确认该指针是什么什么出现问题的,进行第20帧数据的详细查看。其中我们用p命令查看该类下面的对应的和17帧this的关系,确认gyro_在这个函数执行的时候,地址是否正确。4edc953e2c684bbe819ffa954c899c08.png4edc953e2c684bbe819ffa954c899c08.png

从上面来看在此处函数执行的时候,对应的gyro的地址还没有变成错误的0x1388。

从这里们基本可以确认到,函数从 第20帧对应位置执行之后再到17帧的函数的时候,执行函数的地址发生了改变      然后开始进入校对代码的环节。

这个时候校对不是看代码执行的具体情况,因为发生问题的部分已经是被修改了指针地址。所以我们需要从全局去看这个实体类被进行实体化和释放操作的地方。

最终找到了一个出现线程调用先后顺序导致变量没有准备好,出现的死机情况。

示例二:另一个指针问题

进入之后第一件事情 使用 bt命令查看堆栈信息

这个coredump文件在使用bt命令之后发现 此处的堆栈信息看上去都很正常,无法显示出代码在哪里了出现了问题。4edc953e2c684bbe819ffa954c899c08.png

这个时候我们就要考虑多线程时候,堆栈信息不一定直接捕获到对应线程,我们需要打开所有线程里面的堆栈信息。

thread apply all bt

除了bt大家也可以打印自己需要的其他信息

thread apply all command //所有线程都执行命令
info threads 显示当前可调试的所有线程
thread ID 切换当前调试的线程为指定ID的线程

4edc953e2c684bbe819ffa954c899c08.png对应打印出所有线程的堆栈信息之后,我们就进行一点点查看,但是如果你的代码定义了 信号处理函数,例如我使用了 handle_exit进行处理,然后我就在所有线程堆栈信息里面去搜索对应最后面信号处理的函数,再往回查看程序执行的过程。

此时我们发现led一个实体化类的的初始地址出现了问题,最后校验代码,发现了这个bug。

或者我们也可以进行 命令

thread 29 切换gdb调试线程

再用bt命令一点点查看信息

示例三:内存溢出

进入之后第一件事情 使用 bt命令查看堆栈信息

此时发现当前堆栈信息也无法进行定位到问题。4edc953e2c684bbe819ffa954c899c08.png

然后我们使用了thread apply all bt  但是第一遍我们没有看到对应的hand_exit函数

然后我们使用 info locals查看一下保存的本地变量的信息4edc953e2c684bbe819ffa954c899c08.pnginfo f addr打印通过addr指定帧的信息。info args打印函数变量的值。

info locals 打印本地变量的信息。

info catch打印出当前的函数中的异常处理信息。

本地变量也没有一些明显表示出指针错误、数据越界的一些显示。

所以 我们又使用 p 指令打印帧信息里面保存的变量信息。4edc953e2c684bbe819ffa954c899c08.png

通过打印这些我们认为出错率比较高的变量信息,可以辅助我们进行判断。不过本次打印也没办法确认到问题位置。

然后我们重新看全部线程的堆栈信息。最终看到了一个异常的参数,这个值很大,有些异常。

紧接着我们进行查看对应的源码位置,因为是C++的库,所以我们直接看编译位置的代码。4edc953e2c684bbe819ffa954c899c08.png

先看 第7 帧 信息显示的stl_algobase.h:465

打开对应的代码位置之后发现**__n**参数 是进行分配空间的数量的参数。

4edc953e2c684bbe819ffa954c899c08.png

再次查看执行前后的 stl_vector.h:3434edc953e2c684bbe819ffa954c899c08.png

而现在传入的__n大约是大于亿的单位值,而代码实际工作的位置是不需要这么大的空间分配的。所以确认是此处有问题,对照代码执行的位置以及对应变量的全局使用情况,最后基本定性为队列在多线程使用中,锁没有使用好,导致多个线程在极端情况下,输出和输入操作会对同一个区域进行,导致了此次代码死机。


结语

这就是我分享的项目中分析coredump文件的情况,如果大家有更好的想法和需求,也欢迎大家加我好友交流分享哈。

此外除了我文中使用的这些命令,大家也可以辅助gbd调试的更多命令来检查我们coredump文件。例如查看汇编代码等等。网上关于gdb调试命令的文章还是有很多,大家也可以辅助看其他文章命令使用。


作者:良知犹存,白天努力工作,晚上原创公号号主。公众号内容除了技术还有些人生感悟,一个认真输出内容的职场老司机,也是一个技术之外丰富生活的人,摄影、音乐 and 篮球。关注我,与我一起同行。

相关实践学习
阿里云图数据库GDB入门与应用
图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。它支持Apache TinkerPop Gremlin查询语言,可以帮您快速构建基于高度连接的数据集的应用程序。GDB非常适合社交网络、欺诈检测、推荐引擎、实时图谱、网络/IT运营这类高度互连数据集的场景。 GDB由阿里云自主研发,具备如下优势: 标准图查询语言:支持属性图,高度兼容Gremlin图查询语言。 高度优化的自研引擎:高度优化的自研图计算层和存储层,云盘多副本保障数据超高可靠,支持ACID事务。 服务高可用:支持高可用实例,节点故障迅速转移,保障业务连续性。 易运维:提供备份恢复、自动升级、监控告警、故障切换等丰富的运维功能,大幅降低运维成本。 产品主页:https://www.aliyun.com/product/gdb
目录
相关文章
|
11天前
|
安全 Linux
Linux通配符及其在文件搜索和管理中的应用
Linux通配符及其在文件搜索和管理中的应用
|
10天前
|
存储 网络协议 Ubuntu
【Linux开发实战指南】基于UDP协议的即时聊天室:快速构建登陆、聊天与退出功能
UDP 是一种无连接的、不可靠的传输层协议,位于IP协议之上。它提供了最基本的数据传输服务,不保证数据包的顺序、可靠到达或无重复。与TCP(传输控制协议)相比,UDP具有较低的传输延迟,因为省去了建立连接和确认接收等过程,适用于对实时性要求较高、但能容忍一定数据丢失的场景,如在线视频、语音通话、DNS查询等。 链表 链表是一种动态数据结构,用于存储一系列元素(节点),每个节点包含数据字段和指向下一个节点的引用(指针)。链表分为单向链表、双向链表和循环链表等类型。与数组相比,链表在插入和删除操作上更为高效,因为它不需要移动元素,只需修改节点间的指针即可。但访问链表中的元素不如数组直接,通常需要从
|
10天前
|
Linux
Linux部署04-ls命令的参数和选项,主体,参数,选项,ls / 查看根目录下的文件夹,-a的意思是列出全部选项 ls -a home全部文件,.代表着隐藏的文件夹,-l 选项,以列表竖向的形式展
Linux部署04-ls命令的参数和选项,主体,参数,选项,ls / 查看根目录下的文件夹,-a的意思是列出全部选项 ls -a home全部文件,.代表着隐藏的文件夹,-l 选项,以列表竖向的形式展
|
2天前
|
Web App开发 缓存 Linux
FFmpeg开发笔记(三十六)Linux环境安装SRS实现视频直播推流
《FFmpeg开发实战》书中第10章提及轻量级流媒体服务器MediaMTX,适合测试RTSP/RTMP协议,但不适合生产环境。推荐使用SRS或ZLMediaKit,其中SRS是国产开源实时视频服务器,支持多种流媒体协议。本文简述在华为欧拉系统上编译安装SRS和FFmpeg的步骤,包括安装依赖、下载源码、配置、编译以及启动SRS服务。此外,还展示了如何通过FFmpeg进行RTMP推流,并使用VLC播放器测试拉流。更多FFmpeg开发内容可参考相关书籍。
11 2
FFmpeg开发笔记(三十六)Linux环境安装SRS实现视频直播推流
|
9天前
|
Linux
FFmpeg开发笔记(三十四)Linux环境给FFmpeg集成libsrt和librist
《FFmpeg开发实战》书中介绍了直播的RTSP和RTMP协议,以及新协议SRT和RIST。SRT是安全可靠传输协议,RIST是可靠的互联网流传输协议,两者于2017年发布。腾讯视频云采用SRT改善推流卡顿。以下是Linux环境下为FFmpeg集成libsrt和librist的步骤:下载安装源码,配置、编译和安装。要启用这些库,需重新配置FFmpeg,添加相关选项,然后编译和安装。成功后,通过`ffmpeg -version`检查版本信息以确认启用SRT和RIST支持。详细过程可参考书中相应章节。
16 1
FFmpeg开发笔记(三十四)Linux环境给FFmpeg集成libsrt和librist
|
4天前
|
监控 数据挖掘 Linux
探索Linux中的`sort`命令:数据处理与分析的得力助手
`sort`命令是Linux下文本数据排序利器,用于按字典、数字顺序等对行排序。关键参数有:-n(数字排序),-r(逆序),-u(去重),-k(指定字段),-t(字段分隔符)和-o(输出到文件)。在处理大文件时注意内存使用,确保字符编码一致,灵活运用管道和重定向。通过熟练使用`sort`,能提升数据分析效率。
|
2天前
|
监控 NoSQL Linux
linux常见的coredump原因都有哪些?
Core dump通常发生在程序遇到严重错误时,操作系统会生成core文件来记录程序崩溃时的内存、寄存器状态、栈信息等。
9 3
|
3天前
|
Linux 数据处理 C语言
【Linux】基础IO----系统文件IO & 文件描述符fd & 重定向(下)
【Linux】基础IO----系统文件IO & 文件描述符fd & 重定向(下)
18 0
|
10天前
|
小程序 Linux
【编程小实验】利用Linux fork()与文件I/O:父进程与子进程协同实现高效cp命令(前半文件与后半文件并行复制)
这个小程序是在文件IO的基础上去结合父子进程的一个使用,利用父子进程相互独立的特点实现对数据不同的操作
|
10天前
|
SQL 自然语言处理 网络协议
【Linux开发实战指南】基于TCP、进程数据结构与SQL数据库:构建在线云词典系统(含注册、登录、查询、历史记录管理功能及源码分享)
TCP(Transmission Control Protocol)连接是互联网上最常用的一种面向连接、可靠的、基于字节流的传输层通信协议。建立TCP连接需要经过著名的“三次握手”过程: 1. SYN(同步序列编号):客户端发送一个SYN包给服务器,并进入SYN_SEND状态,等待服务器确认。 2. SYN-ACK:服务器收到SYN包后,回应一个SYN-ACK(SYN+ACKnowledgment)包,告诉客户端其接收到了请求,并同意建立连接,此时服务器进入SYN_RECV状态。 3. ACK(确认字符):客户端收到服务器的SYN-ACK包后,发送一个ACK包给服务器,确认收到了服务器的确