注:本文重要信息使用 ***
屏蔽关键字。
最近国庆前,项目碰到一个很麻烦的问题,这个问题让我们加班到凌晨三点。
大概背景:
客户给了一些 C语言 写的 SDK 库,这些库打包成 .so 文件,然后我们使用 C# 调用这些库,其中有一个函数是回调函数,参数是结构体,结构体的成员是函数,将 C# 的函数赋值给委托,然后存储到这个委托中。
C# 调用 C 语言的函数,然后 C 语言执行到一些步骤后, C 语言函数调用 C# 的函数。这个在 ARM64 的机器下,是正常的,例如树莓派,华为的鲲鹏服务器等。由于突然改成使用 X64 的机器部署项目,没有测试就直接打包了(Docker)。
没有测试的原因有两个:
一是,众所周知 .NET Core 是跨平台的,既然在 ARM64 下已经测试过,那么应该没问题;
二是,项目是华为 edge IoT 项目,必须走华为云注册边缘设备,然后通过云服务下发应用(Docker)到机器才能成功运行(有许多系统自动创建的环境变量和设备连接华为 IoT 的凭证)。在机器上直接启动,是无法正常完成整个流程的。
三是,事情来得太突然,没有时间测试。
事实上,就是这么幸福,出事的时候就是加班福报~~~
大家记得,要部署上线、演示项目之前,一定要测试,测试再测试。
出现问题
应用在云上下发到设备后,启动一会儿就会挂了,然后修改 Docker 容器的启动脚本,进入容器后,手动执行命令启动程序。
最后发现:
dotnet xxx.dll ... ... Segmentation fault (core dumped)
出现这个 Segmentation fault (core dumped)
问题可能是指针地址越界、访问不存在的内存、内存受保护等,参考:http://ilinuxkernel.com/?p=1388
https://www.geeksforgeeks.org/core-dump-segmentation-fault-c-cpp/
由于这个问题是内核级别的,所以可以从系统日志中找到详细的日志信息。
查看 内核日志
容器和物理机都可以查看日志,但是容器里面的信息太少,主要从物理机找到信息的日志。
在物理机:
# 内核日志 cat /var/log/kern.log
# 系统日志 cat /var/log/syslog
刚开始时,大佬提示可能是内存已被回收,函数等没有使用静态来避免 gc 回收,可能在 C 回调之前,C# 中的那部分内存就以及回收了。
但是我修改代码,都改成静态,并且打印地址,还禁止 GC 回收,结果还是一样的。
查看引用类型在内存中的地址 :
public string getMemory(object o) { GCHandle h = GCHandle.Alloc(o, GCHandleType.WeakTrackResurrection); IntPtr addr = GCHandle.ToIntPtr(h); return "0x" + addr.ToString("X"); }
禁止 GC 回收:
GC.TryStartNoGCRegion(1); ... ... GC.EndNoGCRegion();
工具调试
经过提示,知道可以使用 GDB 调试 .so,于是马上 Google 查找资料,经过一段时间后,学会了使用这些工具查询异常堆栈信息。
GDB
GNU Debugger,也称为 gdb,是用于 UNIX系统调试 C 和 C ++ 程序的最流行的调试器。
If a core dump happened, then what statement or expression did the program crash on?
If an error occurs while executing a function, what line of the program contains the call to that function, and what are the parameters?
What are the values of program variables at a particular point during execution of the program?
What is the result of a particular expression in a program?
你可以使用在线的 C/C++ 编译器和 GDB ,在线体验一下:https://www.onlinegdb.com/
回到正题,要在 物理机或者 Docker 里面调试 .NET 的程序,要安装 GDB,其过程如下。
使用 apt install gdb
或者 yum install
就直接可以安装 gdb。
strace
另外 strace 这个工具也是很有用的,能够看到堆栈信息,使用 apt install strace
即可安装上。
binutils
objcopy、strip 这两个工具可以将 .so 库的符号信息整理处理。
objcopy 、strip安装:
apt install binutils
binutils 包含了 objcopy 和 strip。
调试、转储 core 文件
在使用 GDB 调试之前,我们了解一下 core dump 转储文件。
core dump 是包含进程的地址空间(存储)时的过程意外终止的文件。详细了解请点击:https://wiki.archlinux.org/index.php/Core_dump
相当于 .NET Core 的 dotnet-dump 工具生成的 快照文件。
为了生成转储文件,需要操作系统开启功能。
在物理机上执行:
ulimit -c unlimied
在 docker 里面执行:
ulimit -c unlimied
自定义将转储文件存放到目录
echo "/tmp/core-%e-%p-%t" > /proc/sys/kernel/core_pattern
然后进入容器,直接使用 dotnet 命令启动 .NET 程序,等待程序崩溃出现:
dotnet xxx.dll ... ... Segmentation fault (core dumped)
查看 tmp 目录,发现生成了 corefile-dotnet-{进程id}-{时间}
格式的文件。
使用命令进入 core dump
文件。
gdb -c corefile-dotnet-376-1602236839
执行 bt
命令。
发现有信息,但是可用信息太少了,而且名称都是 ??
,这样完全定位不到问题的位置。怎么办?
可以将 .so 文件一起包进来检查。
gdb -c corefile-dotnet-376-1602236839 /***/lib***.so
也可以使用多个 .so 一起加入
gdb -c corefile-dotnet-376-1602236839 /***/libAAA.so /***/libBBB.so
strace 的使用
Linux中的 strace 命令可以跟踪系统调用和信号。
如果系统没有这个命令,可以使用 apt install strace
或者 yum install strace
直接安装。
然后使用 strace 命令启动 .NET 程序。
strace dotnet /***/***.dll
启动后就可以看到程序的堆栈信息,还可以看到函数调用时的函数定义。
GDB 调试启动 .NET 程序
执行以下命令即可启动 .NET Core runtime:
gdb dotnet
在 gdb 中 执行 start
启动程序。但是因为仅启动 .NET Core runtime
是没用的,还要启动 .NET 程序。
所以,要启动的 .NET 程序,要将其路径作为参数传递给 dotnet。
start /***/***.dll
终端显示:
(gdb) start /***/***.dll Function "main" not defined. Make breakpoint pending on future shared library load? (y or [n]) y Temporary breakpoint 1 (main) pending.
这样有点麻烦,我们可以在启动时就定义好参数:
gdb --args dotnet /***/***.dll
另外,run 是立即执行,start 会出现询问信息,还可以进行断点调试。
待程序运行崩溃之后。
然后使用 bt
命令查看异常的堆栈信息。
生成结果如下:
.so 文件剥调试信息
在 linux中, strip 命令具体就是从特定文件中剥掉一些符号信息和调试信息,可以使用以下步骤的命令,将调试信息从 .so 文件中剥出来。
objcopy --only-keep-debug lib***.so lib***.so.debug
strip lib***.so -o lib***.so.release
objcopy --add-gnu-debuglink=lib***.so.debug lib***.so.release
cp lib***.so.release lib***.so
检查 .so 是否有符号信息
要调试 .NET Core 程序,需要 .pdb 符号文件;要调试 .so 文件,当然也要携带一下符号信息才能调试。
可以通过以下方式判断一个 .so 文件是否能够调试。
gdb xxx.so
如果不能读取到调试信息,则是:
Reading symbols from xxx.so...(no debugging symbols found)...done.
如果能够读取到调试信息,则是:
Reading symbols from xxx.so...done.
同时还可以使用 file xxx.so 命令,
xxx.so: ELF 64-bit LSB shared object, x86-64, version 1 (SYSV), dynamically linked, BuildID[sha1]=8007fbdc7941545fe4e0c61fa8472df1475887c3c1, stripped
如果最后是 stripped,则说明该文件的符号表信息和调试信息已被去除或不携带,不能使用 gdb 调试。
启动调试,目的是启动 .NET Core runtime 启动 .NET 程序,Linux 和 GDB 是无法直接启动 .NET 程序的。
这时就需要使用到 CLI 命令,使用 dotnet
命令启动一个 .NET 程序。
gdb --args dotnet /***/***.dll
或者
gdb dotnet ... # 进入GDB 后 set args /***/***.dll
查看调用栈信息
以下两个 gdb 命令都可以查看当前调用堆栈信息,如果程序在调用某个函数时崩溃退出,则执行这些命令,会看到程序终止时的函数调用堆栈。
bt bt full backtrace backtrace full
bt 是 backtrace 的缩写,两者完全一致。
查看当前代码运行位置,如果程序已经终止,则输出程序终止前最后执行的函数堆栈。
where
使用 bt
可以看到函数的调用关系,哪个函数调用哪个函数,在哪个函数里面出现了异常。
#0 0x00007fb2cd5f66dc in ?? () from /lib/lib***.so #1 0x00007fb2ccf29d46 in ***_receiveThread () from /lib/lib***BBB.so.1 #2 0x00007fb456ef1fa3 in start_thread (arg=<optimized out>) at pthread_create.c:486 #3 0x00007fb456afc4cf in clone () at ../sysdeps/unix/sysv/linux/x86_64/clone.S:95
bt full
可以看到更加详细的信息。
[Thread 0x7fb2b53b7700 (LWP 131) exited] Thread 31 "dotnet" received signal SIGSEGV, Segmentation fault. [Switching to Thread 0x7fb2affff700 (LWP 133)] 0x00007fb2cd5f66dc in ?? () from /lib/lib***.so (gdb) bt full #0 0x00007fb2cd5f66dc in ?? () from /lib/lib***.so No symbol table info available. #1 0x00007fb2ccf29d46 in ***_receiveThread () from /lib/lib***BBB.so.1 No symbol table info available. #2 0x00007fb456ef1fa3 in start_thread (arg=<optimized out>) at pthread_create.c:486 ret = <optimized out> pd = <optimized out> now = <optimized out> unwind_buf = {cancel_jmp_buf = {{jmp_buf = {140405433693952, 264024675094789190, 140405521476830, 140405521476831, 140405433693952, 140407320872320, -229860650334651322, -233434198962832314}, mask_was_saved = 0}}, priv = {pad = {0x0, 0x0, 0x0, 0x0}, data = {prev = 0x0, cleanup = 0x0, canceltype = 0}}} not_first_call = <optimized out> #3 0x00007fb456afc4cf in clone () at ../sysdeps/unix/sysv/linux/x86_64/clone.S:95 No locals.
可以看到,实际问题发生在另一个 .so 库上,所以我们还需要对这个 .so 制作调试信息。
lib***BBB.so.1
之前定位到,问题也许跟 in ?? () from /lib/lib***.so
有关,但是这里的信息为 ??
,能不能找到更多的信息呢?
我们先删除 /tmp 目录中的文件内容。
然后使用 strace dotnet /xxx/dll
或者 dotnet xxx.dll
重新执行一次,等待 /tmp 目录生成 core dump 转储文件。
发现还是结果还是一样~~~没办法了,算了~
查看所有线程的调用堆栈信息
gdb 的下 thread 命令可以查看所有线程调用堆栈的信息。
thread apply all bt
这里大家留意一下,pthread
,出现问题终止程序之前,都出现了 pthread
这个关键字。
然后查询了一下资料:https://man7.org/linux/man-pages/man7/pthreads.7.html
查询资料得知,linux 的 pthread 都是 kernel thread(一般情况下):https://www.zhihu.com/question/35128513
先停一下,我们来猜想一下,会不会是多线程导致的问题?我们把相关的记录拿出来看一下:
#1 0x00007fb2ccf29d46 in MQTTAsync_receiveThread () from /lib/lib***BBB.so.1 #2 0x00007fb456ef1fa3 in start_thread (arg=<optimized out>) at pthread_create.c:486
Thread 1 (Thread 0x7fa6a0228740 (LWP 991)): #0 futex_wait_cancelable (private=0, expected=0, futex_word=0x171dae0) at ../sysdeps/unix/sysv/linux/futex-internal.h:88 #1 __pthread_cond_wait_common (abstime=0x0, mutex=0x171da90, cond=0x171dab8) at pthread_cond_wait.c:502 #2 __pthread_cond_wait (cond=0x171dab8, mutex=0x171da90) at pthread_cond_wait.c:655 #3 0x00007fa69fa619d5 in CorUnix::CPalSynchronizationManager::ThreadNativeWait(CorUnix::_ThreadNativeWaitData*, unsigned int, CorUnix::ThreadWakeupReason*, unsigned int*) () from /usr/share/dotnet/shared/Microsoft.NETCore.App/3.1.1/libcoreclr.so #4 0x00007fa69fa615e4 in CorUnix::CPalSynchronizationManager::BlockThread(CorUnix::CPalThread*, unsigned int, bool, bool, CorUnix::ThreadWakeupReason*, unsigned int*) () from /usr/share/dotnet/shared/Microsoft.NETCore.App/3.1.1/libcoreclr.so #5 0x00007fa69fa65bff in CorUnix::InternalWaitForMultipleObjectsEx(CorUnix::CPalThread*, unsigned int, void* const*, int, unsigned int, int, int) ()
会不会是由于 CoreCLR 和 .so 库相关的 pthread 导致的?不过我不是 C 语言的专家,对 Linux 的 C 不了解,这时候需要大量恶补知识才行。
大胆猜一下,会不会是类似 https://stackoverflow.com/questions/19711861/segmentation-fault-when-using-threads-c 这样的错误?
还有这样的:https://stackoverflow.com/questions/8018272/pthread-segmentation-fault
会不会跟机器硬件有关?
为啥会这样?
能不能找到更多的信息?
我不熟悉 C 语言呀?怎么办?
解决了问题
难道使用 GDB 操作比较骚,就可以解决问题了?No。
眼看解决问题无果,进群问了 Jexus 的作者-宇内流云大佬,我将详细的报错信息给大佬看了,大佬给建议试试使用 InPtr。
于是我使用不安全代码,将函数参数
ST_MODULE_CBS* module_cbs, ST_DEVICE_CBS* device_cbs
改成
IntPtr module_cbs, IntPtr device_cbs
剩下就是将结构体转为 IntPtr 的问题了,IntPtr 文档亲参考 https://docs.microsoft.com/zh-cn/dotnet/api/system.intptr?view=netcore-3.1
然后使用结构体转换函数:
private static IntPtr StructToPtr(object obj) { var ptr = Marshal.AllocHGlobal(Marshal.SizeOf(obj)); Marshal.StructureToPtr(obj, ptr, false); return ptr; }
改成不安全代码调用 C 的函数:
unsafe { IntPtr a = StructToPtr(cbs); IntPtr b = StructToPtr(device_cbs); EdgeSDK.edge_set_callbacks(a, b); }
重新放上去测试,终于,正常了!!!
实践证明,要使用 C# 调用 C 语言的代码,或者回调,要多掌握 C# 中的不安全代码和 ref 等写法~~~
事实证明,当出现无法解决的问题时,不如紧紧抱住大佬的大腿比较好~~~
推一波 Jexus:
Jexus 是强劲、坚固、免费、易用的国产 WEB 服务器系统,可替代 Nginx 。Jexus 支持 Arm32/64、X86/X64、MIPS、龙芯等类型的 CPU,是一款Linux平台上的高性能WEB服务器和负载均衡网关服务器,以支持ASP.NET、ASP.NET CORE、PHP为特色,同时具备反向代理、入侵检测等重要功能。
可以这样说,Jexus是.NET、.NET CORE跨平台的最优秀的宿主服务器,如果我们认为它是Linux平台的IIS,这并不为过,因为,Jexus不但非常快,而且拥有IIS和其它Web服务器所不具备的高度的安全性。同时,Jexus Web Server 是完全由中国人自主开发的的国产软件,真正做到了“安全、可靠、可控”, 具备我国党政机关和重要企事业单位信息化建设所需要的关键品质。