Linux 文件句柄的这些技术内幕,只有 1% 的人知道

简介: Linux内核暴露出来的指标对系统监控很有意义,认识这些指标背后隐含的对象以及增长原因,能够帮助我们在异常时找出问题所在。

image

1. 缘起

某个月朗风清的晚上,正在公司对面的深大操场跑步,突然接到同事发来的消息,他发现某机器上的文件句柄使用量有十一万多个(下面输出中的第一个字段)

image


但是通过运维常用的lsof命令算了下,相差甚远。

image


似乎很不科学,这里看到的数据不到1万个,剩下10多万的文件句柄哪里去了呢(系统完整性检查已排除黑客入侵可能性)

2. 文件描述符和文件句柄的故事

先看一张著名的图吧

image


这里我们先区分好两个概念:文件描述符和文件句柄

简单来说,每个进程都有一个打开的文件表(fdtable)。表中的每一项是struct file类型,包含了打开文件的一些属性比如偏移量,读写访问模式等,这是真正意义上的文件句柄。

文件描述符是一个整数。代表fdtable中的索引位置(下标),指向具体的struct file(文件句柄)。

3. file-nr 文件里的值是文件描述符还是文件句柄?

顺着内核代码找一下:

image

可以看出file-nr指标是由proc_nr_files函数处理,该函数最终其实是读取了nr_files全局变量

image

找下什么地方增加了这个值:

可以看到fs/file_table.c文件中第127行的get_empty_filp函数会增加这个值。那么这个函数是干什么的呢?

内核里面有注释“Find an unused file structure and return a pointer to it.”, 其实就是用来分配struct file的。

到此,相信你已经知道答案了。file-nr文件里面的第一个字段代表的是内核分配的struct file的个数,也就是文件句柄个数,而不是文件描述符。

4. 哪些地方会分配文件句柄?

知道文件句柄最终是通过get_empty_filp函数从filp cache中分配的之后,我们顺着函数调用链路简单梳理下,就能知道有哪些地方会分配文件句柄了:

open系统调用打开文件(path_openat内核函数)

打开一个目录(dentry_open函数)

共享内存attach (do_shmat函数)

socket套接字(sock_alloc_file函数)

管道(create_pipe_files函数)

epoll/inotify/signalfd等功能用到的匿名inode文件系统(anon_inode_getfile函数)

实际上,lsof的手册页也有部分描述:

image

5. 找出元凶

有了上面的知识,我们除了看lsof的输出之外,再通过ipcs命令看一下共享内存的情况:

image

居然有部分共享内存段被attach了9多万次,数量级对得上,毫无疑问就是它了!

可能有些同学会有疑问,同一个进程居然可以重复attach同一段共享内存那么次?答案是可以的,内核无限制。显然,这样做逻辑上是有问题的,对共享内存的正常操作,要么是attach后一直用,要么是attach用完之后就detach。

6. 排除了共享内存等的情况,我看到的file-nr值和lsof输出还是有很大差异?

上面的案例算是比较典型,然而,即便在一个比较“正常”的系统上,我们可以看到file-nr和lsof的输出还是有不小的差距的:

image

这里本质上是因为文件描述符和文件句柄是两个不同的东西:lsof在用户空间,主要还是从文件描述符的角度来看文件句柄。

我们来做一个实验:只打开一次文件,然后复制1000次文件描述符。测试代码如下:

image

image

我们启动dupfd进程打开了一次/dev/zero文件,复制了1000次文件描述符。file-nr中的文件句柄数只是个位数的变化,而lsof看到的结果涨了1000多。

如果我们把前面的代码换成open 1000次, 就可以看到file-nr和lsof的输出几乎都涨了1000。

lsof看到的是文件描述符不能代表文件句柄,还有一个有趣的例子。下面的mmap程序运行后。 文件句柄增加了将近1000, 而lsof看到的文件描述符才个位数:

image

我们来看一下测试的mmap程序代码:

image

代码中,我们循环1000次打开/dev/zero文件,之后mmap映射到进程地址空间,然后把这些打开的文件描述符都关掉。很显然,打开的描述符都被close掉了,不会有什么变化。 那为什么文件句柄数还是增加了1000个左右呢?

原来,linux内核中很多对象都是有引用计数的。 虽然文件句柄是由open先打开的,但mmap之后,引用计数被加1,尽管我们接着把文件描述符close掉了,但是底层指向的struct file由于引用数大于0,不会被回收。

通过上面两个例子,你应该知道lsof的输出和实际的文件句柄数有差距的原因了。

7. 如何找出内存映射间接占用的文件句柄?

实际上,不管是mmap映射文件,还是通过shmat连共享内存,最终都会在进程地址空间中分配一片内存区。 通过pmap命令可以看出一些端倪:

image

回到故事的开头。那个使用了11万文件句柄的机器,在内核slab cache中,除了文件句柄(struct file对象)对应的filp cache对象多之外,对应的内存区对象vm_area_struct占用也是超多的.
下面是slabtop的部分输出:

image

8. 还有其他lsof漏掉的情况吗?

当然有了,lsof是通过查看进程的内存映射和文件描述符表来枚举打开文件的, 如果是一个多线程的服务。主线程先退出了,子线程还活着, 那么进程的fd表看起来就是空的。

image

9. 总结
Linux内核暴露出来的指标对系统监控很有意义,认识这些指标背后隐含的对象以及增长原因,能够帮助我们在异常时找出问题所在。

原文发布时间为:2018-07-24
本文作者:高效运维
本文来自云栖社区合作伙伴“高效运维”,了解相关信息可以关注“高效运维

相关文章
|
5月前
|
Ubuntu Linux vr&ar
IM跨平台技术学习(十二):万字长文详解QQ Linux端实时音视频背后的跨平台实践
本文详细记录了新版QQ音视频通话在 Linux 平台适配开发过程中的技术方案与实现细节,希望能帮助大家理解在 Linux 平台从 0 到 1 实现音视频通话能力的过程。
172 2
|
2月前
|
Linux 虚拟化
Vmware 傻瓜式安装(不可不知道的Linux基础知识和技术 01)
本文介绍了VMware虚拟机的下载与安装步骤。首先,通过提供的网盘链接下载VMware安装包。接着,详细描述了安装流程,包括接受协议、选择安装路径(建议避免系统C盘)、取消更新选项等。最后,输入许可证密钥完成安装,并展示了打开虚拟机后的主界面。整个过程简单易懂,适合新手操作。
145 1
|
3月前
|
安全 Linux Android开发
Linux CFI (Control-flow integrity)技术相关资料汇总
Linux CFI (Control-flow integrity)技术相关资料汇总
|
4月前
|
存储 监控 Linux
在Linux中,如何进行虚拟化技术的应用?
在Linux中,如何进行虚拟化技术的应用?
|
4月前
|
安全 Linux 图形学
Linux平台Unity下RTMP|RTSP低延迟播放器技术实现
本文介绍了在国产操作系统及Linux平台上,利用Unity实现RTMP/RTSP直播播放的方法。通过设置原生播放模块的回调函数,可将解码后的YUV数据传递给Unity进行渲染,实现低延迟播放。此外,还提供了播放器启动、参数配置及停止的相关代码示例,并概述了如何在Unity中更新纹理以显示视频帧。随着国产操作系统的发展,此类跨平台直播解决方案的需求日益增长,为开发者提供了灵活高效的开发方式。
|
4月前
|
Linux 数据安全/隐私保护 Perl
解锁Linux高手秘籍:文件操作+命令解析大揭秘,面试场上让你光芒万丈,技术实力惊艳四座!
【8月更文挑战第5天】Linux作为服务器与嵌入式系统的基石,其文件管理和命令行操作是技术人员必备技能。本文从文件操作和基础命令两大方面,深入浅出地解析Linux核心要义,助你在面试中脱颖而出。首先探索文件系统的树状结构及操作,包括使用`ls -la`浏览文件详情、`touch`创建文件、`rm -r`慎删目录、`cp`与`mv`复制移动文件、以及利用`find`搜索文件。接着掌握命令行技巧,如用`cat`、`more`和`less`查看文件内容;借助`grep`、`sed`与`awk`处理文本;运用`ps`、`top`和`kill`管理进程;并通过`chmod`和`chown`管理文件权限。
79 8
|
4月前
|
监控 Linux 数据安全/隐私保护
Linux大神养成记:掌握这些逆天命令与快捷方式,面试秒变MVP,让你的技术实力燃爆全场!
【8月更文挑战第5天】Linux作为开源领域的核心,熟悉其基本命令对系统管理员和技术人员至关重要。本文精选了面试中常考的Linux命令,覆盖文件管理、文本处理、进程监控及权限调整等关键领域,并介绍了提高效率的快捷方式。通过掌握如`ls -l`、`grep "error"`、`top`、`chmod 755`等实用命令,以及Tab自动补全、历史命令浏览等功能,不仅能显著提升日常工作效能,还能在求职面试时展现出扎实的技术功底。
66 4
|
4月前
|
Linux 调度 Docker
Linux中的cgroup技术
【8月更文挑战第2天】cgroup (control group) 是 Linux 内核提供的资源管理机制,用于控制进程资源使用。它包含多个子系统,如 CPU、cpuacct、cpuset、memory、blkio、devices、net_cls 和 freezer,分别用于限制 CPU 使用率、统计 CPU 使用、分配 CPU 或内存节点、限制内存使用、限制块设备 I/O、控制设备访问、标记网络数据包和挂起或恢复进程。
|
4月前
|
网络协议 Linux 应用服务中间件
Linux 中Namespace技术
【8月更文挑战第1天】Linux 内核里面实现了以下几种不同类型的 namespace。
|
4月前
|
存储 分布式计算 负载均衡
在Linux中,什么是集群,并且列出常见的集群技术。
在Linux中,什么是集群,并且列出常见的集群技术。