一,这个问题和systemd-journald有关,故我们先简单了解下:
过去只有 rsyslogd 的年代中,由于 rsyslogd 必须要开机完成并且执行了 rsyslogd 这个 daemon 之后,登录文件才会开始记录。所以,核心还得要自己产生一个 klogd 的服务, 才能将系统在开机过程、启动服务的过程中的信息记录下来,然后等 rsyslogd 启动后才传送给它来处理。
现在有了 systemd 之后,systemd 使用systemd-journald统一管理所有 Unit 的启动日志。由于systemd是kernel唤醒的,然后又是第一个执行的软件,它可以主动调用 systemd-journald 来协助记载登录信息。因此在开机过程中的所有信息,包括启动服务与服务若启动失败的情况等等,都可以直接被记录到 systemd-journald 里头去!
不过 systemd-journald 由于是使用于内存的登录文件记录方式,因此重新开机过后,开机前的登录文件信息当然就不会被记载了。 为此,我们还是建议启动 rsyslogd 来协助分类记录!也就是说, systemd-journald 用来管理与查询这次开机后的登录信息,而 rsyslogd 可以用来记录以前及现在的所以数据到磁盘文件中,方便未来进行查询!
二,问题场景:
一台centos7系统有load高的报警,故登录上去查看,发现系统很卡,系统磁盘io吃的比较多。之后,发现很多systemctl status的进程,并且这种进程占用系统io很多。
问题分析定位:
1,centos7的bug
2,systemctl的问题
三,解决过程:
1,centos7已经用了很长时间,目前处于稳定,并且翻看centos7的bug list未发现有类似异常。故排除了系统bug。
2,开始查找systemctl的问题,果不其然发现是systemd-journald的问题。
1)strace命令查看问题,发现是读取systemd-journald日志比较慢
# strace -s 1024 systemctl status nginx
2)查看status输出:
# systemctl status nginx
● nginx.service - nginx - high performance web server
Loaded: loaded (/usr/lib/systemd/system/nginx.service; disabled; vendor preset: disabled)
Active: active (running) since 一 2018-01-08 18:25:37 CST; 2h 20min ago
Docs: http://nginx.org/en/docs/
Main PID: 22403 (nginx)
CGroup: /system.slice/nginx.service
├─22403 nginx: master process /usr/sbin/nginx -c /etc/nginx/nginx.conf
├─22404 nginx: worker process
├─22405 nginx: worker process
├─22408 nginx: worker process
1月 08 18:25:37 test systemd[1]: Starting nginx - high performance web server...
1月 08 18:25:37 test nginx[22398]: nginx: the configuration file /etc/nginx/nginx.conf syntax is ok
1月 08 18:25:37 test nginx[22398]: nginx: configuration file /etc/nginx/nginx.conf test is successful
1月 08 18:25:37 test systemd[1]: Started nginx - high performance web server.
可以看到systemctl有的输出有nginx启动时候相关的信息。而这些输出是从systemd-journald中读取的。
3)systemd-journald的日志默认是存储在/run/log/journal目录,发现这个目录已经有4G了。查看网上相关资料,发现也有其它人遇见过类似的问题。可以通过修改systemd-journald的配置来解决问题:
# vim /etc/systemd/journald.conf
SystemMaxUse=100M
RuntimeMaxUse=100M
###
SystemMaxUse= 与 RuntimeMaxUse= 限制全部日志文件加在一起最多可以占用多少空间。而SystemMaxUse= 与 RuntimeMaxUse= 的默认值是10%空间与4G空间两者中的较小者,故把这两个配置调小了。
重启systemd-journald:
# systemctl restart systemd-journald
4)操作完成之后发现系统load慢慢降了下来,systemctl status命令也变快了。
四,结论:
1,通过限制systemd-journald日志的大小来解决这个问题。副作用是保存的日志变少,但是可接受,目前没有发现有异常。
五,参考:
http://shouce.jb51.net/vbird-linux-basic-4/160.html
http://www.jinbuguo.com/systemd/journald.conf.html
http://www.codekoala.com/posts/systemctl-status-foo-was-too-slow/