开发者社区> 江冉> 正文

Linux下GDB调试NTP时间同步问题

简介: 最近有遇到一例比较有趣的Linux下NTP时间同步问题,尝试了使用GDB调试的方法解决,在这里分享一些个人的心得,希望对大家有些帮助。 问题现象:ECS Linux CentOS实例中时间经常出现偏差,客户已经根据官方文档配置了NTP时间同步,同步源为文档中指定的公网NTP服务器:https://help.aliyun.com/knowledge_detail/40583.html 尝试调整一些同步频率的参数,并没有实际效果。
+关注继续查看

最近有遇到一例比较有趣的Linux下NTP时间同步问题,尝试了使用GDB调试的方法解决,在这里分享一些个人的心得,希望对大家有些帮助。

问题现象:
ECS Linux CentOS实例中时间经常出现偏差,客户已经根据官方文档配置了NTP时间同步,同步源为文档中指定的公网NTP服务器:
https://help.aliyun.com/knowledge_detail/40583.html

尝试调整一些同步频率的参数,并没有实际效果。其中注意到一个现象,如果我们列出NTP日志中信息,会发现一旦出现 "no servers reachable" 之后,ntpd就会停止同步。

image

而如果重启ntpd同步问题就会暂时得到解决,过了一天左右问题又会复现。

调试过程:
由于通过普通的ntpd的调整一些参数无法解决问题,决定采用GDB现场调试的方式来看看问题发生时为什么ntpd不再同步。

调试之前我们首先要确认ntpd更新系统时间是具体在哪个函数中实现的。因此首先采用阅读Linux NTP代码的方式将范围缩小,确认具体代码段如下:

void
clock_select(void)
{
...
clock_update(); <----------- 更新系统时间

因此我首先将断点设在clock_select,结果是可以中到,得到的堆栈如下:

image

因此我进一步可以设置断点到clock_update附近:

image

但是这次没有中,因此可以判定是在之前的逻辑判断中跳出了。进一步跟踪后发现:

for (n = 0; n < NTP_HASH_SIZE; n++) {

for (peer = peer_hash[n]; peer != NULL; peer =
    peer->next) {
    peer->flags &= ~FLAG_SYSPEER;
    peer->status = CTL_PST_SEL_REJECT;

    /*
     * Leave the island immediately if the peer is
     * unfit to synchronize.
     */
    if (peer_unfit(peer))
        continue;

如上代码我们对每一个时间同步源会调用peer_unfit来判断他是否“适合”做时间同步。如果所有同步源都不适合做同步的话,自然就会跳出。因此接下去我们可以考虑设置断点在peer_unfit,并且查看其返回值:

image

注意上图是在本地正常的测试机上截取的,而在用户机器上返回值寄存器rax为1,因此可以判断所有配置的同步源被peer_unfit中的逻辑判断为不适合做同步。

因此我们接下去就可以使用相同的方法对peer_unfit做进一步跟踪:

我们发现失败在如下的检查:

if (root_distance(peer) >= sys_maxdist + clock_phi *

ULOGTOD(sys_poll))
rval |= TEST11;     /* distance exceeded */

汇编代码如下:

image

这表明计算下来本地时钟和远端NTP服务器的distance过大。clock_phi 是晶振的频率为0.000015,而sys_poll是同步的询问时间,两者相乘是非常小的。所以主要比较的是当前的distance和sys_maxdist,后者默认为1。

root_distance是一个相对复杂的计算:

dist += max(sys_mindisp, dist + peer->delay) / 2 +

peer->rootdispersion + peer->disp + clock_phi *
(current_time - peer->update) + peer->jitter;

其中可以发现他和当前时钟和NTP服务上次成功的时间,两者的差值有关。因此如果时钟走的比较快,而有一次甚至几次同步失败,整个NTP服务就有可能不会再进行同步了。

寻找解决方案:
以上比较的几个参数中唯一可调的就是sys_maxdist,我们可以继续阅读Linux代码来了解怎么调整他:

        case CONF_TOS_MAXDIST:
        proto_config(PROTO_MAXDIST, 0, ftemp, NULL);

因此我们可以通过在ntp.conf中添加"tos maxdist"可以增大,从而容忍本地时钟过快。

以上一例是采用GDB调试的方法来解决一些服务产生的问题,希望给大家提供解决问题的另一种思路。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
【Linux】Linux调试器--gdb的使用
【Linux】Linux调试器--gdb的使用
28 0
整理了一周近万字讲解linux基础开发工具vim,gdb,gcc,yum等的使用(下)
整理了一周近万字讲解linux基础开发工具vim,gdb,gcc,yum等的使用(下)
18 0
整理了一周近万字讲解linux基础开发工具vim,gdb,gcc,yum等的使用(上)
整理了一周近万字讲解linux基础开发工具vim,gdb,gcc,yum等的使用(上)
19 0
linux小妙招(对比不同文件夹下的内容、kill掉后台运行的gdb进程)
linux小妙招(对比不同文件夹下的内容、kill掉后台运行的gdb进程)
19 0
Linux内核0-使用QEMU和GDB调试Linux内核
Linux内核0-使用QEMU和GDB调试Linux内核
35 0
【Linux】调试工具gdb的使用
【Linux】调试工具gdb的使用
35 0
【学习笔记之Linux】工具之gdb
【学习笔记之Linux】工具之gdb
49 0
gdb调试功能从零到会(Linux详解)
👀 1.安装gdb 👀2.判断是否安装成功 👀3.改成debug方式发布。 👀 4.gdb功能简介
71 0
『Linux从入门到精通』第 ⑪ 期 - Linux调试器——gdb使用详解
『Linux从入门到精通』第 ⑪ 期 - Linux调试器——gdb使用详解
21 0
Linux之gdb的使用
学会在Linux下调试代码
47 0
+关注
江冉
本人在阿里云技术中台工作,有多年的系统和应用调试的经验。希望能和大家多多分享源码和汇编调试的技巧。
文章
问答
视频
来源圈子
更多
作为全球云计算的领先者,阿里云为全球230万企业提供着云计算服务,服务范围覆盖200多个国家和地区。我们致力于为企业、政府等组织机构提供安全可靠的云计算服务,给用户带来极速愉悦的服务体验。
+ 订阅
相关文档: 迁云实施服务
文章排行榜
最热
最新
相关电子书
更多
ECS系统指南之Linux系统诊断
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
相关实验场景
更多
相关镜像