云原生网络扫雷笔记:alpine镜像与DNS AAAA不得不防的坑

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介: 本文联合作者:@予栖 @遐宇问题的背景时间回溯到两个月之前,我突然被前线同学拉到一个会议上,时间差不多是深夜,一个核心客户突然在会议上反馈:“我们切了流量到alinux3上之后,ingress突然多了很多404报错,你们兼容性是不是有问题?”看到404这个响应,我第一反应就是,这是个纯粹的业务问题,404响应作为HTTP领域最出圈的一个响应码,表征的含义就是“404 Not Found”,得到这个

本文联合作者:@予栖 @遐宇

问题的背景

时间回溯到两个月之前,我突然被前线同学拉到一个会议上,时间差不多是深夜,一个核心客户突然在会议上反馈:

“我们切了流量到alinux3上之后,ingress突然多了很多404报错,你们兼容性是不是有问题?”

看到404这个响应,我第一反应就是,这是个纯粹的业务问题,404响应作为HTTP领域最出圈的一个响应码,表征的含义就是“404 Not Found”,得到这个响应,标志着TCP层面是正常工作的,HTTP层面也可以正常处理,况且用户并非所有的流量都出现了异常,因此我让客户对业务进行排查,但是客户坚持认定,是我们的兼容性问题,于是,我们开始了针对这个问题的排查。

问题的排查过程

查找报错原因

客户在回退发布后,已经没有了现场,好在ingress默认开启了sls记录日志,我们可以很快找到当时出现的404异常的日志分布 :

可以看到,确实存在客户所说的现象,即进行了流量的切换之后,在某个时间点,404的频率有了较大的升高,而在客户进行止血措施之后,频率又迅速回落,随后我们按照多个维度查看404的特征,在进行404现象与upstream addr关系的排查是发现了一个很特别的现象,绝大多数的404响应,其实是local-project这个upstream发出的:

 

这个upstream指向的是127.0.0.1,是default backend,按照经验,不该有很多流量转发到这个backend,于是我们联系客户开启调试日志后进行一次复现,果然发现了问题所在:

nginx: [emerg] host not found in upstream "************.******.cn" 

这条核心的日志解释了404的成因: ingress存在部分配置没有正常加载的情况,原因是由于某一些域名在进行域名解析时出现了失败。

随即我们向客户反馈了这个现象,然而客户表示,这个域名是他们一直在使用的域名,不是新增的,其他业务也没有遇到类似的问题,甚至之前的ingress也没有遇到过这个问题。。。

于是我们在客户的环境中,指定coredns作为server进行了测试和验证,验证的结果如下:

  1. 在节点上使用dig测试,可以正常解析。
  2. 切换到ingress容器中进行测试,无论是新增的还是存量的,均无法解析。

也就是说,相同的域名和server,在节点上和在容器中,竟然有表现上的差异!!!

追查差异根因

遇到这样的问题,首先进行了抓包分析,在客户的环境中我们发现了一个现象,当我们发起DNS查询的时候,会出现类似以下的现象:

  1. 同时发起A和AAAA记录的查询。
  2. A记录返回了正常的响应。
  3. AAAA记录返回了NXDOMAIN。

而在没有进行任何配置,直接从控制台创建出来的ACK集群中,他的表现是这样的:

  1. 同时发起A和AAAA记录的查询。
  2. A记录返回了正常的响应。
  3. AAAA没有返回有效的解析结果,但是响应码不是NXDOMAIN。

我们怀疑是这个差异,即AAAA记录返回NXDOMAIN与否,影响了进行dns查询时得到的结果,如果能够让dns的AAAA记录查询返回空的结果而不是NXDOMAIN,这个问题应该就可以解决了。我们排查了客户的CoreDNS配置文件,对比默认的配置,发现客户环境下的配置文件多了以下一段配置:

 

查询文档(https://coredns.io/plugins/template/)后得知,这一段配置生效的作用是:

  1. 对于53端口的服务生效。
  2. 对于所有查询了AAAA记录的请求生效。
  3. 将符合条件的请求的rcode,也就是返回码设置为NXDOMAIN。

于是这个问题也就能解释通了,客户添加的这一段配置,导致了CoreDNS在表现上的差异,我们建议客户参照官网文档对配置进行修改后验证(https://help.aliyun.com/document_detail/380963.html#section-6jf-fgj-j2f),果然,修改了针对AAAA记录的默认行为后,在node和ingress的pod内进行dns查询就都可以正常响应了!!

到这里,问题就转变成了,为什么相同的DNS响应,即A记录正常回复,AAAA记录返回NXDOMAIN,在节点上就没问题,在容器内就无法解析了呢?

差异背后的标准实现

在复现了客户的问题之后,我们收敛了问题的范围:

  1. 对于节点和pod中的dns查询请求,都发出了A和AAAA两条查询的报文。
  2. CoreDNS针对节点和pod发出的dns查询,回复时一样的,即A记录正常返回,AAAA记录返回NXDOMAIN。

在这个基础上,我们讲目光转移到了dns客户端本身,对于节点和pod来说,他们进行dns查询的客户端确实存在着差异:

  1. 对于节点来说,curl等工具是依赖于getaddrinfo()进行域名的解析,节点上默认提供getaddrinfo()的静态库时glibc提供的
  2. 对于以alpine为基础镜像的ingress容器来说,getaddrinfo()则是由musl实现的,musl提供了更加简洁和高效的POSIX标准库实现( https://www.musl-libc.org/intro.html),在嵌入式场景中广泛使用。  

随后我们分析了musl和glibc的代码,发现他们在针对相同的域名,两种不同类型的记录的查询结果有差异,尤其是其中一条的返回码是NXDOMAIN时,的确采取了不同的处理方式:

  1. glibc的处理中,会将所有正常返回的记录结果都提供给调用方。
  2. musl的处理中,针对出现AAAA有NXDOMAIN时,整个域名都会被认为是无法正常解析的,处理逻辑如下:

static int name_from_dns(struct address buf[static MAXADDRS], char canon[static 256], const char *name, int family, const struct resolvconf *conf)
{
    struct dpc_ctx ctx = { .addrs = buf, .canon = canon };
    static const struct { int af; int rr; } afrr[2] = {
        { .af = AF_INET6, .rr = RR_A },
        { .af = AF_INET, .rr = RR_AAAA },
    };

    // 分别获取ipv4和ipv6,也就是A与AAAA的解析记录
    for (i=0; i<2; i++) {
        if (family != afrr[i].af) {
            qlens[nq] = __res_mkquery(0, name, 1, afrr[i].rr,
                                      0, 0, 0, qbuf[nq], sizeof *qbuf);
            if (qlens[nq] == -1)
                return 0;
            qtypes[nq] = afrr[i].rr;
            qbuf[nq][3] = 0; /* don't need AD flag */
            /* Ensure query IDs are distinct. */
            if (nq && qbuf[nq][0] == qbuf[0][0])
                qbuf[nq][0]++;
            nq++;
        }
    }
    // 对于每一个记录,如果出现了retcode=3即NXDOMAIN,则会返回没有任何解析结果
    for (i=0; i<nq; i++) {
        if (alens[i] < 4 || (abuf[i][3] & 15) == 2) return EAI_AGAIN;
        if ((abuf[i][3] & 15) == 3) return 0;
        if ((abuf[i][3] & 15) != 0) return EAI_FAIL;
    }

    for (i=nq-1; i>=0; i--) {
        ctx.rrtype = qtypes[i];
        __dns_parse(abuf[i], alens[i], dns_parse_callback, &ctx);
    }

    if (ctx.cnt) return ctx.cnt;
    return EAI_NODATA;
}

问题到了这里也就真相大白了:

  1. 由于业务原因,客户主动将一部分域名的AAAA记录设置为NXDOMAIN(尤其是在IPv6双栈的演进过程中)。
  2. 由于musl所采用的处理逻辑,当客户进行设置后,所有基于alpine镜像的C程序针对配置了双栈,即会请求AAAA记录的域名,都会产生无法解析的报错。
  3. 客户进行了变更,然而由于ingress无法验证域名,导致新配置无法加载。
  4. 客户变更结束后进行流量切换,新域名的流量由于配置没有正常加载,被转发到了default的upstream,产生404报错。

问题的背后

在云原生场景下,alpine的使用极为广泛,不仅仅是ingress-nginx,大量的开源镜像都是基于alpine来实现轻量的体积,与此同时,由于IPv6和双栈的不断推进,在双栈的演化过程中,不可避免得会遇到因为兼容性(避免dns反复重试)而进行DNS的层面配置的情况,因此,由于musl的实现与glibc有差异而产生的坑也很有可能在其他客户身上再次出现,不得不防。

在这个问题发现以后,我们特地查询了RFC文档中对AAAA和NXDOMAIN的规范:

  1. AAAA记录设计之初就是为了能够将iPv6地址作为域名解析的结果进行返回  https://www.rfc-editor.org/rfc/rfc3596
  2. NXDOMAIN则在多个rfc中不断完善其描述,在rfc8020中的较新版本对他的补充定义是:
   The DNS protocol [RFC1035] defines response code 3 as "Name Error",
   or "NXDOMAIN" [RFC2308], which means that the queried domain name
   does not exist in the DNS.  Since domain names are represented as a
   tree of labels ([RFC1034], Section 3.1), nonexistence of a node
   implies nonexistence of the entire subtree rooted at this node.

   The DNS iterative resolution algorithm precisely interprets the
   NXDOMAIN signal in this manner.  If it encounters an NXDOMAIN
   response code from an authoritative server, it immediately stops
   iteration and returns the NXDOMAIN response to the querier.
   
   This document clarifies possible ambiguities in [RFC1034] that did
   not clearly distinguish Empty Non-Terminal (ENT) names ([RFC7719])
   from nonexistent names, and it refers to subsequent documents that
   do.  ENTs are nodes in the DNS that do not have resource record sets
   associated with them but have descendant nodes that do.  The correct
   response to ENTs is NODATA (i.e., a response code of NOERROR and an
   empty answer section). 

rfc中对NXDOMAIN的定义是针对整个域名的,即NXDOMAIN出现应该是这个域名所有的记录都无法被解析的情况下,同时对这种一部分记录没有的场景增加了建议,推荐返回NODATA,也就是最上方官网文档中建议的配置。

显然,musl的实现是完全遵照rfc的规范实现的,而glibc作为默认的实现,其实并没有严格按照rfc标准进行,但是实际在切换到云原生容器化的过程中,alpine的“符合标准”的行为却实打实的产生了差异,并造成了业务上的风险,这也是我们在容器化过程中不得不防的坑。

目录
相关文章
|
2月前
|
Linux 开发工具 Android开发
FFmpeg开发笔记(六十)使用国产的ijkplayer播放器观看网络视频
ijkplayer是由Bilibili基于FFmpeg3.4研发并开源的播放器,适用于Android和iOS,支持本地视频及网络流媒体播放。本文详细介绍如何在新版Android Studio中导入并使用ijkplayer库,包括Gradle版本及配置更新、导入编译好的so文件以及添加直播链接播放代码等步骤,帮助开发者顺利进行App调试与开发。更多FFmpeg开发知识可参考《FFmpeg开发实战:从零基础到短视频上线》。
166 2
FFmpeg开发笔记(六十)使用国产的ijkplayer播放器观看网络视频
|
2月前
|
机器学习/深度学习 数据可视化 计算机视觉
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
这篇文章详细介绍了如何通过可视化深度学习中每层特征层来理解网络的内部运作,并使用ResNet系列网络作为例子,展示了如何在训练过程中加入代码来绘制和保存特征图。
67 1
目标检测笔记(五):详细介绍并实现可视化深度学习中每层特征层的网络训练情况
|
2月前
|
机器学习/深度学习 数据可视化 Windows
深度学习笔记(七):如何用Mxnet来将神经网络可视化
这篇文章介绍了如何使用Mxnet框架来实现神经网络的可视化,包括环境依赖的安装、具体的代码实现以及运行结果的展示。
55 0
|
22天前
|
网络协议 安全 文件存储
动态DNS(DDNS)技术在当前网络环境中日益重要,它允许使用动态IP地址的设备通过固定域名访问
动态DNS(DDNS)技术在当前网络环境中日益重要,它允许使用动态IP地址的设备通过固定域名访问,即使IP地址变化,也能通过DDNS服务保持连接。适用于家庭网络远程访问设备及企业临时或移动设备管理,提供便捷性和灵活性。示例代码展示了如何使用Python实现基本的DDNS更新。尽管存在服务可靠性和安全性挑战,DDNS仍极大提升了网络资源的利用效率。
39 6
|
1月前
|
网络协议 网络安全 网络虚拟化
本文介绍了十个重要的网络技术术语,包括IP地址、子网掩码、域名系统(DNS)、防火墙、虚拟专用网络(VPN)、路由器、交换机、超文本传输协议(HTTP)、传输控制协议/网际协议(TCP/IP)和云计算
本文介绍了十个重要的网络技术术语,包括IP地址、子网掩码、域名系统(DNS)、防火墙、虚拟专用网络(VPN)、路由器、交换机、超文本传输协议(HTTP)、传输控制协议/网际协议(TCP/IP)和云计算。通过这些术语的详细解释,帮助读者更好地理解和应用网络技术,应对数字化时代的挑战和机遇。
71 3
|
1月前
|
存储 网络协议 安全
30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场
本文精选了 30 道初级网络工程师面试题,涵盖 OSI 模型、TCP/IP 协议栈、IP 地址、子网掩码、VLAN、STP、DHCP、DNS、防火墙、NAT、VPN 等基础知识和技术,帮助小白们充分准备面试,顺利踏入职场。
81 2
|
2月前
|
机器学习/深度学习 编解码 算法
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
MobileNetV3是谷歌为移动设备优化的神经网络模型,通过神经架构搜索和新设计计算块提升效率和精度。它引入了h-swish激活函数和高效的分割解码器LR-ASPP,实现了移动端分类、检测和分割的最新SOTA成果。大模型在ImageNet分类上比MobileNetV2更准确,延迟降低20%;小模型准确度提升,延迟相当。
72 1
轻量级网络论文精度笔记(三):《Searching for MobileNetV3》
|
2月前
|
机器学习/深度学习 网络架构 计算机视觉
目标检测笔记(一):不同模型的网络架构介绍和代码
这篇文章介绍了ShuffleNetV2网络架构及其代码实现,包括模型结构、代码细节和不同版本的模型。ShuffleNetV2是一个高效的卷积神经网络,适用于深度学习中的目标检测任务。
92 1
目标检测笔记(一):不同模型的网络架构介绍和代码
|
2月前
|
机器学习/深度学习 数据采集 算法
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
这篇博客文章介绍了如何使用包含多个网络和多种训练策略的框架来完成多目标分类任务,涵盖了从数据准备到训练、测试和部署的完整流程,并提供了相关代码和配置文件。
62 0
目标分类笔记(一): 利用包含多个网络多种训练策略的框架来完成多目标分类任务(从数据准备到训练测试部署的完整流程)
|
2月前
|
编解码 人工智能 文件存储
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》
YOLOv7是一种新的实时目标检测器,通过引入可训练的免费技术包和优化的网络架构,显著提高了检测精度,同时减少了参数和计算量。该研究还提出了新的模型重参数化和标签分配策略,有效提升了模型性能。实验结果显示,YOLOv7在速度和准确性上超越了其他目标检测器。
54 0
轻量级网络论文精度笔记(二):《YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object ..》

相关产品

  • 云解析DNS
  • 推荐镜像

    更多