【CDN 最佳实践】CDN访问异常排查思路

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
.cn 域名,1个 12个月
云解析 DNS,旗舰版 1个月
简介: 当客户使用 CDN 加速站点访问时可能出现问题涉及到多级网络链路的问题难以排查。如何尽快定位并解决问题就成为疑难问题,本文将根据系统介绍如何定位 CDN 资源无法访问的问题点以及处理的思路。

当客户使用 CDN 加速站点访问后,客户端的请求将首先发送到 CDN 的 L1 节点,再通过 L1 -> L2 -> 源站的网络路径回源获取资源。因此如果访问过程中出现问题就可能涉及到多级网络链路的问题。如何尽快定位并解决问题就成为疑难问题,本文将根据系统介绍如何定位 CDN 资源无法访问的问题点以及处理的思路。

域名配置和解析

当某个站点的资源 URL 访问出现异常时首先需要查看的即是对应的域名是否有正确配置解析到 CDN 上。如图 1 所示即是 CDN 加速域名的基本配置截图,从图中我们可以查看到该加速域名对应的 CNAME 域名、源站设置等设置。其中需要特别注意的是:

  1. 源站设置的地址或者端口是否正确。 CDN 作为访问链路中间的 Proxy ,真实的数据在没有缓存的情况下是仍然需要回源获取访问的数据的,因此用户需要保证 CDN 节点通过源站设置和回源 Host 设置可以正确的获取得到资源内容。
                                        image

                                                                        图 1. CDN 域名配置示意图

  1. 源站设置和回源 Host 的区别。源站设置用户是可以选择域名和 IP 的。不管是设置为域名还是 IP , CDN 都会将其解析到 IP 的。因此当域名解析的 IP 与直接填写IP的话两种设置是没有区别的。而当该 IP 对应的服务器上配置了多个站点的话就需要根据回源 Host 来决定的,回源 Host 是指 CDN在回源的请求会带有 Host 字段,而字段带的是真实需要访问源站上对应的站点(也就是对应的服务器上对应站点的 server_name)。详细请参考:回源Host的意义
  2. 用户源站是否支持 CDN 回源到 443 端口或者开启协议跟随回源。当 CDN 的源站端口设置为 443 或者开启协议跟随回源功能时是需要源站配置证书并提供 https 证书的。因此如果源站不支持 https 的话是需要您设置源站端口为 80 并且不要开启协议跟随功能。协议跟随回源的功能详细请参考:协议跟随回源功能介绍
  3. DNS 解析是否正确解析到 CNAME 域名上。CDN 加速域名要生效是需要解析能够正确的解析到 CDN 的 CNAME 域名上的,如果 dns 解析没有解析或者解析的 CNAME 域名没有正确对应的话是会产生异常的。例如上图 1中提供的例子在图 2 中的主机记录需要填写 ali-cdn ,而记录值则填写完整的 CNAME 域名(ali-cdn.xxxxx.com.w.alikunlun.com),详细的域名解析设置请参考:DNS解析设置介绍
                                        image

                                                                        图 2. CDN 域名解析示意图

CDN 到源站异常

在确定 CDN 解析配置正确后仍然访问异常那么我就需要按照 CDN 的访问链路来逐项排查。首先我们需要确定的即是访问异常的情况是全局现象还是局部现象的话,如果是全局情况的话一般问题出现在 CDN 本身的设置以及源站的设置上。可以按照如下的逻辑逐条排查:

  1. 请首先核对是仅有 HTTPS 访问出现问题还是 HTTP 和 HTTPS 出现问题。如果仅是 HTTPS 出现问题一般是 CDN HTTPS 的配置问题,其排查思路建议可以参考下: HTTPS 问题排查思路,如果是 HTTP 和 HTTPS 均有问题请转 2 。
    2、在 HTTP 和 HTTPS 都出现问题时我们需要首先查看 CDN 的源站是否正常。用户可以通过绑定 host 测试源站的响应情况。由于 CDN 仅是中间的代理服务器,当 CDN 没有缓存需要回源时就会回到源站访问,因此源站访问正常是 CDN 可以访问的条件。对于 windows 系统可以通过 C:WindowsSystem32driversetchosts 文件配置 host 绑定,而 mac 和 linux 系统则都可以通过 /etc/hosts 文件进行修改。如果这时测试访问异常就需要用户首先排查源站的原因,如果源站响应正常可以转 3。

3、请查看 CDN 的域名状态是否在沙箱节点中,可以通过 CDN 控制台上的状态查看到当前域名是否有在沙箱节点(如图 3 )。由于 CDN 是不抗任何的 CC 或者DDoS 攻击的,而您的该域名 XXXXX 由于历史受到攻击,所以被切沙箱节点,沙箱节点是不能保证服务的稳定性的,且一旦域名切入沙箱节点不支持切出。建议如果是希望进行安全防护的话可以考虑使用云盾相关的产品进行安全防护,具体的架构可以参考:高防IP、CDN与WAF的架构设计。如果不是沙箱节点请转 4。
                                    image
                                                                        图 3. CDN 沙箱状态示意图


4.1. 请核对 CDN 返回的状态码是否是 503 ,一般 503 是由于源站做了安全控制导致的,请用户查看下源站的安全防护功能(例如防火墙、安全狗等软件),建议可以临时关闭源站的安全防护措施后测试是否恢复。CDN 现在 L2 节点的 IP 段暂时需要通过白名单开放,当前仅支持日峰值带宽为 1Gbps 以上的用户申请,详细请参考:CDN L2回源IP接口申请
4.2. 请核对 CDN 返回的状态码是否是 504,504 错误一般为 CDN 回源到源站超时导致的。CDN 回源有严格的超时时间(四层 TCP 是 10 秒,七层HTTP / HTTPS是 30 秒),当超过该时间时即使后续源站响应正常也是会返回 504 的。因此建议使用 CDN 的站点都做动静分离改造,因为部分动态资源可能出现 30 秒仍然无法响应的。
4.3. 请核对 CDN 返回的状态码是否是 403 。首先需要核对源站响应是否为403,如果是的话则排查源站的配置,如果是源站正常但是 CDN 访问出现 403 的话主要是由于 CDN 的安全控制导致的,CDN 提供的安全控制功能包括 IP 黑名单、Referer 防盗链以及鉴权功能,详细的功能介绍请参考:IP 黑名单功能介绍
Referer 防盗链功能介绍
鉴权功能介绍
4.4. 请核对 CDN 返回的状态码是否是 404 。在保证源站正常时一般是由于CDN 的源站地址和回源 Host 的设置导致回源无法获取资源内容因此报了 404 的错误。建议您可以参考下上述第一部分的第二点内容。

客户端到 CDN L1 网络异常

由于 CDN 仅是缩短客户端到源站的运营商网络链路,但是仍然无法避免需要从客户端访问到 CDN L1 节点中间通过运营商网络访问。因此客户端访问异常仍然是可能受该段链路的波动所影响。建议遇到此类问题可以先收集以下信息:
   1)具体访问异常的 URL;
   2)访问 CDN 的节点 IP,您可以通过 ping 加速域名得到;
   3)客户端访问的报错信息,请包括 general、request、response 头信息,您可以通过浏览器中的审查元素中的 network 标签页中查看到;
   4)客户端访问 https://cdn.dns-detect.alicdn.com/https/doc.html 的结果;
   5)客户端 ping / mtr 的测试结果。
获取上述信息后可以按照如下的思路进行排查:

  1. 可以根据上述第四条中获取得到的客户端的 local dns 和 ip 是否是属于同一地域的同一运营商的,因为 CDN 的节点调度是根据 local dns 进行调度的,如果客户配置的 local dns 与本地实际的客户端运营商不相匹配就会导致 CDN 调度的节点异常导致链路出现问题的。建议使用 CDN 的客户端可以使用自动获取的 dns 服务器。如果确认 local dns 和 IP 设置正确的转 2 。
  2. 请查看上述第二条中的信息是否与客户端local dns 对应的运营商匹配,另外地理位置较为接近,如果不接近的话建议可以通过工单反馈给售后工程师进行处理。如果确认正常请转
  3. 请查看上述第五条中的信息核对客户端到 CDN 该节点访问是否存在丢包的情况,并且可以 mtr 的测试结果查看到具体丢包的节点,如果这段运营商链路出现丢包的话建议可以联系当地的运营商沟通该丢包情况。另外根据 CDN 的调度原理可以临时修改客户端的 local dns 为一些公共的 DNS 服务器(可以考虑修改为 223.5.5.5 或者 223.6.6.6 ),使用别的 CDN 节点以及其对应的链路临时恢复业务。
相关实践学习
Serverless极速搭建Hexo博客
本场景介绍如何使用阿里云函数计算服务命令行工具快速搭建一个Hexo博客。
目录
相关文章
|
缓存 负载均衡 网络协议
面试题22解析-CDN分析
题目:描述一下CDN的工作机制?
1203 0
|
边缘计算 缓存 监控
【CDN 排查方案-1】认识 CDN 网络调优
面向不同业务类型的网站,很多人都选择了 CDN 加速来优化自己的网站,目的在于加速网民的体验效果,赢取流量。 在网站调优的过程中,如果正确理解基于 CDN 的网络调优以及正确的配合 CDN 服务方来快速提供调优信息做了详细的讲解, 希望对大家有用,希望对从事 CDN 的人和对网络调优感兴趣的人能有作用。
【CDN 排查方案-1】认识 CDN 网络调优
|
1月前
|
缓存 网络安全 数据安全/隐私保护
使用阿里云国际CDN加速后网站无法访问的排查步骤
使用阿里云国际CDN加速后网站无法访问的排查步骤
|
6月前
|
缓存 前端开发 API
云:CDN配置思路-1
云:CDN配置思路-1
173 2
|
安全 应用服务中间件 nginx
CDN页面优化不生效排查遇到的坑
如果源站响应给CDN的数据是Gzip压缩以后的数据会导致CDN的页面优化不生效。本文详细讲述了问题的原因以及排查过程,并讲述了Nginx关于Gzip的压缩配置,同时介绍了CDN作为代理服务,引入了Via header以后对Nginx服务器的影响。
6253 1
CDN页面优化不生效排查遇到的坑
|
域名解析 安全 对象存储
CDN访问异常篇之403错误
使用阿里云 CDN 加速站点访问后出现403错误,通常情况下可能是由域名配置、CDN安全策略以及源站响应403导致。CDN的Response Headers返回的错误字段明确标识了该403是什么原因引起的,本文详细介绍了CDN常见的引发403错误的问题场景。
12934 2
CDN访问异常篇之403错误
|
缓存 安全 网络协议
CDN访问异常篇之502/503/504错误
当客户使用阿里云 CDN 加速站点访问后,客户端的请求将首先发送到 CDN 的 L1 节点(一级节点),再回源到L2节点(二级节点),然后再回源到源站。因此如果访问过程中出现问题就可能涉及到多级网络链路的问题。当CDN回源源站异常失败时就会出现5xx的错误,主要包括502 Bad Gateway、503 Service Temporarily Unavailable、504 Gateway Time-out。很多情况下是因为一些细节被忽略了导致了错误的发生,本文介绍了一些常见的引发5xx错误的问题场景。
13230 2
CDN访问异常篇之502/503/504错误
|
云安全 SQL 边缘计算
CDN应用进阶 | 正确使用CDN 让你更好规避安全风险
为了帮助用户更好地了解和使用CDN产品,CDN应用实践进阶系统课程开课了。12月17日,阿里云CDN产品专家彭飞在线分享了《正确使用CDN,让你更好规避安全风险》议题,解读使用CDN的常见误区和问题、DDoS攻击的演进以及CDN场景更有效的防护方式。
3748 0
CDN应用进阶 | 正确使用CDN 让你更好规避安全风险
|
弹性计算 监控 Kubernetes
【案例分享】CDN+WAF流量突增排查案例
阿里云CDN结合WAF使用,WAF作为CDN的源站,是较为常见的使用方式,可以充分发挥CDN的分发加速以及WAF的安全防护能力,一般架构为CDN-->WAF-->SLB-->ECS;但复杂的架构往往也会增大问题排查的复杂程度,本文和大家分享一起由于WAF配置问题引发CDN流量异常增长的案例。
1897 0
【案例分享】CDN+WAF流量突增排查案例
|
存储 缓存 弹性计算
【 CDN 最佳实践】CDN 加速 OSS 常见问题及处理思路
CDN加速OSS是常见的站点动静分离的方式,可以实现将静态资源存储在OSS上,并通过CDN加速OSS实现静态资源的访问加速效果。但是在实际使用的过程中可能会出现使用方法以及配置上的问题导致使用上出现难题。本文档主要就CDN加速OSS的配置以及各注意事项进行描述已解决本使用场景中遇到的问题。
【 CDN 最佳实践】CDN 加速 OSS 常见问题及处理思路