DNS自1983年诞生以来一直是互联网功能的重要组成部分,现在互联网上绝大部分软件、服务都对其有所依赖,其本身的稳定、安全、快速成为了最核心的指标。只有底层的基础打扎实了,在DNS上运行的服务质量才有保证。阿里云DNS的稳定性一直受到业界称赞和用户肯定,到底是用了什么武功秘籍,才敢给用户承诺可靠性SLA 100%呢?以下我们一一揭秘。
第一招:星斗大阵--全球节点部署
20年来阿里巴巴的网络设施经过不断持续投入建设,阿里网络已经发展成超大规模的完整网络架构体系,支撑了近百万规模系统资源的业务体量,网络延伸到达六大洲,70多个国家/地区,并与全球1000+的ISP和ICP建立直接互联,如此规模的星斗大阵成为了具有全球竞争力的网络基础设施。阿里云解析也正是构建在这个基础设施之上,随着阿里网络而扩张,目前已经在12个国家部署了40多个集群,并通过不断深耕优化,在稳定、安全、快速方面达到了业界一流的指标。
第二招:乾坤大挪移—BGP+ANYCAST技术
稳定即是要保证服务的高可用,阿里云解析敢承诺100% SLA的关键秘密就在这里。虽然阿里内部的网络链路都是至少双冗余的,但是物理网络本身受到内部、外部众多因素的影响,要想做到整个链路100%无单点故障是不现实的。所以阿里云解析利用阿里网络提供的BGP路由发放能力,全部NS的服务IP都通过BGP多ISP发布,依赖BGP协议本身具有的冗余备份、消除环路的特点,可以实现多条互联网线路路由的相互备份,在一条线路出现故障时路由会自动切换到其它线路。除此之外,还通过网络提供了多组ANYCAST的NS IP,也就是在多个不同地域的服务节点通过BGP向Internet宣告相同的IP,利用前面提到的BGP协议的特点,当一个地域的单个节点故障后,这个节点会停止对外发布服务IP,客户端的DNS请求流量会通过路由收敛,转发到新的就近的集群,实现集群间的无损容错。在同一个集群内部,多台DNS服务器间也是通过网络提供的ECMP功能进行负载均衡和容错摘除,单个DNS服务器故障后,这台服务器会停止对外发布服务IP,网络设备会从ECMP组中将其摘除,不再向其转发流量,从而保证集群内的高可用。
第三招:吸星大法--无限DDoS攻击防护
说到DNS的安全,必不可少的要提到怎么应对越演越烈的DDoS攻击。特别是像阿里云解析这样的拥有海量域名托管的服务提供商,每天正常的访问量都在千亿次以上,DDOS攻击更是随时都会发生。因为DNS协议主要是基于UDP的,所以攻击主要以流量型为主,这就对物理网络的带宽和转发能力提出了很大的挑战。阿里巴巴在网络上一直保持大量的投入,与各个运营商有着深度的合作,目前自建机房的网络入口带宽已经达到TB级别;内部网络经过多年软、硬技术的持续研发(如自研交换机等),已经实现了100G网络架构的规模部署。除此之外,还与运营商合作了很多高防机房,单个节点就能够承受2T以上网络流量冲击。在此基础之上,阿里云解析团队通过自研基于DPDK的高性能DNS权威解析软件,使DNS服务器单机能够轻松达到几千万QPS的解析能力,再加上主力集群多台部署的标准,单个集群就具备每秒上亿次攻击无损防护的能力。前面提到了阿里云解析已经在全球部署了40多个集群,这些集群都发布有相同的anycast的IP,能将不同地域的攻击流量吸引到本地的集群,这样可以轻松化解全球有史以来最大规模的DDOS攻击,这也是我们敢于提供无限量防护套餐的信心所在。无论黑客有多牛,攻击有多大,吸星大法都将攻击轻松化解。
天下武功唯快不破,除了保证服务稳定性的以上三招,阿里云DNS还在快速解析上下足了功夫。国内因为各运营商网络架构的差异性等原因,完全依靠AnycastIP优选的话,很难达到理想的调度效果,经常出现地域上舍近求远调度的情况。而阿里云解析除了Anycast IP外还在一些主要网络节点发布了普通BGP IP,这些地址全部配置到阿里云解析的每组NS域名上。这样依赖客户端使用的各地LocalDNS的优选,来选择延迟最低的IP进行访问,达到降低延时的方法。同时阿里DNS还提供了智能NS解析功能,也就是根据客户端的地域来返回不同的NS IP记录,比如国内的用户请求DNS解析,就只返回国内节点的IP记录,这样LocalDNS能够尽快访问到最近的节点,不会出现去海外节点解析的情况。
未来随着阿里巴巴在网络基础设施领域更大的突破,必将赋能阿里云解析,在稳定、安全、快速上更上一层楼。专业的人做专业的事,DNS解析服务交给我!