《DNS稳定保障系列4--阿里云DNS稳定性武功秘籍揭秘》

简介:
+关注继续查看

DNS自1983年诞生以来一直是互联网功能的重要组成部分,现在互联网上绝大部分软件、服务都对其有所依赖,其本身的稳定、安全、快速成为了最核心的指标。只有底层的基础打扎实了,在DNS上运行的服务质量才有保证。阿里云DNS的稳定性一直受到业界称赞和用户肯定,到底是用了什么武功秘籍,才敢给用户承诺可靠性SLA 100%呢?以下我们一一揭秘。
第一招:星斗大阵--全球节点部署
20年来阿里巴巴的网络设施经过不断持续投入建设,阿里网络已经发展成超大规模的完整网络架构体系,支撑了近百万规模系统资源的业务体量,网络延伸到达六大洲,70多个国家/地区,并与全球1000+的ISP和ICP建立直接互联,如此规模的星斗大阵成为了具有全球竞争力的网络基础设施。阿里云解析也正是构建在这个基础设施之上,随着阿里网络而扩张,目前已经在12个国家部署了40多个集群,并通过不断深耕优化,在稳定、安全、快速方面达到了业界一流的指标。

_

第二招:乾坤大挪移—BGP+ANYCAST技术
稳定即是要保证服务的高可用,阿里云解析敢承诺100% SLA的关键秘密就在这里。虽然阿里内部的网络链路都是至少双冗余的,但是物理网络本身受到内部、外部众多因素的影响,要想做到整个链路100%无单点故障是不现实的。所以阿里云解析利用阿里网络提供的BGP路由发放能力,全部NS的服务IP都通过BGP多ISP发布,依赖BGP协议本身具有的冗余备份、消除环路的特点,可以实现多条互联网线路路由的相互备份,在一条线路出现故障时路由会自动切换到其它线路。除此之外,还通过网络提供了多组ANYCAST的NS IP,也就是在多个不同地域的服务节点通过BGP向Internet宣告相同的IP,利用前面提到的BGP协议的特点,当一个地域的单个节点故障后,这个节点会停止对外发布服务IP,客户端的DNS请求流量会通过路由收敛,转发到新的就近的集群,实现集群间的无损容错。在同一个集群内部,多台DNS服务器间也是通过网络提供的ECMP功能进行负载均衡和容错摘除,单个DNS服务器故障后,这台服务器会停止对外发布服务IP,网络设备会从ECMP组中将其摘除,不再向其转发流量,从而保证集群内的高可用。

第三招:吸星大法--无限DDoS攻击防护
说到DNS的安全,必不可少的要提到怎么应对越演越烈的DDoS攻击。特别是像阿里云解析这样的拥有海量域名托管的服务提供商,每天正常的访问量都在千亿次以上,DDOS攻击更是随时都会发生。因为DNS协议主要是基于UDP的,所以攻击主要以流量型为主,这就对物理网络的带宽和转发能力提出了很大的挑战。阿里巴巴在网络上一直保持大量的投入,与各个运营商有着深度的合作,目前自建机房的网络入口带宽已经达到TB级别;内部网络经过多年软、硬技术的持续研发(如自研交换机等),已经实现了100G网络架构的规模部署。除此之外,还与运营商合作了很多高防机房,单个节点就能够承受2T以上网络流量冲击。在此基础之上,阿里云解析团队通过自研基于DPDK的高性能DNS权威解析软件,使DNS服务器单机能够轻松达到几千万QPS的解析能力,再加上主力集群多台部署的标准,单个集群就具备每秒上亿次攻击无损防护的能力。前面提到了阿里云解析已经在全球部署了40多个集群,这些集群都发布有相同的anycast的IP,能将不同地域的攻击流量吸引到本地的集群,这样可以轻松化解全球有史以来最大规模的DDOS攻击,这也是我们敢于提供无限量防护套餐的信心所在。无论黑客有多牛,攻击有多大,吸星大法都将攻击轻松化解。

_

天下武功唯快不破,除了保证服务稳定性的以上三招,阿里云DNS还在快速解析上下足了功夫。国内因为各运营商网络架构的差异性等原因,完全依靠AnycastIP优选的话,很难达到理想的调度效果,经常出现地域上舍近求远调度的情况。而阿里云解析除了Anycast IP外还在一些主要网络节点发布了普通BGP IP,这些地址全部配置到阿里云解析的每组NS域名上。这样依赖客户端使用的各地LocalDNS的优选,来选择延迟最低的IP进行访问,达到降低延时的方法。同时阿里DNS还提供了智能NS解析功能,也就是根据客户端的地域来返回不同的NS IP记录,比如国内的用户请求DNS解析,就只返回国内节点的IP记录,这样LocalDNS能够尽快访问到最近的节点,不会出现去海外节点解析的情况。

未来随着阿里巴巴在网络基础设施领域更大的突破,必将赋能阿里云解析,在稳定、安全、快速上更上一层楼。专业的人做专业的事,DNS解析服务交给我!

相关文章
|
3月前
|
运维 供应链 Kubernetes
阿里云率先荣获容器集群稳定性先进级认证
7 月 25 日,由中国信通院发起的“2023 稳保体系”评估结果在可信云大会现场公布,阿里云容器服务 ACK 成为首批通过“云服务稳定运行能力-容器集群稳定性”评估的产品,并荣获“先进级”认证。
112 0
|
3月前
|
运维 供应链 Kubernetes
阿里云率先荣获容器集群稳定性先进级认证
阿里云率先荣获容器集群稳定性先进级认证
|
4月前
带你读《阿里云卓越架构白皮书》——1、责任共担模型
带你读《阿里云卓越架构白皮书》——1、责任共担模型
226 0
|
4月前
带你读《阿里云卓越架构白皮书》——2、设计原则
带你读《阿里云卓越架构白皮书》——2、设计原则
220 0
|
4月前
带你读《阿里云卓越架构白皮书》——3、设计方案(1)
带你读《阿里云卓越架构白皮书》——3、设计方案(1)
196 0
|
4月前
带你读《阿里云卓越架构白皮书》——3、设计方案(3)
带你读《阿里云卓越架构白皮书》——3、设计方案(3)
176 0
|
4月前
带你读《阿里云卓越架构白皮书》——3、设计方案(4)
带你读《阿里云卓越架构白皮书》——3、设计方案(4)
173 0
|
5月前
|
Prometheus 运维 监控
《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【上】
《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【上】
|
5月前
|
运维 Prometheus 监控
《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【下】
《2021 阿里云可观测技术峰会演讲实录合辑(上)》——一、行业SaaS微服务稳定性保障实战【下】
|
7月前
|
消息中间件 Cloud Native 物联网
阿里云消息队列 RocketMQ、Kafka 荣获金融级产品稳定性测评 “先进级” 认证
在混沌工程技术沙龙--金融行业精品专场的分布式系统稳定性评估体系获奖名单中,阿里云分布式消息队列服务成为通过首批消息队列服务稳定性认证,荣获最高级别 “先进级” 认证的消息队列服务。
387 0
阿里云消息队列 RocketMQ、Kafka 荣获金融级产品稳定性测评 “先进级” 认证
相关产品
云解析DNS
推荐文章
更多