DDoS攻击特别是大流量DDoS有一个可怕的特点:可能在一瞬间拥塞带宽,导致网络抖动和拒绝服务。阿里云有着很丰富的应对DDoS经验,然而早期的阿里云DDoS系统在防御大流量的DDoS攻击时往往心有余力不足,其中一个主要的原因是处理延时较大。
经过反复的测试验证,阿里云云盾团队提出大流量DDoS攻击必须在3秒内处理完成,才能避免对路由设备和网络访问造成影响。我们知道传统的netflow检测方式虽然部署简单,但是往往有数十秒甚至数分钟的延时,并不能达到3秒报警并处理的要求,那么阿里云云盾团队如何实现这个看似不可能的任务呢?
首先,阿里云云盾在阿里云机房的各个运营商入口处部署了分光分流器,通过对流量的实时采集和分析提升检测效率。
其次,由于每个分光分流器只覆盖一部分线路,云盾将DDoS数据汇总,分析和清洗等服务器下沉到各个区域,就近汇总分析和处理,大大减少了网络延时。
再次,创建大流量报警的快速路径,当采集服务器发现针对某个目的IP的大流量访问时,快速启动报警,先预警后汇总,避免了大流量攻击延时处理可能导致的网络拥塞。
改造后的DDoS防御架构概念图如下:
实际改造过程遇到了很多细节上的问题,比如:
(1)分布式部署的管理和配置分发;
(2)有的目的IP入流量从多个区域进入,不仅要建设区域检测,也要建设中心的汇总分析;
(3)阿里云业务快速扩张和变化带来的挑战。
通过上述改造,阿里云云盾现在已经可以实现毫秒级的检测和处理,成功防御了多次大流量DDoS攻击,而且往往在用户完全无感知的情况下成功处理,很好的保护了用户业务。
最后不得不提一下,过快的DDoS检测能力也带来了一些副作用,特别是有可能导致一些误判。我会在下一篇帖子中继续介绍阿里云云盾如何避免DDoS攻击的误判。