阿里DNS：一种不断变化前缀域名攻击检测方法-阿里云开发者社区

阿里DNS：一种不断变化前缀域名攻击检测方法

2018-11-22 3055

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 不断变化前缀域名攻击是DNS系统经常会遭受的一种典型攻击类型。那么有没有一种自动化的域名攻击检测方法，可以快速地判断是否是一种不断变化前缀域名攻击类型，并且自动提取攻击特征呢？今天【阿里DNS】为您介绍一种不断变化前缀域名攻击检测方法，自动化地完成攻击特征的识别和提取。

1.概述

不断变化前缀域名：是指域名的后缀不变，前缀随机变化，例如：

        aaaxbhzqegs.www.example.com.
        aachbgunkyi.www.example.com.
        aaazqppqiir.www.example.com.
        aabkwblebrz.www.example.com.
        aaaiwcdsrvf.www.example.com.

其中：www.example.com 是三级后缀，aaaxbhzqegs，aachbgunkyi，aaazqppqiir等都是www.example.com 的紧邻下一级前缀；example.com 是二级后缀，www是它的紧邻下一级前缀。

另外，还有一些不断变化中缀域名：是指域名的前缀、后缀不变，中缀随机变化，例如：

        www.aaaxbhzqegs.example.com.
        www.aachbgunkyi.example.com.
        www.aaazqppqiir.example.com.
        www.aabkwblebrz.example.com.
        www.aaaiwcdsrvf.example.com.

其中：www是前缀，example.com 是二级后缀，aaaxbhzqegs，aachbgunkyi等都是中缀，同时也是 example.com 二级后缀的紧邻下一级前缀。

不断变化前缀域名攻击中，前缀字符串是随机变化的，且数量庞大，不对它们进行递归请求很难判断该域名是否存在，而递归能力一直是DNS系统的性能瓶颈，因此需要实时对此攻击进行检测，进而进行相应地防护。

2.难点

不断变化前缀域名攻击检测的一些已知难点有：

不断变化的部分可能是任意级的前缀、中缀；
攻击有可能同时针对多个后缀，且每个后缀的前缀变化次数都不显著，而它们加起来的变化次数比较显著；
泛解析干扰：有些后缀配置了泛解析，则不管其前缀如何变化，均不能被认为是攻击；
攻击域名与正常域名属于相同的后缀，正常域名容易被误杀，如 example.com 是攻击域名，而 www.example.com 是正常域名，当检测到后缀 example.com 遭受攻击时，容易将 www.example.com 误杀；

3.解决方案

针对上面遇到的问题，我们提出了一种基于在离线混合学习的随机域名攻击检测方案。该方案包括在线检测与离线训练两个部分，如下图所示：

在线检测部分的功能是：根据离线训练好的分类模型对实时流入的DNS查询请求进行分类，分为疑似攻击域名与正常域名两类，再结合其响应结果分别统计，累计一段极短的时间后，根据阈值检测出攻击的后缀，并输出检测结果；

离线训练部分的功能是：对一段较长时间的DNS服务日志进行挖掘，分类训练，得到分类模型，供在线检测部分使用；

首先我们来看在线检测的流程，如下图所示：

定时更新分类模型：每天定时从外部更新分类模型；
旁路流入DNS查询、响应：旁路镜像流入DNS查询、响应数据包；
查询、响应组合：根据五元组（源IP、源端口、目的IP、目的端口、DNS_ID）将查询包与响应报组合起来，得到每个查询对应的响应状态码（如NoError, ServFail, NxDomain等）；
过滤：过滤出没有响应（超时）或响应状态码是ServFail、NxDomain的查询；
域名拆分组合：将查询域名拆分成各级后缀与其紧邻下一级前缀的组合，如 example.com 被拆分成：一级后缀与其紧邻下一级前缀的组合：com + [example]、二级后缀与其紧邻下一级前缀的组合：example.com + [aaaxbhzq]；
字符串判定：对各级后缀的紧邻下一级前缀字符串提取特征，根据分类模型判定其是否随机、无意义；
重复前缀判定：对于每一个后缀，维护一个集合，用于缓存出现过的前缀，重复前缀被丢弃；
累计缓存：把前缀追加到对应后缀的缓存集合里，对应后缀的计数器加1；
窗口判定：统计时间窗口设置为一个极短的时间（如30秒）；
攻击判定：后缀计数器大于攻击阈值T0；
输出攻击的后缀：此时不通知防御；
防御判定：所有攻击后缀的计数器之和大于防御阈值T1；
通知开启防御：及时通知外部开启防御，给出攻击后缀列表；
清空缓存集合、计数器；

然后我们再来看一下离线训练的流程，如下图所示：

日志预处理：将DNS服务日志处理成<查询域名，是否攻击>的二元组；
样本采集：随机选择大量（如100万）的是攻击的二元组作为正样本、大量（如30万）的不是攻击的二元组作为负样本；
样本划分：所有正负样本一起按一定的比例（如6：4）随机划分为训练集和测试集；
计算变化前缀所在级数L及对应的信息熵均值h：在训练集上，遍历域名若干级后缀，提取其紧邻下一级前缀字符串的信息熵（见第6步中(b)信息熵），统计其均值，使得均值最大的级数即为所求的L，对应的均值记为h；
信息熵均值是否大于阈值H；
特征提取并归一化：对前缀字符串提取特征向量，它由三个特征组成：

1) 最长元音距(mvd)：即字符串中元音之间的最长间隔，如“alibaba-inc”的最长元音距是最后的“nc”2个字符长度（字符串中的连字符‘-’也当作元音处理，字符串结尾也当作有一个元音）。

元音距表征了字符串中各音节的长度，体现了发音的节奏。正常有意义的单词或短语的音节比较短，节奏比较均匀，以方便发出声音，相应地，其最长元音距偏短，如“alibaba-inc”的元音距为[1,1,1,2]，最长元音距为2；而无意义的随机字符串的音节比较长，没有节奏，相应地，其最长元音距偏长，如“aaaxbhzqegs-2”的元音距为[5,2,1]，最长元音距为5；

2）信息熵(entropy)：表征字符串的随机程度，其计算公式为：

其中, Pi为每个字母（或数字）在字符串中出现的概率。

正常有意义的单词或短语，其字符排列遵从书写规范，不能任意排列，随机化程度不高，信息熵偏低，如“alibaba-inc”的信息熵为2.44；而无意义的随机字符串的字符排列则没有限制，随机化程度比较高，信息熵偏高，如“aaaxbhzqegs-2”的信息熵为3.19；

3）长度(len)：字符串的长度。观察中发现，攻击字符串的长度在一段短时间内都比较稳定，且长度比较大；而正常的域名字符串则无此规律。

图3-4显示了这三种特征分别在攻击域名、正常域名中的分布情况，可以看出，它们在攻击域名与正常域名中的分布都具有较大差异，主要在于：在攻击域名中，均值都偏大。

特征归一化采用Z-score归一化法，其计算公式为：

其中u为样本均值，o~为样本标准差；

训练分类模型：在训练集上进行模型训练，分类模型采用线性SVM（Support Vector Machine 支持向量机），其公式为：

其中x为特征向量（最长元音距，信息熵，长度）， wT为系数向量， b为截距，如若结果大于0，则判定为正样例（攻击），否则判定为负样例（非攻击）。训练过程即是要找到一个最合适的wT和b；另外，还需要获取训练集的样本均值向量u、标准差向量o~；

模型评估：在测试集上评估训练好的SVM模型，得到总体准确率；
模型准确率是否大于阈值T；
输出模型：模型包括SVM参数wT, b与归一化参数u, o~ 。

图3-4 最长元音距(mvd)、信息熵(entropy)、长度(len)分别在攻击域名(positive)、正常域名(negative)中的分布情况。

从图中可以看出，三种特征在攻击域名中的均值较正常域名大。

阿里DNS：一种不断变化前缀域名攻击检测方法

1.概述

2.难点

3.解决方案

DNS基础原理

热门文章

最新文章

相关产品

相关课程

相关电子书

推荐镜像