阿里DNS:用LibFuzzer照亮DNS代码的死角

简介: 【阿里DNS团队】在很久之前就已经认识到恶意报文防御在整个DNS系统安全稳定保障工作中的重要性,也花了非常大的精力在这个方面做了很多的研究和实践,今天我们就简要介绍一下我们在DNS代码白盒Fuzzing测试方面的一些工作,以供跟大家交流和学习。

1 引言

2018年11月初,国内某云解析服务提供商出现大规模服务不可用故障,在业界引起了不小的震动,以下是官方的故障复盘公告:

cc767bdc04c1e1ad5c2533e422bdce8c3a1e6bdf

技术复盘中很明确地说明了此次故障的起因:大量恶意请求报文攻击触发了软件的bug或漏洞,导致解析服务不可用。

作为域名解析保有量亚洲第一、全球第二的权威域名托管服务商,【阿里DNS团队】打造的阿里云云解析产品和服务(https://help.aliyun.com/product/29697.html),一直致力于通过技术的力量让整个解析服务更加稳定、更加安全和更加快速,在用户服务体验上持续改进。

【阿里DNS团队】在很久之前就已经认识到恶意报文防御在整个DNS系统安全稳定保障工作中的重要性,也花了非常大的精力在这个方面做了很多的研究和实践,下面就简要介绍一下我们在DNS代码白盒Fuzzing测试方面的一些工作。

2 技术方案选型

恶意报文攻击的核心在于攻击者利用了软件处理数据报文的漏洞或者bug,导致软件执行异常或者异常退出,进而导致服务不可用。恶意报文攻击防御要解决的核心问题是尽可能早和尽可能全的发现软件中存在的漏洞,因此需要系统的方法和工具来解决这个问题。

而软件漏洞挖掘属于软件安全或者代码安全的范畴,而阿里巴巴集团安全团队的同学在软件漏洞挖掘领域有非常成熟的可工程落地的经验,因此我们可以利用这些已有的工具和方法帮助我们高效地挖掘DNS软件的漏洞。经过分析和比对,我们最终选定的方案是通过Libfuzzer对DNS软件进行白盒Fuzzing测试。

那么我们为什么使用LibFuzzer呢?

LibFuzzer是一种支持持续执行,基于代码覆盖率的引导式模糊测试引擎。LibFuzzer与被测试的代码链接,然后通过特定的模糊入口(也称为“目标函数”)将模糊输入的样例集提供给LibFuzzer。模糊器跟踪代码会执行到哪些代码块并且收集程序崩溃,内存溢出,内存泄漏等错误,同时对输入数据根据代码覆盖率产生突变,以便最大化覆盖代码达到模糊测试的目的。LibFuzzer的代码覆盖信息由LLVM的SanitizerCoverage指令执行提供。

LibFuzzer相比其他模糊测试平台有如下几个优势:

  • 基于代码覆盖率的引导式模糊测试引擎,相比其他黑盒模糊测试平台如peach,codenomicon等商用工具,其成本低廉,并且代码路径覆盖更加自主可控。
  • LibFuzzer在对网络协议进行模糊测试时不会解析完成后退出,并且LibFuzzer的输入为一串指定长度的字节序列,模糊测试改造更简单,更适合网络协议白盒fuzz测试的场景。
  • 原有单元测试用例改造简单高效,可以按照统一框架生成新的单元测试,提高原有测试资产质量和问题发现概率。
  • 基于地址消毒剂技术进行内存监控,能过发现传统测试方法很难检测到的深层次内存溢出和少量内存泄露问题。

3 实战案例

数组越界异常是一种非常不好发现的运行时异常,代码编译阶段是不容易被发现的,一般隐藏的也比较深,bug重现的触发条件一般也比较严格,测试输入构造起来难度相对比较大,是一种典型的恶意报文攻击的目标。那么我们事先在DNS解析代码里面构造了几处数组越界的漏洞,看看通过LibFuzzer大神是否能够帮我们快速发现它们的藏身之处。

3.1 环境准备

源码编译LibFuzzer很是麻烦,幸运的是Clang在6.0版本之后已经天然集成了LibFuzzer,这样就只需下载新版本的Clang即可。如果觉得Clang源码安装也很麻烦可以直接选择编译好的release版本。Clang下载链接http://releases.llvm.org/download.html

3.2 接口改造

环境配置完毕之后开始进行模糊测试改造,被改造的目标函数要遵循一下几个要求:

  • 被测代码必须能接受任意输入(大,小,非法)。
  • 被测代码不能有执行exit()的分支
  • 如果使用多线程,多线程要在被测函数退出时join。
  • 被测代码不应该修改任何全局状态。
  • 被测代码的执行速度要尽可能的快,避免高复杂度的运算,记日志等。

我们选择了DNS报文的入口函数,即解析DNS报文的接口进行模糊改造,改造代码如下:

f886a27b3723b6cdbed3a7c77254634038f05652


由于被测程序基于DPDK开发,为了提升模糊测试的效果,需要将DPDK也进行改造。DPDK原生支持Clang编译,需修改dpdk/mk/toolchain/clang/rte.vars.mk

edaaa5421957190fc09bfe6e0fc4c22bcb406876

执行dpdk-setup.sh

d9189b7b0a370e69e0a028502cde41b207d32e88


选择12使用Clang编译DPDK。由于解析DNS报文的接口在业务流程上属于偏上层的接口,对其他代码有依赖,为了单独测试这一个接口,需要把其他依赖代码编译成静态库供LibFuzzer调用。

准备工作都完成之后可以编译fuzz taget了。

c06b1bc80e8ad1e87654082969f4461c13e5f1cb


3.3 开始测试

准备工作都就绪,现在可以测试了。

首先不指定语料库直接执行编译获得的可执行程序:

59e3a570d6924fc7e47901db248e805762102ef7

运行了一会儿就发现了一处越界错误:

a02f89cf900b5bec97e3c5395347b45d4a850095
5f7d4c5f9c17fe3db3007c822b38619124f08dd4

3.4 分析异常

发现问题,解决问题,我们再来看代码,问题出现在函数adns_dname_wire_check,该函数的作用是检查DNS query name和合法性,并且把query name都转成小写(DNS协议不区分大小写),其中问题出现在这么一段代码中:

74cffc703097537d23b6eabe7f50a829e63ff822


因为DNS协议规定一个域名wire format的最大长度为255字节,因此lower_name是一个长度为255字节的数组,用来存转小写后的query name,在给lower_name数组循环赋值的时候没有判断wire_len是否已经越界,如果遇到超长非法域名则lower_name数组会写越界。lower_name是一个局部数组,写越界就会写坏后面的栈空间,是一个高危风险。

3.5 测试结论

可见,LibFuzzer非常快速地帮我们发现了我们事先构建的数组越界异常,让我们在代码发布前就可以及早发现代码异常。

为了提高模糊测试效率,也可以指定语料库运行fuzz测试。语料库可以使用CZNIC收集的DNS报文的集合,https://github.com/CZ-NIC/dns-fuzzing。

执行方法:

a57ccc91526b51fe76960822d0043034504bceb5


针对DNS报文解析接口的fuzz测试最终发现了全部的数组越界异常。限于篇幅原因,本文不逐一分析。

4 写在最后

(1) DNS稳定性大于天

DNS作为网络基础服务,又是一种相对陈旧的网络协议,很容易受到黑客攻击,这几年针对DNS的攻击层出不穷,而一旦DNS出现了问题,影响波及范围广,影响力大,因此DNS是我们必须坚守的阵地。打铁还需自身强,在和攻击者的博弈中,需要对开发运维各个环节多维度收敛问题,尽力将风险降到最低。

(2) 不积跬步,无以致千里

Fuzz测试就是一个很好的从软件本身出发,查漏补缺的入口。虽然结合代码的白盒模糊测试虽然效果很好,但是需要按照接口函数逐个改造测试,工程量巨大,整个测试体系的建立是一个慢工出细活的过程,需要慢慢积累。

【阿里DNS团队】始终将软件可靠性放在第一位考虑,持续在软件可靠性上进行资源投入,通过黑盒+白盒结合的方式,以更高性价比的方式持续挖掘漏洞。

5 参考资料

http://llvm.org/docs/LibFuzzer.html


相关文章
|
5天前
|
人工智能 定位技术 SEO
我学 GEO 第 15 天:终于知道AI GEO该如何做?
我是暴走的莉莉酱,边旅行边研究AI GEO的数字游民。专注普通人如何提升“AI可见度”——让AI在回答用户问题时准确识别、理解并推荐你。不讲玄学,只做可测、可调、可持续的GEO实践。
409 125
|
7天前
|
机器学习/深度学习 人工智能 调度
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
HappyHorse 1.1 是新一代视频生成大模型,全面升级动态表现力、角色一致性、指令遵循、视觉质感与音画协同能力。支持I2V/T2V/R2V三类生成,适配短剧、电商广告、品牌营销等场景,提供高质、流畅、可控的AI视频生产力。
696 5
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
|
5天前
|
缓存 人工智能 运维
阿里云618百炼大模型Qwen3.7-Max功能、免费试用、订阅计费、配置接入详解
Qwen3.7-MAX是阿里云百炼平台推出的通义千问3.7系列旗舰大语言模型,专为智能体时代复杂任务打造,依托阿里云全域算力与自研技术,在逻辑推理、长文本处理、代码工程、长周期自主执行等领域达到行业顶尖水平。2026年618期间,该模型推出多重免费试用权益、按量计费5折、订阅套餐优惠等专属福利,覆盖个人开发者、团队与企业全场景需求,以下从核心功能、免费试用、订阅计费、配置接入四方面展开详细解析。
408 123
|
3天前
|
人工智能 自然语言处理 API
阿里云Token Plan团队版解析:功能、三档套餐与省钱订阅指南
阿里云百炼平台推出的Token Plan团队版,是面向企业与团队的AI大模型订阅服务,以Credits为统一计量单位,整合文本与图像生成模型,提供团队管理、数据安全、多工具兼容等核心能力,解决团队零散订阅AI服务的管理混乱、成本失控、数据安全等痛点。本文将从核心定位、套餐详情、计费规则、团队管理、工具兼容、便宜订阅技巧等方面,全面解析Token Plan团队版,帮助企业与团队高效、低成本地使用AI服务。
302 108
|
4天前
|
存储 人工智能 数据可视化
别再手动复制 Skill 了:多 Agent 时代的 Skill 管理方案
多 Agent 场景下 Skill 的统一管理与同步。
245 125
|
18天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
11天前
|
缓存 人工智能 运维
GLM 5.2自托管全流程实战:硬件选型、vLLM/SGLang部署与成本盈亏测算
2026年智谱发布GLM 5.2超大混合专家模型,区别于以往仅开放API的闭源大模型,该模型权重以MIT开源协议对外发布,企业与开发者可完整下载、本地审计、私有化部署,实现数据不出环境、自定义微调、自主调度推理资源。GLM 5.2拥有753B总参数,原生支持百万级上下文窗口,在代码生成、长文档推理、数学逻辑等多项基准测试中对标国际顶尖商用模型,是首款可完整自托管的前沿代码向大模型。
912 0
|
13天前
|
Linux 程序员 数据格式
【2026最新】Notepad++下载、安装和使用一篇搞定(附中文版安装包)
Notepad++ 是一款免费开源、轻量高效的 Windows 文本编辑器,支持 C/Python/HTML 等 80+ 语言语法高亮、代码折叠、正则替换、编码转换及插件扩展,专为程序员与文本处理用户打造,完美替代系统记事本。(239字)