阿里DNS:用LibFuzzer照亮DNS代码的死角

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 【阿里DNS团队】在很久之前就已经认识到恶意报文防御在整个DNS系统安全稳定保障工作中的重要性,也花了非常大的精力在这个方面做了很多的研究和实践,今天我们就简要介绍一下我们在DNS代码白盒Fuzzing测试方面的一些工作,以供跟大家交流和学习。

1 引言

2018年11月初,国内某云解析服务提供商出现大规模服务不可用故障,在业界引起了不小的震动,以下是官方的故障复盘公告:

cc767bdc04c1e1ad5c2533e422bdce8c3a1e6bdf

技术复盘中很明确地说明了此次故障的起因:大量恶意请求报文攻击触发了软件的bug或漏洞,导致解析服务不可用。

作为域名解析保有量亚洲第一、全球第二的权威域名托管服务商,【阿里DNS团队】打造的阿里云云解析产品和服务(https://help.aliyun.com/product/29697.html),一直致力于通过技术的力量让整个解析服务更加稳定、更加安全和更加快速,在用户服务体验上持续改进。

【阿里DNS团队】在很久之前就已经认识到恶意报文防御在整个DNS系统安全稳定保障工作中的重要性,也花了非常大的精力在这个方面做了很多的研究和实践,下面就简要介绍一下我们在DNS代码白盒Fuzzing测试方面的一些工作。

2 技术方案选型

恶意报文攻击的核心在于攻击者利用了软件处理数据报文的漏洞或者bug,导致软件执行异常或者异常退出,进而导致服务不可用。恶意报文攻击防御要解决的核心问题是尽可能早和尽可能全的发现软件中存在的漏洞,因此需要系统的方法和工具来解决这个问题。

而软件漏洞挖掘属于软件安全或者代码安全的范畴,而阿里巴巴集团安全团队的同学在软件漏洞挖掘领域有非常成熟的可工程落地的经验,因此我们可以利用这些已有的工具和方法帮助我们高效地挖掘DNS软件的漏洞。经过分析和比对,我们最终选定的方案是通过Libfuzzer对DNS软件进行白盒Fuzzing测试。

那么我们为什么使用LibFuzzer呢?

LibFuzzer是一种支持持续执行,基于代码覆盖率的引导式模糊测试引擎。LibFuzzer与被测试的代码链接,然后通过特定的模糊入口(也称为“目标函数”)将模糊输入的样例集提供给LibFuzzer。模糊器跟踪代码会执行到哪些代码块并且收集程序崩溃,内存溢出,内存泄漏等错误,同时对输入数据根据代码覆盖率产生突变,以便最大化覆盖代码达到模糊测试的目的。LibFuzzer的代码覆盖信息由LLVM的SanitizerCoverage指令执行提供。

LibFuzzer相比其他模糊测试平台有如下几个优势:

  • 基于代码覆盖率的引导式模糊测试引擎,相比其他黑盒模糊测试平台如peach,codenomicon等商用工具,其成本低廉,并且代码路径覆盖更加自主可控。
  • LibFuzzer在对网络协议进行模糊测试时不会解析完成后退出,并且LibFuzzer的输入为一串指定长度的字节序列,模糊测试改造更简单,更适合网络协议白盒fuzz测试的场景。
  • 原有单元测试用例改造简单高效,可以按照统一框架生成新的单元测试,提高原有测试资产质量和问题发现概率。
  • 基于地址消毒剂技术进行内存监控,能过发现传统测试方法很难检测到的深层次内存溢出和少量内存泄露问题。

3 实战案例

数组越界异常是一种非常不好发现的运行时异常,代码编译阶段是不容易被发现的,一般隐藏的也比较深,bug重现的触发条件一般也比较严格,测试输入构造起来难度相对比较大,是一种典型的恶意报文攻击的目标。那么我们事先在DNS解析代码里面构造了几处数组越界的漏洞,看看通过LibFuzzer大神是否能够帮我们快速发现它们的藏身之处。

3.1 环境准备

源码编译LibFuzzer很是麻烦,幸运的是Clang在6.0版本之后已经天然集成了LibFuzzer,这样就只需下载新版本的Clang即可。如果觉得Clang源码安装也很麻烦可以直接选择编译好的release版本。Clang下载链接http://releases.llvm.org/download.html

3.2 接口改造

环境配置完毕之后开始进行模糊测试改造,被改造的目标函数要遵循一下几个要求:

  • 被测代码必须能接受任意输入(大,小,非法)。
  • 被测代码不能有执行exit()的分支
  • 如果使用多线程,多线程要在被测函数退出时join。
  • 被测代码不应该修改任何全局状态。
  • 被测代码的执行速度要尽可能的快,避免高复杂度的运算,记日志等。

我们选择了DNS报文的入口函数,即解析DNS报文的接口进行模糊改造,改造代码如下:

f886a27b3723b6cdbed3a7c77254634038f05652


由于被测程序基于DPDK开发,为了提升模糊测试的效果,需要将DPDK也进行改造。DPDK原生支持Clang编译,需修改dpdk/mk/toolchain/clang/rte.vars.mk

edaaa5421957190fc09bfe6e0fc4c22bcb406876

执行dpdk-setup.sh

d9189b7b0a370e69e0a028502cde41b207d32e88


选择12使用Clang编译DPDK。由于解析DNS报文的接口在业务流程上属于偏上层的接口,对其他代码有依赖,为了单独测试这一个接口,需要把其他依赖代码编译成静态库供LibFuzzer调用。

准备工作都完成之后可以编译fuzz taget了。

c06b1bc80e8ad1e87654082969f4461c13e5f1cb


3.3 开始测试

准备工作都就绪,现在可以测试了。

首先不指定语料库直接执行编译获得的可执行程序:

59e3a570d6924fc7e47901db248e805762102ef7

运行了一会儿就发现了一处越界错误:

a02f89cf900b5bec97e3c5395347b45d4a850095
5f7d4c5f9c17fe3db3007c822b38619124f08dd4

3.4 分析异常

发现问题,解决问题,我们再来看代码,问题出现在函数adns_dname_wire_check,该函数的作用是检查DNS query name和合法性,并且把query name都转成小写(DNS协议不区分大小写),其中问题出现在这么一段代码中:

74cffc703097537d23b6eabe7f50a829e63ff822


因为DNS协议规定一个域名wire format的最大长度为255字节,因此lower_name是一个长度为255字节的数组,用来存转小写后的query name,在给lower_name数组循环赋值的时候没有判断wire_len是否已经越界,如果遇到超长非法域名则lower_name数组会写越界。lower_name是一个局部数组,写越界就会写坏后面的栈空间,是一个高危风险。

3.5 测试结论

可见,LibFuzzer非常快速地帮我们发现了我们事先构建的数组越界异常,让我们在代码发布前就可以及早发现代码异常。

为了提高模糊测试效率,也可以指定语料库运行fuzz测试。语料库可以使用CZNIC收集的DNS报文的集合,https://github.com/CZ-NIC/dns-fuzzing。

执行方法:

a57ccc91526b51fe76960822d0043034504bceb5


针对DNS报文解析接口的fuzz测试最终发现了全部的数组越界异常。限于篇幅原因,本文不逐一分析。

4 写在最后

(1) DNS稳定性大于天

DNS作为网络基础服务,又是一种相对陈旧的网络协议,很容易受到黑客攻击,这几年针对DNS的攻击层出不穷,而一旦DNS出现了问题,影响波及范围广,影响力大,因此DNS是我们必须坚守的阵地。打铁还需自身强,在和攻击者的博弈中,需要对开发运维各个环节多维度收敛问题,尽力将风险降到最低。

(2) 不积跬步,无以致千里

Fuzz测试就是一个很好的从软件本身出发,查漏补缺的入口。虽然结合代码的白盒模糊测试虽然效果很好,但是需要按照接口函数逐个改造测试,工程量巨大,整个测试体系的建立是一个慢工出细活的过程,需要慢慢积累。

【阿里DNS团队】始终将软件可靠性放在第一位考虑,持续在软件可靠性上进行资源投入,通过黑盒+白盒结合的方式,以更高性价比的方式持续挖掘漏洞。

5 参考资料

http://llvm.org/docs/LibFuzzer.html


相关文章
|
4天前
|
自然语言处理 搜索推荐 数据安全/隐私保护
鸿蒙登录页面好看的样式设计-HarmonyOS应用开发实战与ArkTS代码解析【HarmonyOS 5.0(Next)】
鸿蒙登录页面设计展示了 HarmonyOS 5.0(Next)的未来美学理念,结合科技与艺术,为用户带来视觉盛宴。该页面使用 ArkTS 开发,支持个性化定制和无缝智能设备连接。代码解析涵盖了声明式 UI、状态管理、事件处理及路由导航等关键概念,帮助开发者快速上手 HarmonyOS 应用开发。通过这段代码,开发者可以了解如何构建交互式界面并实现跨设备协同工作,推动智能生态的发展。
38 10
鸿蒙登录页面好看的样式设计-HarmonyOS应用开发实战与ArkTS代码解析【HarmonyOS 5.0(Next)】
|
23天前
|
PHP 开发者 容器
PHP命名空间深度解析:避免命名冲突与提升代码组织####
本文深入探讨了PHP中命名空间的概念、用途及最佳实践,揭示其在解决全局命名冲突、提高代码可维护性方面的重要性。通过生动实例和详尽分析,本文将帮助开发者有效利用命名空间来优化大型项目结构,确保代码的清晰与高效。 ####
21 1
|
1月前
|
机器学习/深度学习 存储 人工智能
强化学习与深度强化学习:深入解析与代码实现
本书《强化学习与深度强化学习:深入解析与代码实现》系统地介绍了强化学习的基本概念、经典算法及其在深度学习框架下的应用。从强化学习的基础理论出发,逐步深入到Q学习、SARSA等经典算法,再到DQN、Actor-Critic等深度强化学习方法,结合Python代码示例,帮助读者理解并实践这些先进的算法。书中还探讨了强化学习在无人驾驶、游戏AI等领域的应用及面临的挑战,为读者提供了丰富的理论知识和实战经验。
55 5
|
1月前
|
存储 安全 Java
系统安全架构的深度解析与实践:Java代码实现
【11月更文挑战第1天】系统安全架构是保护信息系统免受各种威胁和攻击的关键。作为系统架构师,设计一套完善的系统安全架构不仅需要对各种安全威胁有深入理解,还需要熟练掌握各种安全技术和工具。
143 10
|
1月前
|
前端开发 JavaScript 开发者
揭秘前端高手的秘密武器:深度解析递归组件与动态组件的奥妙,让你代码效率翻倍!
【10月更文挑战第23天】在Web开发中,组件化已成为主流。本文深入探讨了递归组件与动态组件的概念、应用及实现方式。递归组件通过在组件内部调用自身,适用于处理层级结构数据,如菜单和树形控件。动态组件则根据数据变化动态切换组件显示,适用于不同业务逻辑下的组件展示。通过示例,展示了这两种组件的实现方法及其在实际开发中的应用价值。
44 1
|
2月前
|
机器学习/深度学习 人工智能 算法
揭开深度学习与传统机器学习的神秘面纱:从理论差异到实战代码详解两者间的选择与应用策略全面解析
【10月更文挑战第10天】本文探讨了深度学习与传统机器学习的区别,通过图像识别和语音处理等领域的应用案例,展示了深度学习在自动特征学习和处理大规模数据方面的优势。文中还提供了一个Python代码示例,使用TensorFlow构建多层感知器(MLP)并与Scikit-learn中的逻辑回归模型进行对比,进一步说明了两者的不同特点。
104 2
|
2月前
|
存储 搜索推荐 数据库
运用LangChain赋能企业规章制度制定:深入解析Retrieval-Augmented Generation(RAG)技术如何革新内部管理文件起草流程,实现高效合规与个性化定制的完美结合——实战指南与代码示例全面呈现
【10月更文挑战第3天】构建公司规章制度时,需融合业务实际与管理理论,制定合规且促发展的规则体系。尤其在数字化转型背景下,利用LangChain框架中的RAG技术,可提升规章制定效率与质量。通过Chroma向量数据库存储规章制度文本,并使用OpenAI Embeddings处理文本向量化,将现有文档转换后插入数据库。基于此,构建RAG生成器,根据输入问题检索信息并生成规章制度草案,加快更新速度并确保内容准确,灵活应对法律与业务变化,提高管理效率。此方法结合了先进的人工智能技术,展现了未来规章制度制定的新方向。
50 3
|
2月前
|
SQL 监控 关系型数据库
SQL错误代码1303解析与处理方法
在SQL编程和数据库管理中,遇到错误代码是常有的事,其中错误代码1303在不同数据库系统中可能代表不同的含义
|
2月前
|
SQL 安全 关系型数据库
SQL错误代码1303解析与解决方案:深入理解并应对权限问题
在数据库管理和开发过程中,遇到错误代码是常见的事情,每个错误代码都代表着一种特定的问题
|
3月前
|
敏捷开发 安全 测试技术
软件测试的艺术:从代码到用户体验的全方位解析
本文将深入探讨软件测试的重要性和实施策略,通过分析不同类型的测试方法和工具,展示如何有效地提升软件质量和用户满意度。我们将从单元测试、集成测试到性能测试等多个角度出发,详细解释每种测试方法的实施步骤和最佳实践。此外,文章还将讨论如何通过持续集成和自动化测试来优化测试流程,以及如何建立有效的测试团队来应对快速变化的市场需求。通过实际案例的分析,本文旨在为读者提供一套系统而实用的软件测试策略,帮助读者在软件开发过程中做出更明智的决策。

相关产品

  • 云解析DNS
  • 推荐镜像

    更多