深度数据包检测DPI开发解析

本文涉及的产品
云解析DNS,个人版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介:

深度数据包检测(Deep packet inspection,缩写为 DPI)是一种特殊的网络技术,一般网络设备只会查看以太网头部、IP头部而不会分析TCP/UDP里面的内容这种被称为浅数据包检测;与之对应的DPI会检查TCP/UDP里面的内容,所以称为深度数据包检测。

DPI一般是一个硬件或者软件,一般用“旁挂”的方式接入到网络。它会对网络中的每个数据包进行检查,识别出应用层协议,根据识别的协议采取一定的措施(比如记录HTTP访问行为)。对于TCP协议它可以识别完整的TCP交互过程(比如HTTP请求从请求到响应中间会有多次TCP数据包发送)。

深度数据包检测DPI开发解析

nDPI

nDPI是一个C语言编写的DPI库,用来实现软件DPI系统。它是从OpenDPI扩展而来,二者的架构和实现基本上差不多。https://github.com/ntop/nDPI此处是它的老巢,大家可以自己下载编译它。怎么编译,它的README写的非常清楚了我就不废话了(唯一一个文档~~囧)。

编译安装之后它生成/usr/local/lib/libndpi.(a,so)库文件(a静态库文件,so动态链接库);/usr/local/include/会安装相关的头文件。

我个人喜欢用 静态库文件,这样会把所有的二进制代码合并到一个可执行文件中运行的时候不需要安装一大堆库。另外我也不喜欢把东西放到/usr/local/lib下,所以我提供的代码是通过cmake做了一个“all in one”的编译。github上放到是1.6版本的,如果你想更新代码只要替换src文件夹就行了。

如何用nDPI

nDPI的代码写的很烂,也没有什么架构就是一团乱麻(其实稍微写写都要比这个好)。但是它至少还能正常工作而且是唯一一个“开放”的DPI库,所以无论什么原因你选择了它都必须忍受它的“丑陋”。

nDPI几乎没有文档说明,只带了一个“ndpiReader”的例子,写的“洋洋洒洒”如行云流水一般(就不吐槽了)。这就是我这篇文章的写作原因,希望能给使用nDPI的同学一点帮助。

初始化

nDPI最重要的一个数据结构是ndpi_detection_module_struct_t它通过ndpi_init_detection_module构造出来

深度数据包检测DPI开发解析

第一个参数用来计算nDPI分析协议的各种超时时间,一般精确到毫秒就可以了1000(nDPI协议分析部分和“全局部分”耦合非常紧,这个数据其实只有“协议分析模块”需要)

第二个、三个参数是封装过的“内存分配”函数;nDPI的内存管理非常乱,有些地方是我们自己申请内存而由nDPI内部帮我们释放。所以必须nDPI并不直接使用malloc、free之类的申请、释放内存而是交由程序员自己提供函数;

第三个参数是调试函数,如果定义了NDPI_ENABLE_DEBUG_MESSAGES那么nDPI会调用这个函数输出一些调试信息;

所有的nDPI API都是这种“鬼畜”风格,几乎是各种纠结。。。万幸我们只需要使用很少的API就可以完成任务了。

配置协议分析模块

nDPI支持多种协议,都在protocols文件夹中。编译的时候所有协议都会被放到nDPI库中。使用的时候我们可以自己设置需要开启那些分析模块

深度数据包检测DPI开发解析

NDPI_PROTOCOL_BITMASK定义开启协议的“位图”,通过NDPI_BITMASK_ADD函数可以添加支持的协议,最后调用ndpi_set_protocol_detection_bitmask2配置位图。

ndpi_set_protocol_detection_bitmask2函数的第一个参数就是ndpi_detection_module_struct_t(上面我们初始化的那个数据结构);第二个参数是位图标志。

特别注意:开启的协议越多识别速度越慢;nDPI识别协议的时候是一个串行结构,无论是否被成功是被都会认认真真遍历完我们配置好的协议

子协议

子协议是某个协议的细分,比如我们想要分析所有“Google”的HTTP请求那么第一步是分析出“HTTP”请求,第二步是判断HOST包含google.com。这里的第二步就是“子协议”。

nDPI唯一的一份“QuickStartGuide”对这个有进一步解释,子协议识别是以配置文件的方式提供给nDPI的。比如

深度数据包检测DPI开发解析

它还支持端口的方式(TCP的81、8181直接被标记为HTTP不再做内容检测)

深度数据包检测DPI开发解析

nDPI此处的实现使用了一个非常有名的算法—— Aho-Corasick。以第一幅图为例子,里面配置了两条规则“Google”和“Veneer”,我们有一个字符串(HOST),怎么判断这个字符串符合那个规则呢?最简单的办法是循环所有的规则,如果规则条目很多那么速度会非常慢。Aho-Corasick就是这样一种算法,它可以在O(n)中完成所有的匹配任务。

通过ndpi_load_protocols_file函数加载“子协议”。

深度数据包检测DPI开发解析

开始识别

识别协议的API非常简单——ndpi_detection_process_packet函数。就是这个坑爹的函数,变态程度几乎可以说用令人发指来形容。

深度数据包检测DPI开发解析

  • ndpi_struct全局的结构体
  • flow比较特殊,我们后面讲
  • packet指向IP头部的指针
  • packetlen数据包大小
  • current_tick_l当前时间(精确到毫秒)用于判断“过期的TCP请求”
  • src,dst其实没有什么用途,文档上说是跟状态机有关其实没有半毛钱关系。唯一的用途是更新“分析协议”的配置。一般设置为NULL就行了

TCP协议是一个流(flow)式的协议,经过从三次握手开始通讯双方都是“请求->响应”的结构。DPI可以跟踪其中的一个或者几个数据包,也可以实现全部跟踪(后续我会交叉使用TCP会话、会话、flow,三个名词其实是一样的)。

nDPI内部不会记录完整的TCP数据包,而是用一个定义非常模糊的ndpi_flow_struct类型来表示一个TCP会话(这个数据结构还包含了“协议分析”部分数据,所以定义非常模糊)。为了便于分析完整的TCP请求我们定义了一个自己的数据结构dpi_flow_t,ndpi_flow_struct作为它的一个成员。用伪代码表示分析过程:

深度数据包检测DPI开发解析

落到代码上就是get_ndpi_flow函数;实现上我们会对目标、源端口排序再做hash;这是由于数据包是“相互通讯”的所以发送方、接收方是相对而言,否则识别到的可能是“一方”的数据。

一般我们用一个二叉树存放所有正在分析的TCP会话,nDPI移植了FreeBSD中的一组函数ndpi_tfind、ndpi_tsearch、ndpi_twalk、ndpi_tdelete等用来实现常用的数据结构操作。

完成分析

调用完ndpi_detection_process_packet函数后我们需要检查返回值,如果它不等于NDPI_PROTOCOL_UNKNOWN证明就找到了协议类型。

DPI分析一般分为三种情况:

  • 第一个数据包就能确定协议类型,这种情况下找到“协议类型”后续直接把flow从二叉树中删除
  • 第N个数据包确定协议,flow数据包会一直存在在二叉树中,直到知道协议类型。这种情况下每次我们调用ndpi_detection_process_packet传递的flow其实是相同的数据
  • 一直无法确定协议类型,flow经历过一段时间之后超时,我们认为无法识别出协议释放相关数据。

前两种情况可以合二为一,都是判断出协议类型后释放资源;第三种请比较特殊,我们需要遍历整个二叉树寻找“过期”的flow然后删除。这就是例子中最后一部分的含义(遍历的时候我们每次寻找一个flow,用变量idle_scan_idx表示)。


本文作者:佚名

来源:51CTO

相关文章
|
8天前
|
存储 编解码
FFmpeg开发笔记(三十)解析H.264码流中的SPS帧和PPS帧
《FFmpeg开发实战》书中介绍了音视频编码历史,重点讲述H.264的成功在于其分为视频编码层和网络抽象层。H.264帧类型包括SPS(序列参数集,含视频规格参数),PPS(图像参数集,含编码参数)和IDR帧(立即解码刷新,关键帧)。SPS用于计算视频宽高和帧率,PPS存储编码设置,IDR帧则标志新的解码序列。书中还配以图片展示各帧结构详情,完整内容可参考相关书籍。
36 7
FFmpeg开发笔记(三十)解析H.264码流中的SPS帧和PPS帧
|
4天前
|
SQL 监控 关系型数据库
深入解析MySQL死锁:原因、检测与解决方案
深入解析MySQL死锁:原因、检测与解决方案
|
4天前
|
前端开发 数据库 开发者
构建高效后端:Django框架在Web开发中的深度解析
**Django框架深度解析摘要** Django,Python的高级Web框架,以其快速开发和简洁设计备受青睐。核心特性包括Model-Template-View架构、ORM、模板引擎和URL路由。通过创建博客应用示例,展示从初始化项目、定义模型、创建视图和URL配置到使用模板的流程,体现Django如何简化开发,提高效率。其强大功能如用户认证、表单处理等,使Django成为复杂Web应用开发的首选。学习Django,提升Web开发效率。【6月更文挑战第24天】
34 1
|
8天前
|
Java 开发工具 Android开发
安卓与iOS开发差异解析
【6月更文挑战第21天】本文旨在深入探讨安卓和iOS两大移动操作系统在应用开发过程中的主要差异。通过对比分析,揭示各自的设计哲学、编程语言选择、用户界面构建、性能优化策略以及发布流程的异同。文章将提供开发者视角下的实用信息,帮助他们更好地理解各自平台的特点和挑战,从而做出更明智的开发决策。
|
2月前
|
前端开发 JavaScript Java
Java与CSS:解析在Web开发中的协同作用
Java与CSS:解析在Web开发中的协同作用
|
2月前
|
网络协议 网络安全 数据安全/隐私保护
内容安全(DPI和DFI解析)
内容安全(DPI和DFI解析)
63 6
|
2月前
|
缓存 负载均衡 网络协议
使用Go语言开发高性能服务的深度解析
【5月更文挑战第21天】本文深入探讨了使用Go语言开发高性能服务的技巧,强调了Go的并发性能、内存管理和网络编程优势。关键点包括:1) 利用goroutine和channel进行并发处理,通过goroutine池优化资源;2) 注意内存管理,减少不必要的分配和释放,使用pprof分析;3) 使用非阻塞I/O和连接池提升网络性能,结合HTTP/2和负载均衡技术;4) 通过性能分析、代码优化、缓存和压缩等手段进一步提升服务性能。掌握这些技术能帮助开发者构建更高效稳定的服务。
|
2月前
|
Android开发
Android高级开发面试题以及笞案整理,实战解析
Android高级开发面试题以及笞案整理,实战解析
|
2月前
|
Android开发
Flutter完整开发实战详解(六、 深入Widget原理),2024百度Android岗面试真题收录解析
Flutter完整开发实战详解(六、 深入Widget原理),2024百度Android岗面试真题收录解析
|
2月前
|
人工智能 文字识别 自然语言处理
准确高效的TextIn文档解析:一项开发痛点的解决方案
企业在构建知识库问答系统时面临挑战,尤其是处理扫描文档和手写内容。传统OCR工具和开源方法在准确性和速度上不足。专业长文档解析成为关键,其中TextIn平台的文档解析服务脱颖而出。该服务能快速将PDF转为Markdown,提高处理速度和准确性,尤其适合处理复杂布局的长文档。通过实际测试,TextIn能有效增强LLM问答系统的性能,解决无法正确解析的问题。目前TextIn处于内测阶段,提供每周7000页的免费试用额度,开发者可通过其官网或“合研社”公众号了解更多信息和获取接口文档。

推荐镜像

更多