基于eBPF技术的开源项目Kindling之HTTP协议解析

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: Kindling是一款基于eBPF技术的云原生可观测性开源项目。本文将主要介绍如何通过Kindling对HTTP协议进行解析。

在故障排查过程中,我们通常对请求性能、请求内容和返回内容感兴趣。这使我们能知道请求和接收了什么内容,是否有异常等基本信息。如何获取请求的具体详细信息,传统方式是通过tcpdump获取请求包数据,然后通过wireshark查看其具体协议内容。

tcpdump虽然在生产环境中经常使用,但由于获取的数据量和大小限制,不适合一直开启,只有在排查问题时使用。而获取的数据也无法直接查看,需下载到本地通过wireshark分析查看。基于tcp的诸多问题,所以Kindling通过eBPF方式实现请求的具体分析。

那么Kindling是如何实现实时可用的协议解析功能呢?主要涉及3块功能:

  • 数据采集
  • 请求/响应关联
  • 请求/响应解析

协议解析流程图.png

协议解析流程图


1 数据采集

先来查看下一个简单的HTTP服务

HTTP服务伪代码.png

HTTP服务伪代码


当接收到请求时会有accept/read/write/close等函数执行,这些函数最终执行内核的系统调用。

HTTP服务接收请求流程图.png

HTTP服务接收请求流程图


使用strace命令查看一次请求的系统调用情况

  • read接收HTTP请求/test
  • 第一个write日志输出
  • 第二个write 返回HTTP结果

68427606-C89D-492B-AE4A-1EC4EAA6EDD9.png

从日志中可分析出,请求通过read系统调用,日志和响应都是通过write系统调用。

Kindling已实现对系统事件调用进行抓取,并将相关的read和write系统调用转换为Kindling事件,最终生成3条事件。事件格式定义可参见kindling_event.proto

系统调用与Kindling事件映射.png

系统调用与Kindling事件映射


参数说明:

  • fd 读写请求的文件描述符
  • size 请求报文大小
  • res 返回大小
  • data 请求报文内容
  • latency 读/写操作耗时
  • category 事件类型,NET是指网络事件,FILE是文件读写事件


2 请求/响应关联

常规的TCP请求都会用同一个FD进行通信,只需根据进程号和FD就能关联同一个请求和响应。

请求-响应关联.png

请求-响应关联


3 请求/响应解析

虽然有了报文,但不同的协议定义的规范也不同。那么如何知道该报文是什么协议,并且用该协议进行解析呢?主要涉及2块内容:

  • 协议识别
  • 协议解析

请求-响应解析流程图.png

请求-响应解析流程图


3.1 协议识别

通过特征或关键字快速匹配协议,减少协议解析的次数,提升整体解析的性能。

HTTP报文规范.png

HTTP报文规范


对于HTTP请求来说,通过HTTP版本号(HTTP/1.0或HTTP/1.1)可以快速识别协议。

但由于抓包大小限制,如果一个请求的URL长度超过包的大小,那么无法获取后续的HTTP版本号,于是采用端口协议配置方式也能识别协议。


3.2协议解析

协议解析是为了产生指标用于后续分析,在解析过程中需根据协议自身的格式进行解析。

由于报文内容是byte数组格式,Kindling提供了封装好的API用于解析。

C1919449-34B2-4696-8D90-ABD3CFF328A6.png

以HTTP协议为例,可解析出如下信息:

  • 请求行 - 方法、URL信息
  • HTTP头信息 - traceId信息
  • 状态行 - 状态码信息

HTTP解析样例.png

HTTP解析样例


3.2.1 解析HTTP请求

解析请求过程就是对请求进行逐帧解析,读取到对应的属性后最终将值存储到attribute中

Xnip2022-04-26_15-39-49.jpg


3.2.2 解析HTTP响应

解析响应跟解析请求类似,也是逐帧解析,将解析出的属性存储到attribute中。

此外,需考虑报文非法场景(状态码非数值),确保解析正常结束。

Xnip2022-04-26_15-40-36.jpg


KINDLING项目地址:KINDLING

欢迎对云可观测性感兴趣的小伙伴与我们联系:Kindling官网

目录
相关文章
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
91 10
|
4天前
|
人工智能 搜索推荐 API
Cobalt:开源的流媒体下载工具,支持解析和下载全平台的视频、音频和图片,支持多种视频质量和格式,自动提取视频字幕
cobalt 是一款开源的流媒体下载工具,支持全平台视频、音频和图片下载,提供纯净、简洁无广告的体验
98 9
Cobalt:开源的流媒体下载工具,支持解析和下载全平台的视频、音频和图片,支持多种视频质量和格式,自动提取视频字幕
|
4天前
|
人工智能 自然语言处理 Java
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
51 9
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
|
2天前
|
自然语言处理 文字识别 数据处理
多模态文件信息抽取:技术解析与实践评测!
在大数据和人工智能时代,企业和开发者面临的挑战是如何高效处理多模态数据(文本、图像、音频、视频)以快速提取有价值信息。传统方法效率低下,难以满足现代需求。本文将深度评测阿里云的多模态文件信息抽取解决方案,涵盖部署、应用、功能与性能,揭示其在复杂数据处理中的潜力。通过自然语言处理(NLP)、计算机视觉(CV)、语音识别(ASR)等技术,该方案助力企业挖掘多模态数据的价值,提升数据利用效率。
12 4
多模态文件信息抽取:技术解析与实践评测!
|
1天前
|
监控 安全 数据可视化
哪些项目适合采用BOT+EPC模式?深度解析
2分钟了解什么是BOT+EPC项目管理模式以及该模式适用于哪些类型的项目。
15 1
哪些项目适合采用BOT+EPC模式?深度解析
|
5天前
|
域名解析 负载均衡 安全
DNS技术标准趋势和安全研究
本文探讨了互联网域名基础设施的结构性安全风险,由清华大学段教授团队多年研究总结。文章指出,DNS系统的安全性不仅受代码实现影响,更源于其设计、实现、运营及治理中的固有缺陷。主要风险包括协议设计缺陷(如明文传输)、生态演进隐患(如单点故障增加)和薄弱的信任关系(如威胁情报被操纵)。团队通过多项研究揭示了这些深层次问题,并呼吁构建更加可信的DNS基础设施,以保障全球互联网的安全稳定运行。
|
5天前
|
缓存 网络协议 安全
融合DNS技术产品和生态
本文介绍了阿里云在互联网基础资源领域的最新进展和解决方案,重点围绕共筑韧性寻址、赋能新质生产展开。随着应用规模的增长,基础服务的韧性变得尤为重要。阿里云作为互联网资源的践行者,致力于推动互联网基础资源技术研究和自主创新,打造更韧性的寻址基础服务。文章还详细介绍了浙江省IPv6创新实验室的成立背景与工作进展,以及阿里云在IPv6规模化部署、DNS产品能力升级等方面的成果。此外,阿里云通过端云融合场景下的企业级DNS服务,帮助企业构建稳定安全的DNS系统,确保企业在数字世界中的稳定运行。最后,文章强调了全链路极致高可用的企业DNS解决方案,为全球互联网基础资源的创新提供了中国标准和数字化解决方案。
|
5天前
|
缓存 边缘计算 网络协议
深入解析CDN技术:加速互联网内容分发的幕后英雄
内容分发网络(CDN)是现代互联网架构的重要组成部分,通过全球分布的服务器节点,加速网站、应用和多媒体内容的传递。它不仅提升了访问速度和用户体验,还减轻了源站服务器的负担。CDN的核心技术包括缓存机制、动态加速、流媒体加速和安全防护,广泛应用于静态资源、动态内容、视频直播及大文件下载等场景,具有低延迟、高带宽、稳定性强等优势,有效降低成本并保障安全。
25 3
|
23天前
|
负载均衡 监控 安全
HTTP代理IP的安全与稳定技术与策略的结合
随着科技与互联网的发展,企业对代理的需求日益增长。为加强HTTP代理IP的安全性和稳定性,可采取用户教育、使用加密协议、定期更换IP、监控可用性、设置访问控制、负载均衡、配置防火墙及定期更新维护等措施。这些方法能有效提升代理服务的安全性和可靠性。
22 7
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
秒级响应 + 99.9%准确率:法律行业文本比对技术解析
本工具基于先进AI技术,采用自然语言处理和语义匹配算法,支持PDF、Word等格式,实现法律文本的智能化比对。具备高精度语义匹配、多格式兼容、高性能架构及智能化标注与可视化等特点,有效解决文本复杂性和法规更新难题,提升法律行业工作效率。

推荐镜像

更多