高性能网络SIG月度动态:自研 IPPROTO_SMC 贡献 Linux 社区,virtio 增加多项优化

简介: 龙蜥社区高性能网络SIG项目进展一览。

高性能网络 SIG(Special Interest Group)在这个万物互联的时代,云上的网络通信效率对各种服务至关重要,高性能网络兴趣组致力于利用 XDP、RDMA、VIRTIO 等新高效通信技术,结合软硬件一体化的思想,打造高性能网络协议栈,提升云计算时代数据中心应用的网络性能。

一、整体进展

本月高性能网络 SIG 的主要工作聚焦在 ANCK virtio 以及 SMC 上。

本月关键进展

1. ANCK 5.10 内核 virtio-net 新增支持设备状态统计、control vq timeout 和队列重置能力,并优化了控制通道性能。

2. SIG 将自研的 IPPROTO_SMC 方案贡献给上游社区,目前已经获取 Linux 社区认可。

二、ANCK 通用内核网络协议栈

修复

ANCK 5.10 修复 inet_diag() 中潜在数据竞争的问题 (RP3173),预计随着 017 版本发布。

三、SMC

本月 SIG 在 SMC 上的工作主要聚焦于推动 IPPROTO_SMC 方案进入上游主线以及缺陷修复。

IPPROTO_SMC

IPPROTO_SMC[1] 是 SIG 为 IP 协议族新增的一个协议类型。当用户创建 socket 时,IPPROTO_SMC 用来指示底层网络通信应该使用 SMC 协议,其和 IPPROTO_TCP/IPPROTO_UDP 同级。引入 IPPROTO_SMC 旨在提高 SMC 和 TCP 在功能上的一致性,使 SMC 回退到 TCP 协议后在功能路径上与 TCP 仍然保持一致。基于 IPPROTO_SMC,SMC 能够应用几乎所有为 INET 路径创建的 ebpf 功能,使得 SMC 可以使用 ebpf 非常细粒度的控制,并灵活地将 TCP 连接切换成 SMC 连接。此外,ANCK 还基于 IPPROTO_SMC 优化了 SMC 的回退性能,使其在回退到 TCP 的场景下性能和直接使用 TCP 的短连性能差距最差情况相差不超过 6%。

缺陷修复

SIG 本月修复了 SMC 引用计数泄漏[2]和 sk_{sndbuf|rcvbuf} [3]相关缺陷。

四、virtio

本月高性能网络 SIG 在 virtio 领域的工作主要聚焦于控制通道性能优化,支持 control vq timeout、设备统计计数和队列重置。SIG 已把这些特性贡献到了 Linux 上游社区,同时本月将这些特性都回合到了 ANCK,这些功能都将随 ANCK-017 发布。

控制通道性能优化

virtio-net 的 control vq 目前只能同时处理一个请求,这在很大程度上限制了控制通道的效率和灵活性。例如,NetDIM(网络中断调节)是一个现代网卡广泛支持的特性,其通过发送队列级的配置请求来提升性能。随着队列数量的增加,需要发送的配置请求数量也会相应增加。因此,请求发送的效率直接影响了 netdim 为 virtio-net 带来的性能提升,这对 virtio-net 控制通道提出了更高的性能要求。为了解决此问题,SIG 使用了更轻量的锁替换 control vq 曾使用的全局 netlink 锁,并引入了异步提交请求的机制,这些改进允许 control vq 同时处理多个请求,显著提升了 virtio-net 控制通道处理并发请求的性能,还帮助 virtio-net 基于 netdim 实现更佳的性能表现。

control vq timeout

虚拟机使用 virtio-net 网卡时,通常借助 control vq 来提交设备配置的请求。为了获取请求的处理结果,虚拟机需要轮询检查 control vq,直到接收到响应。然而,若设备一直未及时回应这些请求,虚拟机的 CPU 便会持续在高负荷下轮询,这种情况甚至可能导致整机完全 Hang 住。为了解决此问题,SIG 引入了 control vq timeout 机制:自驱动发送命令开始计时,如果在 timeout 超时时间内,设备仍未返回任何响应结果,驱动则认为该设备可能已经出现故障,进而标记驱动不应发送更多请求。该 timeout 值以 ANCK 内核模块参数的形式提供,默认值为 7 天。

设备统计计数

virtio-net 设备曾经无法获取后端设备的统计信息,这些信息对于用户来说,在分析和解决网络问题时至关重要,而用户只能通过云厂商自定义接口来获取某些信息。为了解决此问题,SIG 此前在 virtio 社区成功完成了 virtio-net 对device stats的支持。本月,SIG 也为 ANCK 正式支持了这项功能。这意味着用户现在可以通过用户空间 ethtool 命令直接获取 virtio-net 设备上的统计信息,为分析网络环境提供更多有价值的信息。

队列重置

队列重置功能允许虚拟机停止特定队列,回收并重新分配其内存资源,然后重新启用该队列。这一能力使得用户能够根据特定场景的需求,使用用户态 ethtool 工具调整虚拟机的队列尺寸 ,以优化时延性能表现。此外,在加载 XDP 程序时,驱动程序可以利用队列重置功能,清除所有接收队列中的旧缓冲区,以减少因预填充缓冲区格式不匹配导致的少量数据包丢失,确保数据传输的连续性和完整性。


相关链接:

[1]https://lore.kernel.org/netdev/1717592180-66181-1-git-send-email-alibuda@linux.alibaba.com/

[2]https://lore.kernel.org/netdev/20240507125331.2808-1-guwen@linux.alibaba.com/

[3]https://lore.kernel.org/netdev/20240531085417.43104-1-guwen@linux.alibaba.com/


高性能网络 SIG 主页:

https://openanolis.cn/sig/high-perf-network


注:更多龙蜥 SIG 月度动态可点击这里查看。

相关文章
|
3天前
|
机器学习/深度学习 算法
基于改进遗传优化的BP神经网络金融序列预测算法matlab仿真
本项目基于改进遗传优化的BP神经网络进行金融序列预测,使用MATLAB2022A实现。通过对比BP神经网络、遗传优化BP神经网络及改进遗传优化BP神经网络,展示了三者的误差和预测曲线差异。核心程序结合遗传算法(GA)与BP神经网络,利用GA优化BP网络的初始权重和阈值,提高预测精度。GA通过选择、交叉、变异操作迭代优化,防止局部收敛,增强模型对金融市场复杂性和不确定性的适应能力。
110 80
|
12天前
|
机器学习/深度学习 算法 PyTorch
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
本文探讨了图神经网络(GNN)与大型语言模型(LLM)结合在知识图谱问答中的应用。研究首先基于G-Retriever构建了探索性模型,然后深入分析了GNN-RAG架构,通过敏感性研究和架构改进,显著提升了模型的推理能力和答案质量。实验结果表明,改进后的模型在多个评估指标上取得了显著提升,特别是在精确率和召回率方面。最后,文章提出了反思机制和教师网络的概念,进一步增强了模型的推理能力。
35 4
基于图神经网络的大语言模型检索增强生成框架研究:面向知识图谱推理的优化与扩展
|
9天前
|
域名解析 缓存 网络协议
优化Lua-cURL:减少网络请求延迟的实用方法
优化Lua-cURL:减少网络请求延迟的实用方法
|
9天前
|
数据采集 监控 安全
公司网络监控软件:Zig 语言底层优化保障系统高性能运行
在数字化时代,Zig 语言凭借出色的底层控制能力和高性能特性,为公司网络监控软件的优化提供了有力支持。从数据采集、连接管理到数据分析,Zig 语言确保系统高效稳定运行,精准处理海量网络数据,保障企业信息安全与业务连续性。
32 4
|
27天前
|
存储 缓存 监控
Docker容器性能调优的关键技巧,涵盖CPU、内存、网络及磁盘I/O的优化策略,结合实战案例,旨在帮助读者有效提升Docker容器的性能与稳定性。
本文介绍了Docker容器性能调优的关键技巧,涵盖CPU、内存、网络及磁盘I/O的优化策略,结合实战案例,旨在帮助读者有效提升Docker容器的性能与稳定性。
67 7
|
25天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于贝叶斯优化CNN-GRU网络的数据分类识别算法matlab仿真
本项目展示了使用MATLAB2022a实现的贝叶斯优化、CNN和GRU算法优化效果。优化前后对比显著,完整代码附带中文注释及操作视频。贝叶斯优化适用于黑盒函数,CNN用于时间序列特征提取,GRU改进了RNN的长序列处理能力。
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
56 8
|
14天前
|
Go 数据安全/隐私保护 UED
优化Go语言中的网络连接:设置代理超时参数
优化Go语言中的网络连接:设置代理超时参数
|
11天前
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
51 17
|
22天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将介绍网络安全的重要性,分析常见的网络安全漏洞及其危害,探讨加密技术在保障网络安全中的作用,并强调提高安全意识的必要性。通过本文的学习,读者将了解网络安全的基本概念和应对策略,提升个人和组织的网络安全防护能力。