背景
龙蜥社区系统运维联盟(以下简称“联盟”)的主要工作是通过与信通院、高校、平台和运维厂商等通力合作,围绕 OS 业务系统和运维系统进行评测标准和评测系统的建立。Coolbpf 作为系统运维联盟评测系统数据采集的基础组件,同时也是 SysOM 运维系统节点端的 eBPF 数据采集平台,根据联盟工作和业务发展需要,于近期做了非常多的更新,引入了多个开源特性以及新开发特性,支持了 eNetSTL 软件网络功能、用户态 userprobe 功能(bpftime,不需要经过用户态和内核态的切换,降低开销)、eBPF 抓包功能(rdump)、多语言持续剖析 profiler 功能等。
就在 9 月份举行的云栖大会上,龙蜥社区发布了 eBPF 技术实践白皮书也介绍了上述的某些功能,得到了广大技术人的支持和好评。
《 eBPF 技术实践白皮书》下载地址为:
https://openanolis.cn/assets/static/eBPF_technical_practice.pdf
另外,由于 eBPF 技术的普及和广泛应用于实际生产中,编译环境的搭建已经相当成熟,并且由于 3.10 等低内核版本已逐渐迁移到 4.19 甚至 5.10 版本,Coolbpf 也考虑把远程编译和低版本驱动特性移除。未来 Coolbpf 将更聚焦于具体功能的提供,比如用户态 probe 功能、软件网络功能、profiling 等功能,通过 lib 库等形式服务于上层的特定应用,让开发者不再纠结于系统底层细粒度的指标采集,而更专注于自己业务的应用开发,直接调用 Coolbpf 的库函数就能满足业务需求。
Coolbpf 的特性组织如下图所示:
但针对大家使用频率非常高的 btf 下载服务不会停更,以方便在不默认发布 btf 文件的 4.19 及部分 5.10 内核版本使用 eBPF,而不用自己去生成 btf 文件。从发布至今, btf 下载网站的调用量在 200 多万次。
btf 下载网站:https://mirrors.openanolis.cn/coolbpf/btf/
针对 Coolbpf 最近的更新,我们将通过系列文章的形式,介绍每一个功能和使用方式。首先,我们来介绍一下由东南大学沈典教授团队(作者:沈典、杨彬、杨翰林、赵伦祺)贡献的 eNetSTL 软件网络功能加速库。目前代码已合入https://gitee.com/anolis/coolbpf。eNetSTL 首次使用 kfunc 技术提供软件网络功能库,如 switch、路由器,引起工业和学术界非常广泛的关注。对于需要更多访问内核数据结构的代码组织,如 virtio-net、io 队列轮询等工具,也可以参考 eNetSTL 的实现基于 kfunc 进行功能编写。
eNetSTL 软件网络功能库
eNetSTL 是基于 eBPF kfunc 和 kptr 技术的 eBPF 网络功能加速库,它通过抽象某些无法实现或实现起来性能未达标的公共功能到 eNetSTL 中,实现在不修改 eBPF 基础架构 (例如指令集)的前提下加速基于 eBPF 的网络功能。详细的介绍请参考《eBPF 技术实践白皮书》。
eNetSTL 将上述通用的模式抽象并实现为一系列高性能低开销的 API。在解决问题的同时,避免代码过度膨胀。eNetSTL 基于 eBPF 的 kernel function (kfunc) 和 kernel pointer (kptr) 技术实现,并将 API 实现在内核模块中,从而避免了内核的修改。目前 eNetSTL 的设计除了使用 kfunc 和 kptr 接口外,其他部分是 self-contain 的,因此能保持较好的内核版本的兼容性。
eNetSTL 包含的内容如下图所示:
具体来说,eNetSTL 包含以下内容:
1. Memory wrapper:支持在 eBPF 中使用非连续内存的同时,不破坏 eBPF 提供的安全保证。
2. 算法:包括位运算、基于 SIMD 的并行 hash 计算和并行比较算法。
3. 数据结构:list bucket 数据结构,支持 GEO (几何随机数) 分布的随机数池。
其中 Memory wrapper 的实现充分利用了 kfunc 和 kptr 技术。其主要设计包括:
1. 通过用一个 proxy kptr 来管理所有新分配的 node kptr,避免 BPF MAP 中只能保存静态数量的 kptr。
2. 由 eNetSTL 管理所有的底层指针,通过 kfunc 实现节点到节点的指针路由,通过给 kfunc 增加 KF_ACQUIRE tag 来安全获取下一个节点的指针,并在 eBPF 中直接访问该指针,例如 a->b。
下面是 Memory wrapper 的部分 API:
目前,Coolbpf 中的 eNetSTL 包含了一组提升基于 eBPF 实现的网络功能性能的算法,包括位运算、基于 SIMD 的并行 hash 计算和并行比较算法。其他组件正在进行工程化适配,未来 Coolbpf 中的 eNetSTL 功能也会不断更新。
使用eNetSTL方式
编译驱动
编译 eNetSTL 驱动需要以下工具:
- 安装 gcc 工具
- 安装 kernel-devel 和 kernel-headers
- 安装 pahole(用来生成 BTF 信息)
安装完上面的编译环境后,使用命令 cd bpf_kernel_modules/eNetSTL && make 来编译驱动。编译后生成驱动文件是 bpf_kernel_modules/eNetSTL/eNetSTL.ko。通过命令 insmod eNetSTL.ko 来安装该驱动。
编译样例程序
编译 eNetSTL 样例程序需要以下工具:
- 安装 llvm/clang
- 安装 rust 编译工具,Coolbpf 需要 rust 环境支持。
安装完上面的编译环境后,使用命令 mkdir build && cd build 来创建编译目录,然后通过命令 cmake -DBUILD_EXAMPLE=on .. 来开启样例程序的编译,完成编译前的配置。其次,运行 make 执行编译。最后,编译生成的 eNetSTL 程序所在路径是 build/tools/examples/eNetSTL/enetstl_countmin_sketch 和 build/tools/examples/eNetSTL/enetstl_cuckoo_hash。
运行 enetstl_countmin_sketch
enetstl_countmin_sketch 工具利用了 eNetSTL 内核驱动,该内核驱动通过 eBPF kfunc 实现了 Count-Min Sketch 算法。Count-Min Sketch 是一种概率型数据结构,它主要用于处理大规模数据流中的频率估计问题。以下是该工具的运行输出示例,显示了它已成功通过测试用例,这表明 eNetSTL 功能正在正常运行。
# build/tools/examples/eNetSTL/enetstl_countmin_sketch test:PASS:bpf_prog_test_run_opts res 0 nsec test:PASS:enetstl_countmin_sketch_bpf:test_countmin 0 nsec
运行 enetstl_cuckoo_hash
enetstl_cuckoo_hash 工具利用了 eNetSTL 内核驱动,该内核驱动通过 eBPF kfunc 实现了 cuckoo hash 算法。cuckoo hash 算法是一种使用两个哈希函数和动态冲突解决机制的哈希表技术,提供快速的查找和删除操作。以下是该工具的运行输出示例,显示了它已成功通过测试用例,这表明 eNetSTL 功能正在正常运行。
# build/tools/examples/eNetSTL/enetstl_cuckoo_hash test:PASS:bpf_prog_test_run_opts res 0 nsec test:PASS:enetstl_cuckoo_hash_bpf:test_cuckoo_hash 0 nsec
以上内容介绍了 Coolbpf 最近做的一些特性更新,并且详细介绍了 eNetSTL 功能和使用方式,更多信息请参考 Coolbpf 项目源码。在后续的文章中,我们将介绍 libprofiler、rdump、bpftime 等功能,请持续关注龙蜥公众号【OpenAnolis 龙蜥】不迷路。
—— 完 ——