eBPF 动手实践系列一:解构内核源码 eBPF 样例编译过程

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 基于 4.18 内核的基于内核源码的原生编译方式介绍,开发符合自己业务需求的高性能的 ebpf 程序。

作者:闻茂泉

他山之石

了解和掌握纯 c 语言的 ebpf 编译和使用,有助于我们加深对于 eBPF 技术原理的进一步掌握,也有助于开发符合自己业务需求的高性能的 ebpf 程序。目前常见和主流的纯 c 语言的 ebpf 编译使用方法,主要是两种。一种是内核源码中原生提供的编译方式。另外一种是 libbpf-bootstrap 项目中提供的 skeleton 编译方式。libbpf-bootstrap 方式和社区 5.x 以上内核结合的比较好,以后再做介绍,今天我们选择基于 4.18 内核的基于内核源码的原生编译方式做介绍。


在国内学习 ebpf 技术,就不得不提到《Linux 内核观测技术 BPF》书籍译者狄卫华老师。狄老师还有一个网站《深入浅出 eBPF》。在网站里,他专门用一篇文章介绍了基于内核源码方式编译 ebpf 的方式,文章内容叫《【BPF 入门系列-3】BPF 环境搭建》


网址:https://www.ebpf.top/post/ebpf_c_env/


我们今天将参考这篇文章内容,对基于内核源码方式的纯 c 语言的 ebpf 编译方式做进一步分析。

获取内核源码

目前主流的服务器的操作系统环境还是以 8u + 4.18 内核为主。因此,本文以 4.18 版本内核为主要分析对象。我们提供如下操作系统环境的获取建议:

获取操作系统环境

如果你自己有 centos8u 兼容环境操作系统,则可以使用已有的环境。如果没有,可以通过阿里云官网购买阿里云主机,选择选择 centos8 或者 anolis8 操作系统环境。


$  cat /etc/centos-release
CentOS Linux release 8.5.2111
$  uname -r
4.18.0-348.7.1.el8_5.x86_64


获取开源的内核源码

可以使用 wget,从 aliyun 官网镜像,获取开源的 4.18 内核源码。


$  cd /tmp/$  
wget https://mirrors.aliyun.com/linux-kernel/v4.x/linux-4.18.
tar.gz$  tar -zxvf linux-4.18.tar.gz$  
cd linux-4.18


下载内核源码一定要确保内核版本与操作系统的一致。原因是 ebpf 会用到 VERSION、PATCHLEVEL 和 SUBLEVEL 这 3 个宏的值与内核做内核版本校验。如果版本传的不对,ebpf 校验会失败。


$  cat Makefile  | grep -P '^VERSION|^PATCHLEVEL|^SUBLEVEL'   
VERSION = 4
PATCHLEVEL = 18
SUBLEVEL = 0


初始化基础环境

需要安装 ebpf 编译时依赖的 llvm 和 clang 等 rpm 包。此外内核编译还需要依赖 openssl-devel 等 rpm 包。


$  sudo yum install bison flex openssl-devel
$  sudo yum install clang llvm elfutils-libelf-devel



具体每个实验机器的环境可能略有差别,需要根据自己的情况做细节调整。

编译内核源码中 ebpf 程序样例

编译环境初始化

狄老师的文章中这里执行的是 make scripts,在内核源码编译时此步骤前通常还需要执行 make prepare。而 make init 正好包含这两步 make prepare && make scripts。因此,我们将命令按照如下方式优化,基本能够一遍跑过:


$  cd /tmp/linux-4.18
$  make oldconfig && make init  # make oldconfig && make prepare && make scripts
$  make headers_install


编译内核源码样例

终于执行到了内核源码中提供的 ebpf 程序样例的编译。


$  make M=samples/bpf


执行样例程序

我们可以通过对样例程序的执行,对编译效果进行验证。结果显示执行成功,狄老师文章中的步骤验证通过,有点小激动。


$  sudo ./samples/bpf/trace_output
recv 1766352 events per sec


内核源码的 ebpf 编译关键过程提取

接下去就是本文最重点的部分,对 ebpf 编译过程的分析。我们主要分分析 headers_install 和对 samples/bpf 目录的 make 这 2 个步骤。

头文件安装 make headers_install

重新获取一个干净的内核源码,再次执行上面的编译步骤。这次我们对编译过程增加一些观察步骤。


$  cd  /tmp/
$  rm -fr /tmp/linux-4.18
$  tar -zxvf linux-4.18.tar.gz 
$  cd /tmp/linux-4.18
$  make oldconfig && make init
$  ls usr/include/
ls: cannot access usr/include/: No such file or directory      # 此时include目录不存在
$  make headers_install
$  ls usr/include/ -R  | grep -v -P ':$' | grep -v -P '^$' | wc -l931                                                      #  此时include目录下有931个文件
$  diff -rs usr/include/ /usr/include/|grep -P '^Files .+ and .+ are identical$'|wc -l677


这说明内核源码目录下,headers_install 步骤生成的 usr/include/目录下功能 900 多个文件,其中大多数(677 个)文件都能在操作系统环境的/usr/include/下找到完全一摸一样的同名文件,并且内容也完全相同。


$  rpm -ql kernel-headers | wc -l
964  
$  rpm -ql kernel-headers | head 
/usr/include/asm
/usr/include/asm-generic
/usr/include/asm-generic/bpf_perf_event.h


而操作系统环境的/usr/include/目录正好是 kernel-headers 包的安装目录。所以编译过程中 headers_install 步骤就是在内核源码目录生成了 kernel-headers 包作用一样的内容。

eBPF 样例编译 make M=samples/bpf

ebpf 样例的编译过程,我们做一下改进,通过 SHELL 选项打开 shell 的调试选项。具体命令如下:


$  make M=samples/bpf --debug=v,m SHELL="bash -x" > make.log 2>&1


通过分析 make.log,再结合其他一些黑科技,可以大概找出内核源码样例中 trace_output 命令的编译脉络。其中用户态编译脉络如下。为了表述上更加突出主题,此处只显示编译命令的关键信息,下一节会给出完整编译命令。


$  gcc -g -fPIC -c -o libbpf.o libbpf.c
$  gcc -g -fPIC -c -o bpf.o bpf.c
$  gcc -g -fPIC -c -o btf.o btf.c
$  gcc -g -fPIC -c -o nlattr.o nlattr.c
$  ld -r -o libbpf-in.o libbpf.o bpf.o nlattr.o btf.o
$  ar rcs libbpf.a libbpf-in.o
$  gcc -O2 -std=gnu89 -c -o bpf_load.o bpf_load.c
$  gcc -O2 -std=gnu89 -c -o trace_output_user.o trace_output_user.c
$  gcc -O2 -std=gnu89 -c -o trace_helpers.o trace_helpers.c
$  gcc -o trace_output bpf_load.o trace_output_user.o trace_helpers.o libbpf.a -lelf -lrt


其中内核态编译脉络如下:


$  clang -O2 -emit-llvm -c trace_output_kern.c -o - 
$  llc -march=bpf -filetype=obj -o trace_output_kern.o


其中前一行最后的横线 - 表示 这里是输出给 shell 管道,所以这两行实际是可以通过 shell 管道拼接成一个命令来执行的。

手工编译内核源码中的 eBPF 样例分析

通过上一节对关键步骤 make M=samples/bpf 的实践,我们已经可以编译出内核源码中提供的 ebpf 样例。但这还不够我们充分地理解这个编译过程,我们将这编译过程继续拆解一下,拆解成可以一步步执行的那种,为了方便大家理解,我将这个过程分解为 A-H 6 大手工步骤,里面还会包含一些细分的小步骤:


$  cd  /tmp/
$  rm -fr /tmp/linux-4.18$  tar -zxvf linux-4.18.tar.gz 
$  cd /tmp/linux-4.18
$  make oldconfig && make init
$  make headers_install
$  cd tools/lib/bpf/


手工步骤 A 过程解析

手工步骤 A1:


$  # gcc -g -fPIC -c -o libbpf.o libbpf.c
$  gcc -g -DHAVE_LIBELF_MMAP_SUPPORT -DCOMPAT_NEED_REALLOCARRAY -fPIC -I. -I/tmp/linux-4.18/tools/include -I/tmp/linux-4.18/tools/arch/x86/include/uapi -I/tmp/linux-4.18/tools/include/uapi -I/tmp/linux-4.18/tools/perf -D"BUILD_STR(s)=#s" -c -o libbpf.o libbpf.c


手工步骤 A2:


$ # gcc -g -fPIC -c -o bpf.o bpf.c
$  gcc -g -DHAVE_LIBELF_MMAP_SUPPORT -DCOMPAT_NEED_REALLOCARRAY -fPIC -I. -I/tmp/linux-4.18/tools/include -I/tmp/linux-4.18/tools/arch/x86/include/uapi -I/tmp/linux-4.18/tools/include/uapi -I/tmp/linux-4.18/tools/perf -D"BUILD_STR(s)=#s" -c -o bpf.o bpf.c


手工步骤 A3:


$ # gcc -g -fPIC -c -o btf.o btf.c
$  gcc -g -DHAVE_LIBELF_MMAP_SUPPORT -DCOMPAT_NEED_REALLOCARRAY -fPIC -I. -I/tmp/linux-4.18/tools/include -I/tmp/linux-4.18/tools/arch/x86/include/uapi -I/tmp/linux-4.18/tools/include/uapi -I/tmp/linux-4.18/tools/perf -D"BUILD_STR(s)=#s" -c -o btf.o btf.c


手工步骤 A4:


$ # gcc -g -fPIC -c -o nlattr.o nlattr.c
$  gcc -g -DHAVE_LIBELF_MMAP_SUPPORT -DCOMPAT_NEED_REALLOCARRAY -fPIC -I. -I/tmp/linux-4.18/tools/include -I/tmp/linux-4.18/tools/arch/x86/include/uapi -I/tmp/linux-4.18/tools/include/uapi -I/tmp/linux-4.18/tools/perf -D"BUILD_STR(s)=#s" -c -o nlattr.o nlattr.c


针对手工步骤 A1 到 A4 的关键编译选项做一些介绍。


  • -fPIC,告诉编译器输出位置无关目标,为后面生成共享库埋下伏笔。
  • -I. 表示需要包含当前目录下的头文件。
  • -I/tmp/linux-4.18/tools/include -I/tmp/linux-4.18/tools/arch/x86/include/uapi -I/tmp/linux-4.18/tools/include/uapi -I/tmp/linux-4.18/tools/perf,这 4 个头文件,是用户态 ebpf 程序所依赖 tool 目录下的头文件位置。

手工步骤 B 过程解析

$  ld -r -o libbpf-in.o  libbpf.o bpf.o nlattr.o btf.o


手工步骤 B 是将步骤 A 中产生 4 个.o 文件进行链接。

手工步骤 C 过程解析

$  ar rcs libbpf.a libbpf-in.o


手工步骤 C 是从链接后的文件中提取静态库文件。

手工步骤 D/E/F 过程解析

手工步骤 D:


$  # gcc -O2 -std=gnu89 -c -o bpf_load.o bpf_load.c$  gcc -O2 -fomit-frame-pointer -std=gnu89 -I./usr/include -I./tools/lib/ -I./tools/testing/selftests/bpf/ -I./tools/lib/ -I./tools/include -I./tools/perf -I./usr/include -Wno-unused-variable -c -o samples/bpf/bpf_load.o samples/bpf/bpf_load.c


手工步骤 E:


$  # gcc -O2 -std=gnu89 -c -o trace_output_user.o trace_output_user.c
$  gcc -O2 -fomit-frame-pointer -std=gnu89 -I./usr/include -I./tools/lib/ -I./tools/testing/selftests/bpf/ -I./tools/lib/ -I./tools/include -I./tools/perf -I./tools/lib/bpf/ -c -o samples/bpf/trace_output_user.o samples/bpf/trace_output_user.c


手工步骤 F:


$  # gcc -O2 -std=gnu89 -c -o trace_helpers.o trace_helpers.c
$  gcc -O2 -fomit-frame-pointer -std=gnu89 -I./usr/include -I./tools/lib/ -I./tools/testing/selftests/bpf/ -I./tools/lib/ -I./tools/include -I./tools/perf -I./tools/lib/bpf/ -c -o samples/bpf/../../tools/testing/selftests/bpf/trace_helpers.o samples/bpf/../../tools/testing/selftests/bpf/trace_helpers.c


针对手工步骤 E 的关键编译选项做一些介绍。手工步骤 D 和手工步骤 F 与此类似。


  • O2 和 -std=gnu89 是两个核心选项。
  • include 选项,一共有 6 个,我们将其分为 3 组。第一组是-I./usr/include ,这表示包含等同于 kernel-headers 的内容。● 第二组是-I./tools/lib/, -I./tools/include,-I./tools/perf,-I./tools/lib/bpf/● 第三组是-I./tools/testing/selftests/bpf/。之所以把这一组单独独立出来,是因为它和样例代码处于同样的路径。

手工步骤 G 过程解析

$  # gcc -o trace_output bpf_load.o trace_output_user.o trace_helpers.o libbpf.a -lelf -lrt$  gcc -o samples/bpf/trace_output samples/bpf/bpf_load.o samples/bpf/trace_output_user.o samples/bpf/../../tools/testing/selftests/bpf/trace_helpers.o /tmp/linux-4.18/samples/bpf/../../tools/lib/bpf/libbpf.a -lelf -lrt


针对手工步骤 G 的关键编译选项做一些介绍。


  • -lelf -lrt 链接两个类库
  • libbpf.a 表示以静态链接库的方式链接 libbpf 的类库。● 最关键的是,没有添加-static 选项,没有添加-static 选项,没有添加-static 选项,重要的事情说三遍。


手工步骤 H 过程解析


$  clang -nostdinc -isystem /usr/lib/gcc/x86_64-redhat-linux/8/include -I./arch/x86/include -I./arch/x86/include/generated -I./include -I./arch/x86/include/uapi -I./arch/x86/include/generated/uapi -I./include/uapi -I./include/generated/uapi -include ./include/linux/kconfig.h -Isamples/bpf -I./tools/testing/selftests/bpf/ -D__KERNEL__ -D__BPF_TRACING__ -D__TARGET_ARCH_x86 -O2 -emit-llvm -c samples/bpf/trace_output_kern.c -o - | llc -march=bpf -filetype=obj -o samples/bpf/trace_output_kern.o


针对手工步骤 H 的关键编译选项做一些介绍。


  • -nostdinc -isystem /usr/lib/gcc/x86_64-redhat-linux/8/include,这 2 个选项是一组。nostdinc 表示屏蔽掉系统默认的 include 环境,替换成当前 gcc 编译器自带的 include 头文件环境。
  • -I./arch/x86/include,-I./arch/x86/include/generated,-I./include,-I./arch/x86/include/uapi,-I./arch/x86/include/generated/uapi,-I./include/uapi,-I./include/generated/uapi。这 7 个头文件很关键,是内核态 ebpf 程序所依赖的绝大多数头文件的位置。● -include ./include/linux/kconfig.h,这个头文件也很关键,是让上面 7 个头文件生效的前提条件。● -I samples/bpf 和 -I ./tools/testing/selftests/bpf/,这 2 个头文件是和 ebpf 样例所处位置相同,单独独立出来看。● llc 是 llvm 的连接器。内核是将 clang 的编译和 llc 的链接独立成两步完成,在 llc 步骤才指定-march=bpf。对编译结果进行验证,完美验证通过,第二次有点小激动。


$  sudo ./samples/bpf/trace_outputrecv 1760674 events per sec


关键步骤抽取不是最终目的,根本目的是能让我们实现脱离内核源码进行独立的纯 C 语言编译。我们将在后续的文章中进一步阐述。

关于 4.9 版本内核

按照内核的原生步骤,对 4.9 内核进行一次编译,我们会发现对应手工步骤 E 的这一步,编译代码有点不一样,具体代码如下。


$  gcc -o samples/bpf/trace_output samples/bpf/bpf_load.o samples/bpf/libbpf.o samples/bpf/trace_output_user.o -lelf -lrt


其中没有了对 libbpf.a 静态库的链接,但却多了一个 libbpf.o 文件的链接。


$  cd /tmp/linux-4.9/
$  find . -name libbpf.c
./samples/bpf/libbpf.c
./tools/lib/bpf/libbpf.c

复制代码


查询内核源码,可以发现,在 4.9 内核下,有 2 个 libbpf.c 文件,分别处于./tools/lib/bpf/目录和./samples/bpf/目录。而内核 ebpf 样例暂时使用的还是老的./samples/bpf/libbpf.c 文件。

进一步探索

本文为 eBPF 动手实践系列的第一篇,我们实现了基于内核源码框架的一步一步的纯 C 语言编译,下一篇我们会对这个编译过程继续深入探索,实现脱离内核源码后的纯 C 语言编译。


欢迎有想法或者有问题的同学,加群交流 eBPF 技术以及工程实践。


SREWorks 数智运维工程群(钉钉群号:35853026)


附录: eBPF 手工纯 C 编译完整命令清单


cd  /tmp/rm -fr /tmp/linux-4.18tar -zxvf linux-4.18.tar.gz cd /tmp/linux-4.18make oldconfig && make initmake headers_installcd tools/lib/bpf/
# 步骤A1# gcc -g -fPIC -c -o libbpf.o libbpf.cgcc -g -DHAVE_LIBELF_MMAP_SUPPORT -DCOMPAT_NEED_REALLOCARRAY -fPIC -I. -I/tmp/linux-4.18/tools/include -I/tmp/linux-4.18/tools/arch/x86/include/uapi -I/tmp/linux-4.18/tools/include/uapi -I/tmp/linux-4.18/tools/perf -D"BUILD_STR(s)=#s" -c -o libbpf.o libbpf.c
# 步骤A2# gcc -g -fPIC -c -o bpf.o bpf.cgcc -g -DHAVE_LIBELF_MMAP_SUPPORT -DCOMPAT_NEED_REALLOCARRAY -fPIC -I. -I/tmp/linux-4.18/tools/include -I/tmp/linux-4.18/tools/arch/x86/include/uapi -I/tmp/linux-4.18/tools/include/uapi -I/tmp/linux-4.18/tools/perf -D"BUILD_STR(s)=#s" -c -o bpf.o bpf.c
# 步骤A3# gcc -g -fPIC -c -o btf.o btf.cgcc -g -DHAVE_LIBELF_MMAP_SUPPORT -DCOMPAT_NEED_REALLOCARRAY -fPIC -I. -I/tmp/linux-4.18/tools/include -I/tmp/linux-4.18/tools/arch/x86/include/uapi -I/tmp/linux-4.18/tools/include/uapi -I/tmp/linux-4.18/tools/perf -D"BUILD_STR(s)=#s" -c -o btf.o btf.c
# 步骤A4# gcc -g -fPIC -c -o nlattr.o nlattr.cgcc -g -DHAVE_LIBELF_MMAP_SUPPORT -DCOMPAT_NEED_REALLOCARRAY -fPIC -I. -I/tmp/linux-4.18/tools/include -I/tmp/linux-4.18/tools/arch/x86/include/uapi -I/tmp/linux-4.18/tools/include/uapi -I/tmp/linux-4.18/tools/perf -D"BUILD_STR(s)=#s" -c -o nlattr.o nlattr.c
# 步骤Bld -r -o libbpf-in.o  libbpf.o bpf.o nlattr.o btf.o
# 步骤Car rcs libbpf.a libbpf-in.o 
cd /tmp/linux-4.18/
# 步骤D# gcc -O2 -std=gnu89 -c -o bpf_load.o bpf_load.cgcc -O2 -fomit-frame-pointer -std=gnu89 -I./usr/include -I./tools/lib/ -I./tools/testing/selftests/bpf/ -I./tools/lib/ -I./tools/include -I./tools/perf -I./usr/include -Wno-unused-variable -c -o samples/bpf/bpf_load.o samples/bpf/bpf_load.c
# 步骤E# gcc -O2 -std=gnu89 -c -o trace_output_user.o trace_output_user.cgcc -O2 -fomit-frame-pointer -std=gnu89 -I./usr/include -I./tools/lib/ -I./tools/testing/selftests/bpf/ -I./tools/lib/ -I./tools/include -I./tools/perf -I./tools/lib/bpf/ -c -o samples/bpf/trace_output_user.o samples/bpf/trace_output_user.c
# 步骤F# gcc -O2 -std=gnu89 -c -o trace_helpers.o trace_helpers.cgcc -O2 -fomit-frame-pointer -std=gnu89 -I./usr/include -I./tools/lib/ -I./tools/testing/selftests/bpf/ -I./tools/lib/ -I./tools/include -I./tools/perf -I./tools/lib/bpf/ -c -o samples/bpf/../../tools/testing/selftests/bpf/trace_helpers.o samples/bpf/../../tools/testing/selftests/bpf/trace_helpers.c
# 步骤G# gcc -o trace_output bpf_load.o trace_output_user.o trace_helpers.o libbpf.a -lelf -lrtgcc -o samples/bpf/trace_output samples/bpf/bpf_load.o samples/bpf/trace_output_user.o samples/bpf/../../tools/testing/selftests/bpf/trace_helpers.o /tmp/linux-4.18/samples/bpf/../../tools/lib/bpf/libbpf.a -lelf -lrt
# 步骤Hclang -nostdinc -isystem /usr/lib/gcc/x86_64-redhat-linux/8/include -I./arch/x86/include -I./arch/x86/include/generated -I./include -I./arch/x86/include/uapi -I./arch/x86/include/generated/uapi -I./include/uapi -I./include/generated/uapi -include ./include/linux/kconfig.h -Isamples/bpf -I./tools/testing/selftests/bpf/ -D__KERNEL__ -D__BPF_TRACING__ -D__TARGET_ARCH_x86 -O2 -emit-llvm -c samples/bpf/trace_output_kern.c -o - | llc -march=bpf -filetype=obj -o samples/bpf/trace_output_kern.o


相关文章
|
6月前
|
Linux 编译器 Shell
eBPF动手实践系列三:基于原生libbpf库的eBPF编程改进方案
为了简化 eBPF程序的开发流程,降低开发者在使用 libbpf 库时的入门难度,libbpf-bootstrap 框架应运而生。本文详细介绍基于原生libbpf库的eBPF编程改进方案。
|
6月前
|
Ubuntu 编译器 开发工具
|
监控 NoSQL Linux
【五、深入浅出GDB调试器】如何修复程序bug或优化代码:gdb调试器的来龙去脉与debug全方位实战详解(一)
【五、深入浅出GDB调试器】如何修复程序bug或优化代码:gdb调试器的来龙去脉与debug全方位实战详解
747 0
【五、深入浅出GDB调试器】如何修复程序bug或优化代码:gdb调试器的来龙去脉与debug全方位实战详解(一)
|
存储 NoSQL IDE
【五、深入浅出GDB调试器】如何修复程序bug或优化代码:gdb调试器的来龙去脉与debug全方位实战详解(三)
【五、深入浅出GDB调试器】如何修复程序bug或优化代码:gdb调试器的来龙去脉与debug全方位实战详解
358 0
【五、深入浅出GDB调试器】如何修复程序bug或优化代码:gdb调试器的来龙去脉与debug全方位实战详解(三)
|
NoSQL Shell C语言
【五、深入浅出GDB调试器】如何修复程序bug或优化代码:gdb调试器的来龙去脉与debug全方位实战详解(二)
【五、深入浅出GDB调试器】如何修复程序bug或优化代码:gdb调试器的来龙去脉与debug全方位实战详解
450 0
【五、深入浅出GDB调试器】如何修复程序bug或优化代码:gdb调试器的来龙去脉与debug全方位实战详解(二)
|
存储 Linux C语言
嵌入式Linux系统中ARM汇编语言的使用方法
大家好,今天主要大家聊一聊,如何在ARM中使用汇编语言的方法。
240 0
嵌入式Linux系统中ARM汇编语言的使用方法
|
前端开发 API C语言
eunomia-bpf 用户手册: 让 eBPF 程序的开发和部署尽可能简单
让 eBPF 程序的分发和使用像网页和 Web 服务一样自然(Make eBPF as a service): 支持在集群环境中直接通过一次请求进行分发和热更新,仅需数十 kB 的 payload, <100ms 的更新时间,和少量的 CPU 内存占用即可完成 eBPF 程序的分发、部署和更新; 不需要执行额外的编译过程,就能得到 CO-RE 的运行效率;
865 0
eunomia-bpf 用户手册: 让 eBPF 程序的开发和部署尽可能简单
|
存储 Java 编译器
【JVM进阶之路】十二:字节码指令
【JVM进阶之路】十二:字节码指令
202 0
【JVM进阶之路】十二:字节码指令
下一篇
无影云桌面