5.3 内核技术
5.3.1 跨云-边-端的只读文件系统EROFS
背景概述
在云原生、桌面、终端等应用领域,为了高效可信构建,分发和运行镜像,解决方案一般倾向选择只读方案,其优势在于分发和签 名校验、写保护、器件故障可靠恢复等。通用文件系统如EXT4和XFS往往不能充分满足镜像极致大小,压缩,去重及可复现构建等 需求,且通用文件系统冷门特性会增加格式复杂度,影响分发和执行环节的安全性和可控性,因此打造Linux下高性能自包含内核只 读文件系统能更好地服务容器、终端、集群OS等业务场景。
技术方案
EROFS是为高性能只读场景量身打造的内核文件系统,提供了多层镜像、透明压缩、块去重、原生按需加载、FSDAX内存直接访问 等特性,于Linux 5.4正式合入Linux主线。在容器镜像领域,通过与CNCF Dragonfly的Nydus镜像服务深度融合,打造了RAFS v6、FS-Cache等技术,服务容器runC、Kata等场景,未来还将发力page cache内存去重进一步提供内存超卖能力。在终端领域,已成为Android Open Source Project推荐的系统分区文件系统格式。
技术优势:
(1)Linux内核原生,通过压缩,块去重,字节滚动压缩去重节省镜像存储空间;
(2)原地解压等技术进一步优化运行态内存占用,提升性能;
(3)提供内核原生按需加载能力,从源头解决FUSE额外拷贝和上下文切换开销。
应用场景:容器/App/系统镜像,软件包管理,AI数据分发,函数计算,机密计算,无盘启动,安装器等。
基于EROFS + FS-Cache优化Nydus镜像按需加载
EROFS over FS-Cache是龙蜥社区牵头为Nydus和EROFS开发的下一代容器镜像按需加载技术,同时也是Linux内核原生的镜像按需加载特性,于5.19合入内核社区主线。
该方案将按需加载的缓存管理通过FS-Cache框架下沉到内核态执行,当镜像已在本地缓存时,相比用户态方案可有效避免内核态/用户态上下文切换和内存拷贝;当缓存未命中时,再通知用户态通过网络获取数据,做到真正的“按需”,非按需场景下实现几乎无损的性能和稳定性。
在按需加载场景,EROFS over FS-Cache相比FUSE性能更优(注:数据为三次测试取平均值):
在非按需场景,EROFS over FS-Cache相比FUSE性能也更优: