带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化-阿里云开发者社区

带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化

2023-05-25 238 发布于辽宁

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

性能测试 PTS，5000VUM额度

注册配置 MSE Nacos/ZooKeeper，118元/月

服务治理 MSE Sentinel/OpenSergo，Agent数量不受限

简介： 带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化

5.3.3 数据库/JAVA等高性能场景中的内存优化

背景概述

在处理器内存缓存层级结构中，iTLB miss性能指标对访存优化至关重要，并且在ARM平台上优化效果更为明显。在数据库/JAVA 等高性能场景中，iTLB miss可以成为影响性能的主要因素，我们通过实验观察到iTLB miss引入的CPU停顿时间最高占任务运行时间的~13%。优化iTLB miss的手段很多，主要分为两类。一类是优化代码段布局，例如hfsort/gold linker、BOLT、 PGO，缺点是不通用；一类是使用大页映射代码段，例如静态大页 (hugetlbfs)、共享内存大页 (shmem)，缺点是调试信息缺失，需要额外运维等。

通用透明的方案需要基于文件透明大页来实现。社区Linux内核从5.4合入READ_ONLY_THP_FOR_FS特性，支持普通二进制文件的代码段部分映射文件透明大页；并通过写文件时清空文件缓存来规避写文件透明大页的问题。但仍有如下两个缺点。

- 应用程序需要主动通过madvise系统调用来使能代码段映射文件透明大页；

- 共享库、PIC/PIE（位置无关二进制文件）代码段的映射地址通常不能2M对齐，导致不能映射文件透明大页。

技术方案：透明代码大页（Hugetext）

我们给出透明代码大页的方案（Hugetext），提出四点优化和改进。如图5.3.3-1所示。

1. 检测可执行文件加载/映射，分配地址2M对齐，自动使能普通二进制、共享库、PIC/PIE（位置无关二进制文件）的代码段映射文件透明大页；

2. 检测匿名可执行代码 (例如JAVA code cache)，提供开关自动映射匿名透明大页；

3. 相比普通透明大页，内核khugepaged线程优先整理可执行文件透明大页，达到加速效果；

4. 对于大小不足2M的代码段，通过补齐映射地址空间，增加文件透明大页的覆盖率。

应用场景及性能收益

本地测试中，某ARM平台上数据库类业务（例如MySQL），Hugetext可以提升性能5-12%；某ARM平台上JAVA类业务（例如Spring），Hugetext可以提升性能4-13%。

真实业务场景中，例如某ARM平台上MySQL/PostgreSQL业务，Hugetext可以带来6+%的端到端性能提升。

Hugetext特性也在Linux内核社区和Glibc社区回馈了开源补丁，增强了稳定性，修正了代码段地址映射问题。

带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化

5.3.3 数据库/JAVA等高性能场景中的内存优化

背景概述

技术方案：透明代码大页（Hugetext）

应用场景及性能收益

中间件

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化

5.3.3 数据库/JAVA等高性能场景中的内存优化

背景概述

技术方案：透明代码大页（Hugetext）

应用场景及性能收益

中间件

热门文章

最新文章

相关课程

相关电子书

相关实验场景