带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化

本文涉及的产品
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
性能测试 PTS,5000VUM额度
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 带你读《2022龙蜥社区全景白皮书》——5.3.4 跨处理器节点内存访问优化

5.3.4 跨处理器节点内存访问优化


背景概述


在新平台多节点大内存的趋势背景下,打开NUMA是必要的性能手段。随之而来的问题是,跨NUMA访问会引入性能开销。业务一 般配合用户态任务调度,利用绑核等手段规避跨NUMA访问。但文件页跨节点访问不能很好解决。其中,代码段文件页跨节点访问 性能影响比较明显,对于数据库/存储等业务来说,甚至成为性能瓶颈;该性能影响在ARM平台上更为明显。 现有的内核接口(例如NUMA Balancing)、用户态工具都不能很好地解决代码段的跨节点访问。


技术方案:代码多副本(Duptext)

我们给出代码多副本方案(Duptext),执行流程如图5.3.4-1所示。


image.png


Duptext主动检测代码段跨节点访问。在文件缺页以及主动映射流程中,检查当前需要映射的可执行文件页所属节点和当前进程运行节点是否一致。如果不一致,则在本地同步创建副本,并用副本建立此次映射。


代码副本按需创建,在每个节点上通过基数树管理。考虑到代码段通常体积较小,Duptext引入的内存开销可控,利用空间换取时间。同时,Duptext提供整机粒度和Memcg粒度的开关,支持重点应用使能代码副本,支持整机回退,稳定性得到保障。


应用场景及性能收益


本地测试中,例如某ARM平台上MySQL代码段跨节点访问带来的性能下降可以达到-3% (无背景压力) ~ -22% (有背景压力),应Duptext之后,MySQL端到端性能都能达到本地访问的性能基线。



真实业务场景中,例如某ARM平台上分布式块存储系统业务,Duptext可以带来最高16%端到端性能优化(性能基线为默认状态下代码段跨节点的性能)。



相关实践学习
CentOS 7迁移Anolis OS 7
龙蜥操作系统Anolis OS的体验。Anolis OS 7生态上和依赖管理上保持跟CentOS 7.x兼容,一键式迁移脚本centos2anolis.py。本文为您介绍如何通过AOMS迁移工具实现CentOS 7.x到Anolis OS 7的迁移。
相关文章
|
1天前
|
存储 缓存 监控
如何使用内存监控工具来优化 Node.js 应用的性能
需要注意的是,不同的内存监控工具可能具有不同的功能和特点,在使用时需要根据具体工具的要求和操作指南进行正确使用和分析。
17 3
|
16天前
|
缓存 算法 Java
本文聚焦于Java内存管理与调优,介绍Java内存模型、内存泄漏检测与预防、高效字符串拼接、数据结构优化及垃圾回收机制
在现代软件开发中,性能优化至关重要。本文聚焦于Java内存管理与调优,介绍Java内存模型、内存泄漏检测与预防、高效字符串拼接、数据结构优化及垃圾回收机制。通过调整垃圾回收器参数、优化堆大小与布局、使用对象池和缓存技术,开发者可显著提升应用性能和稳定性。
36 6
|
16天前
|
监控 安全 程序员
如何使用内存池池来优化应用程序性能
如何使用内存池池来优化应用程序性能
|
16天前
|
存储 监控 Java
深入理解计算机内存管理:优化策略与实践
深入理解计算机内存管理:优化策略与实践
|
3月前
|
存储 编译器 C语言
【C语言篇】数据在内存中的存储(超详细)
浮点数就采⽤下⾯的规则表⽰,即指数E的真实值加上127(或1023),再将有效数字M去掉整数部分的1。
385 0
|
29天前
|
存储 C语言
数据在内存中的存储方式
本文介绍了计算机中整数和浮点数的存储方式,包括整数的原码、反码、补码,以及浮点数的IEEE754标准存储格式。同时,探讨了大小端字节序的概念及其判断方法,通过实例代码展示了这些概念的实际应用。
60 1
|
1月前
|
存储
共用体在内存中如何存储数据
共用体(Union)在内存中为所有成员分配同一段内存空间,大小等于最大成员所需的空间。这意味着所有成员共享同一块内存,但同一时间只能存储其中一个成员的数据,无法同时保存多个成员的值。
|
1月前
|
存储 弹性计算 算法
前端大模型应用笔记(四):如何在资源受限例如1核和1G内存的端侧或ECS上运行一个合适的向量存储库及如何优化
本文探讨了在资源受限的嵌入式设备(如1核处理器和1GB内存)上实现高效向量存储和检索的方法,旨在支持端侧大模型应用。文章分析了Annoy、HNSWLib、NMSLib、FLANN、VP-Trees和Lshbox等向量存储库的特点与适用场景,推荐Annoy作为多数情况下的首选方案,并提出了数据预处理、索引优化、查询优化等策略以提升性能。通过这些方法,即使在资源受限的环境中也能实现高效的向量检索。
|
1月前
|
存储 编译器
数据在内存中的存储
数据在内存中的存储
42 4
|
1月前
|
存储 Java
JVM知识体系学习四:排序规范(happens-before原则)、对象创建过程、对象的内存中存储布局、对象的大小、对象头内容、对象如何定位、对象如何分配
这篇文章详细地介绍了Java对象的创建过程、内存布局、对象头的MarkWord、对象的定位方式以及对象的分配策略,并深入探讨了happens-before原则以确保多线程环境下的正确同步。
57 0
JVM知识体系学习四:排序规范(happens-before原则)、对象创建过程、对象的内存中存储布局、对象的大小、对象头内容、对象如何定位、对象如何分配
下一篇
无影云桌面