5.3.4 跨处理器节点内存访问优化
背景概述
在新平台多节点大内存的趋势背景下,打开NUMA是必要的性能手段。随之而来的问题是,跨NUMA访问会引入性能开销。业务一 般配合用户态任务调度,利用绑核等手段规避跨NUMA访问。但文件页跨节点访问不能很好解决。其中,代码段文件页跨节点访问 性能影响比较明显,对于数据库/存储等业务来说,甚至成为性能瓶颈;该性能影响在ARM平台上更为明显。 现有的内核接口(例如NUMA Balancing)、用户态工具都不能很好地解决代码段的跨节点访问。
技术方案:代码多副本(Duptext)
我们给出代码多副本方案(Duptext),执行流程如图5.3.4-1所示。
Duptext主动检测代码段跨节点访问。在文件缺页以及主动映射流程中,检查当前需要映射的可执行文件页所属节点和当前进程运行节点是否一致。如果不一致,则在本地同步创建副本,并用副本建立此次映射。
代码副本按需创建,在每个节点上通过基数树管理。考虑到代码段通常体积较小,Duptext引入的内存开销可控,利用空间换取时间。同时,Duptext提供整机粒度和Memcg粒度的开关,支持重点应用使能代码副本,支持整机回退,稳定性得到保障。
应用场景及性能收益
本地测试中,例如某ARM平台上MySQL代码段跨节点访问带来的性能下降可以达到-3% (无背景压力) ~ -22% (有背景压力),应Duptext之后,MySQL端到端性能都能达到本地访问的性能基线。
真实业务场景中,例如某ARM平台上分布式块存储系统业务,Duptext可以带来最高16%端到端性能优化(性能基线为默认状态下代码段跨节点的性能)。