高性能Go语言发行版优化与落地实践｜青训营笔记-阿里云开发者社区

高性能Go语言发行版优化与落地实践｜青训营笔记

2023-02-05 327

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节课程主要介绍了Go语言的内存管理方式，Go编译器的工作流程。在此基础上给出了字节内部对于Go内存管理的优化方案Balanced GC，以及编译器优化Beast Mode。

课前

课程导学：https://juejin.cn/post/7095977466094682148/#comment

课程ppt：https://bytedance.feishu.cn/file/boxcnRcx62rX5X22Q2WFR5Xm5Oh

课程链接：https://live.juejin.cn/4354/yc_high-performance

本节课程主要介绍了Go语言的内存管理方式，Go编译器的工作流程。在此基础上给出了字节内部对于Go内存管理的优化方案Balanced GC，以及编译器优化Beast Mode。

课中

一、自动内存管理

1.1 基本概念

Mutator：业务线程，分配新对象，修改对象指向关系（人为创建的goroutine）
Collector：GC线程，找到存活对象，回收死亡对象的内存空间

Serial GC：只有一个collector（stop the world）
Parallel GC：支持多个collectors同时回收的GC算法
Concurrent GC：mutator(s)和collector(s)可以同时执行的算法
- 因为GC线程和业务线程一起工作，因此collectors必须感知对象指向关系的改变

评价GC算法
- 安全性：不能回收存活的对象
- 吞吐率：1-（GC时间/程序执行总时间）
- 暂停时间：业务是否感知
- 内存开销：GC元数据的开销

1.2 可达性分析算法（基于追踪）

一种用于判断哪些对象需要被回收的算法（这是垃圾回收的第一步，还不涉及到清理的过程）

对象被回收的条件：指针指向关系不可达的对象
标记根对象：静态常量、全局变量、常量、线程栈等
标记：找到可达对象
- 求指针指向关系的传递闭包，从根对象出发，找到所有可达对象

1.3 垃圾清理算法

清理：所有不可达对象（下面是一些清理策略）
- 将存活对象复制到另一个内存空间（Copying GC）
- 将死亡对象内存标记为可分配（Mark-sweep GC）
- 移动并整理存活对象（Mark-compact GC）

对于上面三种垃圾清理策略，该怎么使用呢：根据对象的生命周期，使用不同的标记和清理策略

1.4 分代GC（Generational GC）

分代假说：很多对象在分配之后很快就不再使用了
对象的年龄：经历过的GC的次数
目的：对于年轻和老年的对象，制定不同的GC策略，降低整体的内存管理的开销
不同年龄的对象处于heap的不同区域

年轻代
- 常规对象分配
- 由于存活对象很少，可以采用copying collection（HotSpot 虚拟机年轻代eden区from区和to区比例为：8:1:1）
- GC吞吐率高
老年代
- 对象趋于一直活着，反复复制开销大
- 可以采用mark-sweep collection（原地标记死亡对象可分配，碎片多了就来一遍compact collection）

1.5 引用计数算法

这个垃圾回收体系和基于追踪的可达性分析算法体系是不同的，其内存管理的操作被平摊到了程序的执行过程当中

每个对象都有一个与之关联的引用数目
对象存活条件：当且仅当引用数大于0
优点：
- 内存管理的操作被平摊到了程序的执行过程当中
- 内存管理不需要了解runtime的实现细节：C++智能指针
缺点：
- 维护引用计数的开销较大：通过原子操作保证对引用计数操作的原子性和可见行
- 无法回收环形数据结构（一些语言的解决方式：weak reference）
- 内存开销；每个对象都要引入额外的内存空间存储引用数目
- 回收内存时依然可能引发暂停（回收大数据结构）

二、Go内存管理及优化

2.1 Go内存分配 — 分块

目标：为对象在heap上分配内存

提前将内存分块
- 提前系统调用mmap()，向OS申请一块大内存，如4MB
- 先将内存划分为大块，例如8KB，称作mspan
- 再将大块继续划分为特定大小的小块，用于对象分配
- noscan mspan：分配不包含指针的对象——GC不需要扫描
- scan mspan：分配包含指针的对象——GC需要扫描

对象分配：根据对象的大小，选择最合适的块返回

2.2 Go内存分配 — 缓存

TCMalloc：thread caching
每个p包含一个mcache用于快速分配，用于为绑定于p上的g分配对象
mcache管理一组mspan
当mcache中的mspan分配完毕，向mcentral申请带有未分配块的mspan
当mspan中没有分配的对象，mspan会被缓存在mcentral中，而不是立即释放归还给OS

2.3 Go内存管理的问题

对象的分配是非常高频的操作：线上业务每秒分配GB级别的内存
小对象占比高
Go内存分配比较耗时
- 分配路径长：g -> m -> p -> mcache -> mspan -> memory block -> return pointer
- pprof：对象分配的函数是最频繁调用的函数之一（占用很多的CPU）

2.4 字节跳动的优化方案：Balanced GC

每个g都绑定一大块内存（1KB），称作goroutine allocation buffer（GAB）
GAB用于noscan类型的小对象分配：<128B
使用三个指针维护GAB：base，end，top
指针碰撞风格对象分配
- 无须和其他分配请求互斥
- 分配动作简单高效

GAB对于Go内存管理来说是一个大对象
本质：将多个小对象的分配合并成一次大对象的分配
问题：GAB对象的分配方式会导致内存被延迟释放

方案：移动GAB中存活的对象
- 当GAB总的大小超过一定阈值时，将GAB中存活的对象复制到另外分配的GAB中
- 原先的GAB可以释放，避免内存泄漏
- 本质：用copying GC的算法管理小对象（根据对象的生命周期，使用不同的标记和清理策略）

三、编译器和静态分析

3.1 编译器的结构

3.2 静态分析

静态分析：不执行程序代码，推导程序的行为，分析程序的性质
控制流：程序执行的流程

数据流：数据在控制流上的传递

通过分析控制流和数据流，我们可以知道更多关于程序的性质
根据这些性质优化代码

3.3 过程内分析和过程间分析

过程内分析
- 仅在函数内部进行分析
过程间分析
- 考虑过程调用时参数传递和返回值的数据流和控制流
为什么过程间分析是个问题：
- 需要通过数据流分析得知i的具体类型，才能知道i.foo调用的是哪个
- 根据i的类型，产生了新的控制流，A.foo（或B.foo），分析继续
- 过程间分析需要同时分析控制流和数据流——联合求解，比较复杂

四、Go编译器优化

为什么要做编译器优化
- 用户无感知，重新编译即可获得性能收益
- 通用性能优化
现状
- 采用的优化少
- 编译时间较短，没有进行较复杂的代码分析和优化
编译优化的思路
- 场景：面向后端长期执行任务
- Tradeoff：用编译时间换取更高效的机器码
Beast mode
- 函数内联
- 逃逸分析
- 默认栈大小调整
- 边界检查消除
- 循环展开

4.1 函数内联

内联：将被调用函数的函数体（callee）的副本替换到调用位置（caller）上，同时重写代码以反映参数的绑定
优点：
- 消除函数调用的开销，例如传递参数，保存寄存器等
- 将过程间分析转化成过程内分析，帮助其他优化，例如逃逸分析

函数内联能多大程度影响性能？—— 使用 micro-benchmark 验证一下

缺点：
- 函数体变大，icache不友好
- 编译生成的Go镜像变大
函数内联在大多数情况下是正向优化
内联策略
- 根据调用和被调用函数的规模编译器去决定是否做内联

4.2 Beast Mode的函数内联

Go函数内联受到的限制较多
- 语言特性，例如interface，defer等限制了函数内联
- 其原生的内联策略非常保守
Beast mode：调整函数内联的策略，使更多函数被内联
- 降低了函数调用的开销
- 增加了其他优化的机会
开销
- Go镜像增加～10%
- 编译时间增加

4.3 逃逸分析

逃逸分析：分析代码中指针的动态作用域：指针在何处可以被访问
大致思路
- 从对象分配处出发，沿着控制流，观察对象的数据流
- 若发现指针p在当前作用域s：
  - 作为参数传递给其他函数
  - 传递给其他的goroutine
  - 传递给已逃逸的指针指向的对象
- 则指针p指向的对象逃逸出s，反之则没有逃逸出s

4.4 Beast Mode的逃逸分析

函数内联扩展了函数边界，更多的对象不逃逸
优化：未逃逸的对象可以在栈上分配
- 对象在栈上分配和回收很快：移动sp
- 减少在heap上的分配，降低GC负担

高性能Go语言发行版优化与落地实践｜青训营笔记

课前