在前面我们了解了虚拟机如何判断对象可回收,接下来我们了解Java虚拟机垃圾收集的一些理论和算法。
1、分代收集理论
分代收集理论,是基于程序运行对象存活数量和对象年龄之间关系的一套经验法则。
它建立在两个分代假说之上:
- 弱分代假说(Weak Generational Hypothesis):绝大多数对象都是朝生夕灭的。
- 强分代假说(Strong Generational Hypothesis):熬过越多次垃圾收集过程的对象就越难以消亡。
用通俗的话总结:大部分污渍很容易擦干净,多次擦都没擦干净的无责越来越难擦干净。
基于这个理论,收集器将Java堆划分出不同的区域,然后将回收对象按照年龄分配到不同的区域存储。
具体来讲,就是把Java堆划分为新生代 (Young Generation)和老年代(Old Generation)两个区域,新生代存放存活时间短的对象,而每次回收后存活的少量对象,将会逐步晋升到老年代中存放。
对于新生代的对象,可以只关注如何保留少量存活而不是去标记那些大量将要被回收的对象;
对于老年代,可以降低垃圾收集频率,同时更加关注那些要消亡的对象。
为了降低垃圾回收的代价,在新生代和老年代采用了不同的垃圾收集算法。
基于分代,产生了一些垃圾收集的类型划分:
- 部分收集(Partial GC):指目标不是完整收集整个Java堆的垃圾收集,其中又分为:
- 新生代收集(Minor GC/Young GC):指目标只是新生代的垃圾收集。
- 老年代收集(Major GC/Old GC):指目标只是老年代的垃圾收集。目前只有CMS收集器会有单独收集老年代的行为。
- 混合收集(Mixed GC):指目标是收集整个新生代以及部分老年代的垃圾收集。目前只有G1收集器会有这种行为。
- 整堆收集(Full GC):收集整个Java堆和方法区的垃圾收集。
2、垃圾收集算法
2.1、标记-清除算法
见名知义,标记-清除
(Mark-Sweep)算法分为两个阶段:
- 标记 : 标记出所有需要回收的对象
- 清除:回收所有被标记的对象
标记-清除算法比较基础,但是主要存在两个缺点:
- 执行效率不稳定,如果Java堆中包含大量对象,而且其中大部分是需要被回收的,这时必须进行大量标记和清除的动作,导致标记和清除两个过程的执行效率都随对象数量增长而降低。
- 内存空间的碎片化问题,标记、清除之后会产生大量不连续的内存碎片,空间碎片太多可能会导致当以后在程序运行过程中需要分配较大对象时无法找到足够的连续内存而不得不提前触发另一次垃圾收集动作。
标记-清除算法主要用于老年代,因为老年代可回收的对象比较少。
2.2、标记-复制算法
标记-复制算法解决了标记-清除算法面对大量可回收对象时执行效率低的问题。
过程也比较简单:将可用内存按容量划分为大小相等的两块,每次只使用其中的一块。当这一块的内存用完了,就将还存活着的对象复制到另外一块上面,然后再把已使用过的内存空间一次清理掉。
这种算法存在一个明显的缺点:一部分空间没有使用,存在空间的浪费。
新生代垃圾收集主要采用这种算法,因为新生代的存活对象比较少,每次复制的只是少量的存活对象。
一般虚拟机的具体实现不会采用1:1的比例划分,以HotSpot为例,HotSpot虚拟机将内存分为一块较大的Eden空间和两块较小的 Survivor空间,每次分配内存只使用Eden和其中一块Survivor。发生垃圾搜集时,将Eden和Survivor中仍然存活的对象一次性复制到另外一块Survivor空间上,然后直接清理掉Eden和已用过的那块Survivor空间。默认Eden和Survivor的大小比例是8∶1。
2.3、标记-整理算法
为了降低内存的消耗,引入一种针对性的算法:标记-整理
(Mark-Compact)算法。
其中的标记过程仍然与“标记-清除”算法一样,但后续步骤不是直接对可回收对象进行清理,而是让所有存活的对象都向内存空间一端移动,然后直接清理掉边界以外的内存。
标记-整理算法主要用于老年代,在老年代这种大量对象存活的区域,移动对象是个很大的负担,而且这种对象移动操作必须全程暂停用户应用程序(Stop The World)才能进行。