1.概述
- 内存是非常重要的系统资源,是硬盘和CPU的中间仓库及桥梁,承载着操作系统和应用程序的实时运行。JVM内部布局规定了Java在运行过程中内存申请、分配、管理的策略,保证了JVM的高效稳定运行。不同的JVM对于内存的划分存在着部分差异,结合JVM虚拟机规范,来探讨一下经典的JVM内存布局。
2. Java虚拟机定义了若干种程序运行期间会使用到的运行时数据区,其中一些会随着虚拟机启动而创建,随着虚拟机的退出而销毁。另外一些则是与线程一一对应的,这些与线程对应的数据区域会随着线程开始和结束而创建和销毁。如下图所示:灰色的为单独线程私有的,红色的为多个线程共享的。即
- 每个线程:独立包括程序计数器、栈、本地栈
- 线程间共享:堆、堆外内存(永久代或元空间、代码缓存)
- 每个JVM只有一个Runtime实例。就是运行时环境
- 线程
- 线程是一个程序里的运行单元,JVM允许一个应用线程并行的执行
- 在Hotspot JVM中,每个线程都与操作系统的本地线程直接映射;当一个Java线程准备好执行以后,此时一个操作系统的本地线程也同时创建。Java线程执行终止后,本地线程也会回收
- 操作系统负责所有线程的安排调度到任何一个可用的CPU上,一旦本地线程初始化成功,他就会调用Java线程中的run()方法
- 用户线程:Java虚拟机在它所有非守护线程已经离开后自动离开。
- 守护线程:守护线程则是用来服务用户线程的,如果没有其他用户线程在运行,那么就没有可服务对象,也就没有理由继续下去。setDaemon(boolean on)方法可以方便的设置线程的Daemon模式,true为Daemon模式,false为User模式。setDaemon(boolean on)方法必须在线程启动之前调用,当线程正在运行时调用会产生异常。isDaemon方法将测试该线程是否为守护线程。值得一提的是,当你在一个守护线程中产生了其他线程,那么这些新产生的线程不用设置Daemon属性,都将是守护线程,用户线程同样。
- JVM系统线程
- 如果使用jconsole或者任何一个调试工具,都能看到后台有很多线程在运行,这些祸后台线程不包括调用main()线程以及所有和这个main线程自己创建的线程
- 这些主要的后台系统线程在Hotspot JVM里主要是一下几个:
- 虚拟机线程:这种线程的操作是需要JVM达到安全点才会出现。这些操作必须在不同的线程中发生的原因是他们都需要JVM达到安全点,这样堆才不会变化,这种线程的执行类型包括“stop the world”的垃圾收集,线程栈收集,线程挂起以及偏向锁撤销
- 周期任务线程:这种线程是时间周期事件的体现(比如中断),他们一般用于周期性操作的调度执行
- GC线程:这种线程对在JVM里不同种类的垃圾收集行为提供了支持
- 编译线程:这种线程在运行时会将字节码编译成到本地代码
- 信号调度线程:这种线程接收信号并发送给JVM,在它内部通过调用适当的方法进行处理
2.程序计数器
2.1 PC Register介绍
- JVM中的程序计数器(Program Counter Register)中,Register的命名源于CPU的寄存器,寄存器中存储指令相关的现场信息。CPU只有把数据装载到寄存器才能够运行。这里并不是广义上所指的物理寄存器,获取将其翻译为PC计算器(或指令计数器)会更加贴切(也称为程序钩子),并且也不容易引起一些不必要的误会。JVM中的PC寄存器是对物理PC寄存器的一种抽象模拟。
- 作用
- PC寄存器用来存储指向下一条指令的地址,也即将要执行的指令。由执行引擎读取下一条指令
- 它是一块很小的内存空间,几乎可以忽略不计,也是运行速度最快的存储区域
- 在JVM规范中,每个线程都有它自己的程序计数器,是线程私有的,生命周期与线程 的生命周期保持一致
- 任何时间一个线程都只有一个方法在执行,也就是所谓的当前方法。程序计数器会存储当前线程正在执行的Java方法的JVM指令地址;或者,如果是在执行native方法,则是未指定值
- 它是程序控制流的指示器,分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器来完成
- 字节码解释器工作时就是通过改变这个计数器的值来选取下一条需要执行的字节码指令
- 它是唯一一个在Java虚拟机规范中没有规定任何OutOfMemeryError情况的区域
- 举例说明
4. 两个常见问题
- ①使用PC寄存器存储字节码指令地址有什么用呢?②为什么使用PC寄存器记录当前线程线程的执行地址呢?
- 因为CPU需要不停的切换各个线程,这时候切换回来以后,就得知道接着从哪开始继续执行
- JVM的字节码解释器就需要通过改变PC寄存器的值来明确下一条应该执行什么样的字节码指令
- PC寄存器为什么被设定为线程私有的?
- 多线程在一个特定的时间段内只会执行其中某一个线程的方法,CPU会不停的做任务切换,这样必然导致经常中断或者恢复,如何保证分毫无差呢?为了能够准确记录各个线程正在执行的当前字节码指令地址,最好的办法自然是为每一个线程都分配一个PC寄存器,这样一来各个线程之间便可以进行独立计算,从而不会出现相互干扰的情况
- 由于CPU时间片轮限制,众多线程在并发执行过程中,任何一个确定的时刻,一个处理器或者多核处理器的一个内核,只会执行某个线程中的一条指令
3.虚拟机栈
3.1虚拟机栈概述
- 由于跨平台性的设计,Java的指令都是根据栈来设计的,不同平台CPU架构不同,所以不能设计为基于寄存器的;优点是:跨平台,指令集小,编译器容易实现,缺点是性能下降,实现同样的功能需要更多的指令
- 栈式运行时的单位,而堆是存储的单位;
- 栈解决程序的运行问题,即程序如何执行,或者说如何处理数据
- 堆是解决数据存储的问题,即数据怎么放,放在哪里
- Java虚拟机栈的基本内容
- Java虚拟机栈(Java Virtual Machine Stack),每个线程在创建时都会创建一个虚拟机栈,其内部保存一个个的栈帧(Stack Frame),对应着一次次的Java方法调用;是线程私有的
- 生命周期:和线程的生命周期一致
- 作用:主管Java程序的运行,它保存方法的局部变量、部分结果,并参与方法的调用和返回(局部变量 vs 成员变量 基本数据类型 vs 引用数据类型)
- 栈的优点
- 栈是一种快速有效的分配存储方式,访问速度仅次于程序计数器
- JVM直接对Java栈操作:①每个方法执行,伴随着进栈 ②执行结束后的出栈工作
- 栈不存在垃圾回收问题,如GC、OOM等
- 栈中可能出现的异常
- Java虚拟机规范允许Java栈的大小是动态的或者固定不变的
- 如果采用固定大小的Java虚拟机栈,那每一个线程的Java虚拟机栈容量可以在线程创建的时候独立选定。如果线程请求分配的栈容量超过Java虚拟机栈允许的最大容量,此时抛出StackOverflowError,比如死循环
- 如果Java虚拟机可以动态扩展,并且尝试扩展的时候无法申请到足够的内存,或者在创建新的线程时没有足够的内存去创建对应的虚拟机栈,此时抛出一个OutOfMemeryError异常
3.2 栈的存储单位
- 栈中存储什么?
- 每个线程都有自己的栈,栈中的数据都是以栈帧(Stack Frame)的格式存在
- 在这个线程上正在执行的每个方法都各自对应一个栈帧
- 栈帧是一个内存区块,是一个数据集,维系着方法执行过程中的各种数据信息
- 栈的运行原理
- JVM直接对Java栈的操作,就是对栈帧的压栈和出栈,遵循“先进后出/后进先出”的原则 - 在一条活动线程中,一个时间点上,只会有一个活动的栈帧。即只有当前正在执行的方法的栈帧(栈顶栈帧)是有效的,这个栈帧称为当前栈帧(Current Frame),与当前栈帧相对应的方法就是当前方法,定义这个方法的类就是当前类 - 执行引擎运行的所有字节码指令只针对当前栈帧进行操作 - 如果在该方法中调用了其他方法,对应新的栈帧会被创建出来,放在栈的顶端,称为新的当前帧 - 不同线程中所包含的栈帧是不允许存在相互引用的,即不可能在一个栈帧之中引用另外一个线程的栈帧 - 如果当前方法调用了其他方法,方法返回之前之际,当前栈帧会传回此方法的执行结果给当前一个栈帧,接着,虚拟机会丢弃当前栈帧,使得前一个栈帧重新成为当前栈帧 - Java方法有两种返回函数的方式,一种是正常的函数返回,使用return指令;另外一种就是抛出异常,不管哪种方式,都会导致栈帧被弹出3. 栈帧的内部结构 - 局部变量表(Local Variables) - 操作数栈(Operand Stack)或表达式栈 - 动态链接(Dynamic Linking)或指向运行时常量池的方法引用 - 方法返回地址(Return Address)或方法正常退出或者异常退出的定义 - 一些附加的信息
3.3 局部变量表
- 局部变量表
- 也被称为局部变量数组或本地变量表
- 定义一个数字数组,主要用于存储方法参数和定义在方法体内的局部变量,这些数据类型包括各类基本数据类型、对象引用(refernce),以及returnAddress类型
- 由于局部变量是建立在线程的栈上,是线程私有数据,因此不存在数据安全问题
- 局部变量表所需的容量大小是在编译期确定下来的,并保存在方法的Code属性的maxmum local variables数据项中。在方法运行期间是不会改变局部变量表的大小
- 方法嵌套调用的次数是由栈的大小决定的。一般来说,栈越大,方法嵌套调用次数越多,对一个函数而言,它的参数和局部变量越多,使得局部变量表膨胀,它的栈帧就越大,以满足方法调用所需传递的信息增大的需求。进而函数低矮用就会占用更多的栈空间,导致其嵌套调用次数就会减少
- 局部变量表中的变量只在当前方法调用中有效。在方法执行时,虚拟机通过使用局部变量表完成参数值到参数变量列表的传递过程。当方法调用结束后,随着方法栈帧的销毁,局部变量表也会随之销毁
- 可以看到,在Class文件的局部变量表中,显示了每个局部变量的作用域范围、所在槽位的索引(index列)、变量名(name 列)和数据类型(J表示long型)
- 关于Slot的理解
- 参数值的存放总是在局部变量数组的index0开始,到数组长度-1的索引结束
- 局部变量表,最基本的存储单元是Slot(变量槽)
- 局部变量表中存放编译期可知的各种基本数据类型(8种),引用数据类型(reference),returnAddres类型的变量
- 在局部变量表中,**32位以内的数据类型只占用一个slot(包括returnAddress类型),64位的类型(longhe double)占用两个slot
- byte、short、char在存储前被转换成int,boolean也被转成int,0表示false,1表示true
- long 和double 则占用两个slot
- JVM会为局部变量表中的每一个slot都分配一个访问索引,通过这个索引即可以成功访问到局部变量表中指定的局部变量值
- 当一个实例方法被调用的时候,它的方法参数和方法体内部定义的局部变量将会按照顺序被复制到 局部变量表中的每一个slot中
- 如果需要访问局部变量表中一个64bit的局部变量值时,只需要使用前一个索引即可。
- 如果当前帧是由构造方法或者实例方法创建的那么该对象引用this将会存放在index0的slot位置,其余的参数按照参数顺序继续排列
- Slot的重复利用
- 栈帧中的局部变量表中的槽位是可以重用的,如果一个局部变量过了其作用域,那么在其作用域之后申明的新的局部变量就很有可能复用局部变量的槽位,从而达到节省资源的目的
public class Test{ public void localVar(){ { int a = 0; System.out.println(a); } //此时b就会复用a的槽位 int b = 0; } }
- 举例:静态变量和局部变量的对比 - 参数表分配完毕之后,再根据方法体内定义的变量的顺序和作用域分配 - 类变量有两次初始化的机会,一次是在“准备阶段”,执行系统初始化,对类变量设置零值,另一次是在“初始化”阶段,赋予程序员在代码中定义的初始值 - 和类变量初始化不同的是,局部变量表不存在系统初始化的过程,这意味着一旦定义了局部变量则必须认为的初始化,否则不能使用
补充
- 在栈帧中,与性能关系最为密切的不分就是前面提到的局部变量表。在方法执行时,虚拟机使用局部变量表完成方法的传递
- 局部变量表中的变量也是重要的垃圾回收根节点,只要被局部变量表中直接或间接引用的对象都不会被回收
3.4操作数栈
- 每一个独立的栈帧中除了包含局部变量表以外,还包含一个后进先出的操作数栈,也称为表达式栈
- 操作数栈,在方法执行过程中,根据字节码指令,往栈中写入数据或提取数据,即入栈和出栈
- 操作数栈,主要用于保存计算过程的中间结果,同时作为计算过程中变量临时的存储空间
- 操作数栈就是JVM执行引擎的下一个工作区,当一个方法刚开始执行的时候,一个新的栈帧也会随之创建出来,这个方法的操作数栈是空的
- 每一个操作数栈都会拥有一个明确的栈深度用于存储数值,其所需的最大深度在编译期就定义好了,保存在方法的Code属性中,为max_statck的值
- 栈中的任何一个元素都是可以任意的Java数据类型;32bit的类型占用一个栈单位深度,64bit的类型占用两个栈单位的深度
- 操作数栈并非采用访问索引的方式来进行数据访问的,而是只能通过彼岸准的入栈和出栈操作完成一次数据访问
- 如果被调用的方法带有返回值的话,其返回值将会被压入当前栈帧的操作数栈中,并更新PC寄存器中下一条需要执行的字节码指令
- 操作数栈中的元素的数据类型必须与字节码指令的序列严格匹配,这由编译器在编译期间进行验证,同时在类加载过程中的类检验阶段的数据流分析阶段要再次检验
- 另外,我们说Java虚拟机的解释引擎是基于栈的执行引擎,其中栈指的就是操作数栈
3.5代码追踪
public void testOperation() { byte i = 15; int j = 8; int k = i + j; } 使用javap命令反编译class文件:javap -v 类名.class public void testOperation(); descriptor: ()V flags: ACC_PUBLIC Code: stack=2, locals=4, args_size=1 0: bipush 15 2: istore_1 3: bipush 8 5: istore_2 6: iload_1 7: iload_2 8: iadd 9: istore_3 10: return
执行过程如下:
3.6栈顶缓存(Top-of-Stack Cashing)技术
- 基于栈式架构的虚拟机所使用的的零地址指令更加紧凑,但完成一项操作的时候必然需要使用更多的入栈和出栈和指令,这同时也就意味着将需要更多的指令分派(instruction dispatch)次数和内存读/写次数
- 由于操作数栈式存储在内存中的,因此频繁的执行内存读/写操作必然会影响执行速度。为了解决这个问题,HoSpot JVM的设计者们提出了栈顶缓存技术,**将栈顶元素全部缓存在物理CPU的寄存器中,以此降低对内存的读/写次数,提升执行引擎的执行效率
3.7动态链接
- 每一个栈帧内部都包含一个执行运行时常量池中**该栈帧所属方法的引用。**包含这个引用的目的就是为了支持当前方法的代码能够实现动态链接,比如invokedynamic指令
- Java源文件被编译到字节码文件时,所有的变量和方法引用都作为符号引用保存在class文件的常量池中。比如,描述一个方法调用另外一个方法时,就是通过常量池中的指向方法的符号引用来表示的,那么**动态链接的作用就是为了将这些符号引用转换为调用方法的直接引用
- 为什么需要常量池呢?就是为了提供一些符号和常量,便于指令的识别
3.8 方法的调用
- 绑定机制
- 静态链接:当一个字节码文件被装载进JVM内部时,如果被调用的目标方法在编译期可知,且运行期保持不变,这种情况下将调用方法的符号引用转换为直接引用的过程称为静态链接
- 动态链接:如果被调用的方法在编译期无法被确定下来,也就是说,只能够在程序运行期将调用方法的符号引用转换成直接引用,由于这种引用转换过程具备动态性,因此被称之为动态链接
- 上述分别对应着早期绑定和晚期绑定。绑定是一个字段、方法或者类在符号引用被替换为直接引用的过程,这仅仅发生一次
- 虚方法与非虚方法
- 非虚方法:
- 如果方法在编译期就确定了具体的调用版本,这个版本在运行时是不可变的,这样的方法称为非虚方法
- 静态方法,私有方法,final方法,实例构造器,父类方法都是非虚方法
- 其他方法都是虚方法
- 虚拟机调用指令
- 普通调用指令
- invokestatic:调用静态方法,解析阶段确定唯一方法版本
- invokespecial: 调用<init>方法、私用及父类方法,解析阶段确定唯一方法版本
- invokevirtual:调用所有的虚方法
- invokeinterface;调用接口方法
- 动态调用指令
- invokedynamic:动态解析出需要调用的方法,然后执行
- 前四条指令固化在虚拟机内部,方法的调用执行不可人为干预。而invokedynamic指令则支持由用户确定方法的版本,其中invokespecial和invokestatic调用的方法称为非虚方法,其余的(final修饰除外)称为虚方法
- 关于invokedynamic指令
- Java7中才新增; invokedynamic指令,这是Java实现动态类型语言的一种改进
- 动态类型语言和静态类型语言
- 动态类型语言和静态类型语言两者的区别就在于对类型的检查是在编译期还是在运行期,满足前者就是静态类型语言,反之是动态类型语言
- 静态类型语言是判断变量自身的类型信息。动态类型语言是判断变量值的类型信息。变量没有类型信息,变量值才有类型信息,这是动态语言的一个重要的特征
- 方法重写的本质
- 找到操作数栈顶的第一个元素所执行的对象的实际类型,即为C
- 如果在类型C中找到与常量中的描述符符合简单名称都相符的方法,则进行访问权限校验,如果通过则返回这个方法的直接引用,查找过程结束;如果不通过,则返回java.lang.IllegalAccessError异常
- 否则,按照继承关系从下往上一次对C的各个父类进行上一步的搜索和验证过程
- 如果始终没有找到合适的方法,则抛出java.lang.IllegalAccessError异常
- IllegalAccessError介绍:程序试图访问或修改一个属性或调用一个方法,这个属性或方法,你没有权限访问。一般的,这个会引起编译器异常,这个错误如果发生在运行时,就说明一个类发生了不兼容的改变
- 虚方法表
- 面向对象的编程过程中,会频繁的使用到动态分派,如果每次动态分派的过程中都要重新再类的方法元数据中搜索合适的目标的话可能影响到执行效率,因此,为了提高效率,JVM采用在类的方法区中建立一个虚方法表(virtual method table)(非虚方法不会出现在表中)。使用所以表来代替查找
- 每个类都有一个虚方法表
- 什么时候创建?在类加载的链接阶段被创建并开始初始化,类的变量初始值准备完成之后,JVM会把该类的方法表也初始化完成
3.9 方法的返回地址
- 简述
- 存放调用该方法的pc寄存器的值
- 一个方法的结束,正常执行完成或者异常退出
- 无论哪种方式退出,在方法退出后都返回到该方法调用的位置,方法正常退出时,调用者pc计数器的值作为返回地址,即调用该方法的指令的下一套指令的地址。而异常退出,返回地址是要通过异常表来确定,栈帧中一般不会保存这部分信息
- 两种退出的方式
- 执行引擎遇到任意一个方法返回的字节码指令(return),会有返回值传递给上层的方法调用者,简称正常完成出口
- 返回指令包括ireturn(返回值为boolean,byte,short,int,char类型)、lreturn、freturn、dreturn以及areturn,另外一个return指令为声明void的方法、实例初始化方法、类和接口的初始化方法使用
- 方法执行过程中遇到异常,并且这个异常没有在方法内进行处理,也就是只要本方法的异常表中没有搜索到匹配的异常处理器,就会导致方法退出,简称异常完成出口
- 方法执行过程中抛出异常时的异常处理,存储在一个异常处理表,方便在发生异常的时候找到处理异常的代码
- 本质上,方法的退出就是当前栈帧出栈的过程,此时,需要恢复上层方法的局部变量表、操作数栈、将返回值压入调用者栈帧的操作数栈、设置pc寄存器值等,让调用者方法继续执行下去。正常完成出口和异常完成出口的区别:通过异常完成出口退出的不会给他的上层调用者产生任何的返回值
3.10 一些附加信息
- 栈帧中还允许携带与Java虚拟机实现相关的一些附加信息。例如,对程序调试提供支持的信息
3.11 栈的相关面试题
- 举例子说栈溢出的情况(StackOverflowError)
- 通过设置-Xss设置栈的大小:OOM
- 调整栈的大小,就能保证不出现溢出吗?不能
- 分配栈的内存越大越好吗?不是
- 垃圾回收是否会涉及到虚拟机栈?不会
- 方法定义的局部变量是否是线程安全?具体问题具体分析
4.本地方法接口
- 什么是本地方法接口?
- 一个Native Method 就是一个Java调用非Java代码的接口。本地接口的作用是融合不同的编程语言为Java所用,它的初衷是融合C/c++程序
- 标识符nativa可以与所有其他的java标识符连用,但是abstract除外
- 为什么使用Native Method?
- Java使用起来非常方便,然而有些层次的任务用Java实现起来不容易,或者我们对程序的效率很在意,问题就来了
- 与Java环境交互:有些Java应用需要与Java外面的环境交互,这是本地方法存在的主要原因。你可以想想Java需要与一些底层系统,如操作系统或某些硬件交换信息时情况。本地方法正是这样一种交流机制:它为我们提供了一个非常简介的接口,而且我们无需去了解Java应用之外的繁琐的细节
- 与操作系统交互:通过使用本地方法,我们可以使用Java实现了JRE与底层系统的交互,甚至JVM的一些部分就是C写的
- Sun’s Java:Sun的解释器是用C实现,这使得它能像一些普通的C一样与外部交互
- 现状
- 目前使用该方法的越来越少了,除非是与硬件有关的应用
5.本地方法栈
- Java虚拟机用于管理Java方法的调用,而本地方法栈用于管理本地方法的调用
- 本地方法栈,也是线程私有的
- 允许被实现成固定或者可动态扩展的内存大小。(在内存溢出方面是相同的)
- 如果线程请求分配的栈容量超过本地方法栈允许的最大容量,Java虚拟机将会抛出一个StackOverflowError异常
- 如果本地方法栈可以动态扩展,并且在尝试扩展的时候无法申请到足够的内存,或者在创建新的线程时没有足够的内存去创建对应的本地方法栈,那么Java虚拟机将会抛出一个OutOfMemeryError异常
- 本地方法是使用C语言实现的
- 它的具体做法是Native Method Stack 中等级native方法,在Execution Engine 执行时加载本地方法库
- 当某一个线程调用本地方法时,它就进入了一个全新的并且不再受虚拟机控制的世界,它和虚拟机拥有同样的权限。
- 本地方法可以通过本地方法接口来方访问虚拟机内部的运行时数据区
- 它甚至可以直接使用本地处理器中的寄存器
- 直接从本地内存的堆中分配任意数量的内存
- 并不是所有的JVM都支持本地方法。因为Java虚拟机规范并没有明确要求本地方法栈的使用语言、具体实现方式、数据结构等。如果JVM产品不打算直接native方法,也可以无需实现本地方法栈
- 在HotSpot JVM中,直接将本地方法栈和虚拟机栈合二为一。