这里讲jvm的基本结构和原理等,这篇只做简单介绍,后面会详细说各个子系统
1、JVM的整体结构:
JVM(虚拟机):指以软件的方式模拟具有完整硬件系统功能、运行在一个完全隔离环境中的完整计算机系统 ,是物理机的软件实现。常用的虚拟机有VMWare,Virtual Box,Java Virtual Machine
Java虚拟机阵营:Sun HotSpot VM、BEA JRockit VM、IBM J9 VM、Azul VM、Apache Harmony、Google Dalvik VM、Microsoft JVM...
JVM由三个主要的子系统构成
- 类加载器子系统
- 运行时数据区(内存结构)
- 执行引擎
具体看下面图:
2、类加载子系统:
类加载过程:类加载器的种类:
- 启动类加载器:负责加载JRE的核心类库,如jre目标下的rt.jar,charsets.jar等
- 扩展类加载器:负责加载JRE扩展目录ext中JAR类包
- 系统类加载器:负责加载ClassPath路径下的类包
- 用户自定义加载器:负责加载用户自定义路径下的类包
举例:输出四种类加载器
类加载机制:两种(具体原理和分析看下一篇对类加载器系统的分析)
1、全盘负责委托机制:当一个ClassLoader加载一个类时,除非显示的使用另一个ClassLoader,该类所依赖和引用的类也由这个ClassLoader载入
2、双亲委派机制:指先委托父类加载器寻找目标类,在找不到的情况下在自己的路径中查找并载入目标类
双亲委托大概流程:先全部交给顶级加载器,然后各层加载器挑自己要加载的类,其他的扔给下一层加载器去加载
双亲委派模式优势
沙箱安全机制 :自己写的 String .class类不会被加载,这样便可以防止核心API库被随意篡改
避免类的重复加载: 当父亲已经加载了该类时,就没有必要子ClassLoader再 加载一次
这里顺便提个问题:JVM加载jar包是否会将包里的所有类全部加载进内存?
答:JVM对class文件是按需加载(运行期间动态加载),非一次性加载,见示例(启动需要加上参数:-verbose:class)
3、运行时数据区:
从图看出运行时数据区主要存在五个区域:分别是方法区、堆、程序计数器、java栈、本地方法栈。
看图不难发现,我将这五个区域分成两种颜色进行标记,为什么?
原因就是这两种颜色分别代表着线程共享和线程独占的两种类型,黄色标记的方法区和堆代表线程共享(所以需要gc进行维护回收),蓝色标记的代表线程独占(在线程结束后会自动销毁,所以不用进行内存管理)
废话不多说,先看看各个区域是干什么的:
- 本地方法栈(线程私有):登记native方法,在Execution Engine执行时加载本地方法库
- 程序计数器(线程私有):就是一个指针,指向方法区中的方法字节码(用来存储指向下一条指令的地址,也即将要执行的指令代码),由执行引擎读取下一条指令,是一个非常小的内存空间,几乎可以忽略不记。
- 方法区(线程共享):类的所有字段和方法字节码,以及一些特殊方法如构造函数,接口代码也在此定义。简单说,所有定义的方法的信息都保存在该区域,静态变量+常量+类信息(构造方法/接口定义)+运行时常量池都存在方法区中,虽然Java虚拟机规范把方法区描述为堆的一个逻辑部分,但是它却有一个别名叫做 Non-Heap(非堆),目的应该是与 Java 堆区分开来。
- Java栈(线程私有): Java线程执行方法的内存模型,一个线程对应一个栈,每个方法在执行的同时都会创建一个栈帧(用于存储局部变量表,操作数栈,动态链接,方法出口等信息)不存在垃圾回收问题,只要线程一结束该栈就释放,生命周期和线程一致
JVM对该区域(栈)规范了两种异常:
1) 线程请求的栈深度大于虚拟机栈所允许的深度,将抛出StackOverFlowError异常
2) 若虚拟机栈可动态扩展,当无法申请到足够内存空间时将抛出OutOfMemoryError,通过jvm参数–Xss指定栈空间,空间大小决定函数调用的深度
3.1、栈的运行原理
下面会对各个区域进行分析:直接用一个例子来介绍程序在jvm中是怎么运行的
public class Math {
public final static Integer CONSTANT_1 = 666;
public int math(){
int a = 1;
int b = 2;
int c = (a+b)*10;
return c;
}
public static void main(String[] args) {
Math math = new Math();
math.math();
System.out.println("end");
}
}
我们先将该文件进行编译:找到文件所在目录cmd进去,输入编译命令:javac Math.java
出现了class文件,打开发现是一些字节码,完全看不懂:
此时为了降低观看难度,采用反汇编命令将字节码转换为java指令文件:cmd文件目录下输入命令:
javap -c Math.class > Math.txt (生成到Math.txt文件中),此时打开Math.txt文件:
Compiled from "Math.java"
public class com.Math {
public static final java.lang.Integer CONSTANT_1;
public com.Math();
Code:
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return
public int math();
Code:
0: iconst_1
1: istore_1
2: iconst_2
3: istore_2
4: iload_1
5: iload_2
6: iadd
7: bipush 10
9: imul
10: istore_3
11: iload_3
12: ireturn
public static void main(java.lang.String[]);
Code:
0: new #2 // class com/Math
3: dup
4: invokespecial #3 // Method "<init>":()V
7: astore_1
8: aload_1
9: invokevirtual #4 // Method math:()I
12: pop
13: getstatic #5 // Field java/lang/System.out:Ljava/io/PrintStream;
16: ldc #6 // String end
18: invokevirtual #7 // Method java/io/PrintStream.println:(Ljava/lang/String;)V
21: return
static {};
Code:
0: sipush 666
3: invokestatic #8 // Method java/lang/Integer.valueOf:(I)Ljava/lang/Integer;
6: putstatic #9 // Field CONSTANT_1:Ljava/lang/Integer;
9: return
}
这样是不是对比原程序有了一定的辨别度了。那我们就直接那math方法区域的指令来分析栈的运行过程
首先一个线程的主要内部划分如图:其中java栈中每一个方法对应一个栈帧。
局部变量表:
顾名思义就是用来存储java方法中的局部变量的,在编译期间就会分配方法局部变量表的最大容量,局部变量表以变量槽为单位,每个变量槽可以存储32位及32位以下的变量,具体大小根据变量实际占用内存而定,java的基本类型中除了long和double外其他类型都是32位以下,所以每个变量占用一个变量槽即可,而对于long和double类的变量,会占用两个变量槽,除了基本类型当然还有引用类型,引用类型变量长度JVM并没有明确定义。JVM通过索引的方式来访问变量表中的变量,索e69da5e6ba90e79fa5e9819331333365663538引从0开始。变量槽是可以重复使用的,当变量槽所存储的变量已经不在其作用域后,该变量槽就可以被其他变量占用
操作数栈:
用于在方法运行时可以存放以及获取操作数,其所需要的最大栈深度也是在编译期间定下的,在方法刚开始运行时,操作数栈是空的,在方法执行过程中会有各种操作指令往操作数栈中压入和获取内容,也就是出栈/入栈操作,比如一个加法指令对两个数据进行相加,运行到这里前会先将两个数据压入栈中,然后将这两个操作数取出相加;在实际情况中,方法的操作数栈之间并不完全独立,往往会公用部分空间,这样在方法调用时就不需要进行参数复制了
动态连接:
前面说了常量池中会存储方法的符号引用,而每个栈帧中都会存储一个引用,用于指向常量池中该方法对应的符号引用,字节码指令中方法的调用就以方法对应的符号引用为参数来进行,在类加载阶段的解析步骤中,部分符号引用会被解析为直接引用,称为静态解析,在方法的运行过程中,另一部分符号引用会被实时的解析为直接引用,称为动态连接。
被静态解析的条件:方法在运行前就有一个可确定的调用版本,其实也就是编译期就刻意确定改方法有没有可能通过继承或者其他方式被重写,在java中静态方法(与类型直接关联),私有方法(外部不可访问),构造方法,父类方法,final方法,这五种方法的符号引用可以被静态解析都不可能被重写,可以在运行前确定唯一的调用版本,满足被静态解析的条件,称为非虚方法。
方法返回地址:
方法的运行过程中,可能会正常退出,也可能会异常退出,不论是哪种退出方式,在退出后都会要保证其上层调用者可以知道方法退出的位置,以便于程序继续执行,方法的返回地址就是用于确定退出位置的。
下面对于栈部分进行分析:
我们拿到程序对应的jvm指令:
public int math();
Code:
0: iconst_1 //iconst_1 将int类型常量1压入栈
1: istore_1 //istore_1 将int类型值存入局部变量1
2: iconst_2 //iconst_2 将int类型常量2压入栈
3: istore_2 //istore_2 将int类型值存入局部变量2
4: iload_1 //iload_1 从局部变量1中装载int类型值
5: iload_2 //iload_2 从局部变量2中装载int类型值
6: iadd //iadd 执行int类型的加法
7: bipush 10 //bipush 将一个8位带符号整数压入栈
9: imul //imul 执行int类型的乘法
10: istore_3 //istore_3 将int类型值存入局部变量3
11: iload_3 //iload_3 从局部变量3中装载int类型值
12: ireturn //ireturn 从方法中返回int类型的数据
上面的命令通过指令大全分别进行了注释。我们为了更容易理解就画几个图:
注意方法出口记录着:退出位置、之前main方法的程序计数器的记录等。
好了,math方法的指令就基本说完了。下面说下栈+堆+方法区的相互关系:
再详细点的图:
最后再总结下栈帧下各个区的说明:
3.2、堆
堆(线程共享):虚拟机启动时创建,用于存放对象实例,几乎所有的对象(包含常量池)都在堆上分配内存,当对象无法再该空间申请到内存时将抛出OutOfMemoryError异常。同时也是垃圾收集器管理的主要区域。可通过 -Xmx –Xms 参数来分别指定最大堆和最小堆
新生区
类诞生、成长、消亡的区域,一个类在这里产生,应用,最后被垃圾回收器收集,结束生命。
新生区分为两部分: 伊甸区(Eden space)和幸存者区(Survivor pace) ,所有的类都是在伊甸区被new出来的。幸存区有两个: 0区(Survivor 0 space)和1区(Survivor 1 space)。当伊甸园的空间用完时,程序又需要创建对象,JVM的垃圾回收器将对伊甸园区进行垃圾回收(Minor GC),将伊甸园区中的不再被其他对象所引用的对象进行销毁。然后将伊甸园中的剩余对象移动到幸存 0区。若幸存 0区也满了,再对该区进行垃圾回收,然后移动到1区。此后eden区来的对象存到1区,当1区满后则进行gc然后将对象放到0区,依次循环到达某个次数时则会将仍然存活的对象移动到老年区。
老年区
新生区经过多次GC仍然存活的对象移动到老年区。若老年区也满了,那么这个时候将产生MajorGC(FullGC),进行老年区的内存清理。若老年区执行了Full GC之后发现依然无法进行对象的保存,就会产生OOM异常“OutOfMemoryError”
元数据区:元数据区取代了永久代(jdk1.8以前),本质和永久代类似,都是对JVM规范中方法区的实现,区别在于元数据区并不在虚拟机中,而是使用本地物理内存,永久代在虚拟机中,永久代逻辑结构上属于堆,但是物理上不属于堆,堆大小=新生代+老年代。元数据区也有可能发生OutOfMemory异常。
Jdk1.6及之前: 有永久代, 常量池在方法区
Jdk1.7: 有永久代,但已经逐步“去永久代”,常量池在堆
Jdk1.8及之后: 无永久代,常量池在元空间
元数据区的动态扩展,默认–XX:MetaspaceSize值为21MB的高水位线。一旦触及则Full GC将被触发并卸载没有用的类(类对应的类加载器不再存活),然后高水位线将会重置。新的高水位线的值取决于GC后释放的元空间。如果释放的空间少,这个高水位线则上升。如果释放空间过多,则高水位线下降。
为什么jdk1.8用元数据区取代了永久代?
官方解释:移除永久代是为融合HotSpot JVM与 JRockit VM而做出的努力,因为JRockit没有永久代,不需要配置永久代
堆的知识做简单介绍,后面文章会进一步解析。
4、执行引擎
执行引擎:
执行引擎主要分三种:
1、读取运行时数据区的Java字节码并逐个执行
2、一次性读取多个字节码再执行(JIT即时编译)
3、混合1、2两种使用(即如果发现某些字节码经常用,则转换为第2中情况)
如果你去检查jdk版本:java -version
这里的mixed mode就是混合使用的意思