早期(编译期)优化

Javac的编译过程

  • 解析与填充符号表过程
  • 插入式注解处理器的注解处理过程
  • 分析与字节码生成过程

<img 9001>

Javac编译动作的入口是com.sun.tools.javac.main.JavaCompiler类,上述3个过程的代码逻辑集中在这个类的compile()和compile2()方法中,其中主体代码如下图所示,整个编译最关键的处理就由图中标注的8个方法来完成

<img 9002>

解析与填充符号表

解析步骤由parseFiles()方法完成,解析步骤包括了经典程序编译原理中的词法分析和语法分析两个过程

  • 词法、语法分析
    词法分析是将源代码的字符流转变为标记(Token)集合,单个字符是程序编写过程的最小元素,而标记则是编译过程的最小元素,关键字、变量名、字面量、运算符都可以成为标记,如”int a=b+2”这句代码中包含了6个标记,分别是int、a、=、b、+、2。在Javac的源码中,词法分析过程由com.sun.tools.javac.parser.Scanner类来实现
    语法分析是根据Token序列构造抽象语法树的过程,抽象语法树(AST)是一种用来描述程序代码语法结构的树形表示方式,语法树的每一个节点都代表着程序代码中的一个语法结构,例如包、类型、修饰符、运算符、接口、返回值甚至代码注释等都可以是一个语法结构。语法分析过程由com.sun.tools.javac.parser.Parser类实现,这个阶段产生的抽象语法树由com.sun.tools.javac.tree.JCTree类表示,经过这个步骤之后,编译器就基本不会再对源码文件进行操作了,后续的操作都建立在抽象语法树之上
  • 填充符号表
    完成了语法分析和词法分析之后,下一步就是填充符号表的过程,也就是enterTrees()方法所做的事情。符号表(System Table)是由一组符号地址和符号信息构成的表格,符号表中所登记的信息在编译的不同阶段都要用到。在语义分析中,符号表所登记的内容将用于语义检查(如检查一个名字的使用和原先的说明是否一致)和产生中间代码,在目标代码生成阶段,当对符号名进行地址分配时,符号表是地址分配的依据
    在Javac源代码中,填充符号表由com.sun.tools.javac.comp.Enter类实现,此过程的出口是一个待处理列表,包含了每一个编译单元的抽象语法树的顶级节点,以及package-info.java(如果存在的话)的顶级节点

注解处理器

注解与普通Java代码一样,是在运行期间发挥作用的,在JDK 1.6中实现了JSR-269规范,提供了一组插入式注解处理器的标准API在编译期间对注解进行处理,可以把它看做是一组编译器的插件,在这些插件里面,可以读取、修改、添加抽象语法树的任意元素

在Javac源码中,插入式注解处理器的初始化过程是在initPorcessAnnotations()方法中完成的,而它的执行过程则是在processAnnotations()方法中完成的,这个方法判断是否还有新的注解处理器需要执行,如果有的话,通过com.sun.tools.javac.processing.JavacProcessingEnvironment类的doProcessing()方法生成一个新的JavaCompiler对象对编译的后续步骤进行处理

语义分析与字节码生成

语法分析之后,编译器获得了程序代码的抽象语法树表示,语法树能表示一个结构正确的源程序的抽象,但无法保证源程序是符合逻辑的,而语义分析的主要任务是对结构上正确的源程序进行上下文有关性质的审查,如进行类型审查

Javac的编译过程中,语义分析过程分为标注检查以及数据及控制流分析两个步骤,分别对应attribute()和flow()方法

  • 标注检查
    标注检查步骤检查的内容包括诸如变量使用前是否已被声明、变量与赋值之间的数据类型是否能够匹配等。在标注检查步骤中,还有一个重要的动作称为常量折叠,如定义:
int a = 1 + 2

那么在语法树上仍然能看到字面量”1”、”2”以及操作符”+”,但是经过常量折叠之后,它们将会被折叠为字面量”3”。由于编译期间进行了常量折叠,所以在代码中的定义”a=1+2”比起直接定义”a=3”,并不会增加程序运行期哪怕仅仅一个CPU指令的运算量

标注检查步骤在Javac源码中的实现类是com.sun.tools.javac.comp.Attr类和com.sun.tools.javac.comp.Check类

  • 数据及控制流分析
    数据及控制流分析是对程序上下文逻辑更进一步的验证,它可以检查出诸如程序局部变量在使用前是否有赋值、方法的每条路径是否都有返回值、是否所有的受查异常都被正确处理了等问题,编译时期的数据及控制流分析与类加载时的数据及控制流分析的目的基本上是一致的,但校验范围有所区别,有一些校验项只有在编译期或运行期才能进行
    在Javac的源码中,数据及控制流分析的入口是flow()方法,具体操作由com.sun.tools.javac.comp.Flow类来完成
  • 解语法糖
    语法糖(Syntactic Sugar),也称糖衣语法,指在计算机语言中添加的某种语法,使用语法糖能够增加程序的可读性,从而减少代码出错的机会
    Java中最常用的语法糖主要是泛型、变长参数、自动装箱/拆箱等,虚拟机运行时不支持这些语法,它们在编译阶段还原回简单的基础语法结构,这个过程称为解语法糖
    在啊Javac的源码中,解语法糖的过程由desugar()方法触发,在com.sun.tools.javac.comp.TransTypes类和com.sun.tools.javac.comp.Lower类中完成
  • 字节码生成
    字节码生成是Javac编译过程的最后一个阶段,在Javac源码里面由com.sun.tools.javac.jvm.Gen类来完成,字节码生成阶段不仅仅是把前面各个步骤所生成的信息(语法树、符号表)转化成字节码写到磁盘中,编译器还进行了少量的代码添加和转换工作
    完成了对语法树的遍历和调整之后,就会把填充了所有所需信息的符号表交给com.sun.tools.javac.jvm.ClassWriter类,由这个类的writeClass()方法输出字节码,生成最终的Class文件,到此整个编译过程宣告结束

Java语法糖

泛型与类型擦除

泛型是JDK 1.5的一项新增特性,它的本质是参数化类型的应用,也就是说所操作的数据类型被指定为一个参数,这种参数类型可以用在类、接口和方法的创建中,分别称为泛型类、泛型接口和泛型方法

Java语言的泛型只在程序源码中存在,在编译后的字节码文件中,就已经替换为原来的原生类型(Raw Type,也称为裸类型)了,并且在相应的地方插入了强制转型代码,因此,对于运行期的Java语言来说,ArrayList<int>与ArrayList<String>就是同一个类,所以泛型技术实际上是Java语言的一颗语法糖,Java语言中的泛型实现方法称为类型擦除,基于这种方法实现的泛型称为伪泛型

//泛型擦除前
Map<String,String> map = HashMap<String,String>();
map.put("hello","你好");
System.out.println(map.get("hello"));

//泛型擦除后
Map map = new HashMap();
map.put("hello","你好");
System.out.println((String)map.get("hello"));

自动装箱、拆箱与遍历循环

自动装箱、拆箱在编译之后被转化成了对应的包装和还原方法,如Integer.valueOf()与Integer.intValue()方法

变长参数在调用的时候变成了一个数组类型的参数

条件编译

Java中的if语句在编译阶段就会被”运行”,根据布尔常量值的真假,编译器会把分支中不成立的代码块消除掉,这一工作将在编译器解除语法糖阶段(com.sun.tools.javac.comp.Lower类中)完成