x86处理器有4个特权级别,Ring0~Ring3,运行在Ring0~2级时,处理器才可以访问特权资源或执行特权指令;运行在Ring0级时,处理器可以访问所有的特权状态。X86平台上的操作系统一般只用Ring0和Ring3这两个级别,操作系统运行在Ring0级,用户进程运行在Ring3级别。为了满足上面的第一个充分条件-资源控制,VMM自己必须运行在Ring0级,同时为了避免Guest OS控制系统资源,Guest OS不得不降低自身的运行级别,运行在Ring1或Ring3级。
特权级压缩(Ring Compression)
VMM使用分页或段限制的方式保护物理内存的访问,但是64位模式下段限制不起作用,而分页又不区分Ring0,1,2。为了统一和简化VMM的设计,Guest OS只能和Guest进程一样运行在Ring3级。VMM必须监视Guest OS对GDT、IDT等特权资源的设置,防止Guest OS运行在Ring 0级,同事又要保护降级后的Guest OS不受Guest进程的主动攻击或无意破坏。
特权级别名(Ring Alias)
特权级别名是指Guest OS在虚拟机中运行的级别并不是它所期望的。VMM必须保证Guest OS不能获知正在虚拟机中运行这一事实,否则可能打破等价性条件。例如,X86处理器的特权级别在CS代码段寄存器内,Guest OS可以使用费特权 pus指令将CS寄存器压栈,然后pop出来检查该值。又如,Guest OS在低特权级别时读取特权寄存器GDT、LDT、IDT和TR并不发生异常,从而可能发现这些值与自己期望的不一样。为了解决这个挑战,VMM可以使用动态二进制翻译技术,例如预先把push %%cs指令替换,在栈上存放一个影子CS寄存器的值;又如,可以把读取GDT寄存器的操作 sgdt dest改为movl fake_gdt,dest。
地址空间压缩(Address Space Compression)
地址空间压缩指VMM必须在Guest OS的地址空间中保留一部分供其使用。例如,中断描述表寄存器(IDT Register)中存放的是中断描述表的线性地址,如果Guest OS运行过程中来了外部中断或触发处理器异常,必须保证运行权马上转移到VMM中,因此VMM需要将Guset OS的一部分线性地址空间映射成自己的中断描述表的主机物理地址。VMM可以完全运行在Guest OS的地址空间中,也可以拥有独立的地址空间,后者的话,VMM只占用Guest OS很少的地址空间,用于存放中断描述表和全局描述符表(GDT)等重要的特权状态。无论如何那种情况,VMM应该防止Guest OS直接读取和修改这部分地址空间。
Guest OS异常
内存是一种非常重要的系统资源,VMM必须全权管理,Guest OS理解的物理地址只是客户机物理地址(Guest Physical Address),并不是最终的主机物理地址(Host Physical Address)。当Guest OS发生缺页异常时,VMM需要知道缺页异常的原因,是Guest进程试图访问没有权限的地址,或是客户机线性地址尚未翻译成Guest Physical Address,还是客户机物理地址尚未翻译成主机物理地址。一种可行的解决方法是VMM为Guest OS的每个进程的页表构造一个影子页表,维护Guest Linear Address 到Host Physical Address的映射,主机CR3寄存器存放这个影子页表的物理内存地址。VMM同时维护一个Guest OS全局的Guest Physical Address到Host Physical Address的映射。发生缺页异常的地址总是Guest Linear Address,VMM先去Guest OS中的页表检查原因,如果页表项已经建立,即对应的Guest Physical Address存在,说明尚未建立到Host Physical Address的映射,那么VMM分配一页物理内存,将影子页表和映射表更新;否则,VMM返回到Guest OS,由Guest OS自己处理该异常。
系统调用
系统调用是操作系统提供给用户的服务历程,使用非常频繁。最新的操作系统一般使用SYSENTER/SYSEXIT指令对来实现快速系统调用。SYSENTER指令通过IA32_SYSENTER_CS,IA32_SYSENTER_EIP和IA32_SYSENTER_ESP这3个MSR(model Specific Register)寄存器直接转到Ring 0级;而SYSEXIT指令不在Ring 0级别执行的话将触发异常。因此,如果VMM只能采用Trap-And Emulate的方式处理这2条指令的话,整体性能将会受到极大损害。
中断和异常
所有的外部中断和主机处理器的异常直接由VMM接管,VMM构造必须的虚拟机中断和异常,然后转发给Guest OS。VMM需要模拟硬件和操作系统对中断和异常的完整处理流程,例如VMM先要在Guest OS当前的内核栈上压入一些信息,然后找到Guest OS相应处理历程的地址,并跳转过去。VMM必须对不同的Guest OS的内部工作流程比较清楚,这增加了VMM的实现难度。同时,Guest OS可能频繁的屏蔽中断和启用中断,这两个操作访问特权寄存器EFLAGS,必须由VMM模拟完成,性能因此会受到损害。Guest OS重新启用中断时,VMM需要及时地获知这一情况,并将积累的虚拟中断转发。
访问特权资源
Guest OS对特权资源的每次访问都会触发处理器异常,然后由VMM模拟执行,如果访问过于频繁,则系统整体性能将会受到极大损害。比如对中断的屏蔽和启用,cli指令在Pentium 4处理器上需要花费60个时钟周期(cycle)。又如,处理器本地高级可编程中断处理器(Local APIC)上有一个操作系统可修改的任务优先级寄存器(Task-priority register),IO-APIC将外部中断转发到TPR值最低的处理器上(期望该处理器正在执行低优先级的进程),从而优化中断的处理。TPR是一个特权寄存器,某些操作系统会频繁设置(Linux Kernel只在初始化阶段为每个处理器的TPR设置相同的值)。