看完照片我们言归正传。这是一个十年前的案例。客户发现系统较慢,CPU开销很高,平均处于70%以上。于是在QQ上让我帮助诊断。我首先要他发来一份AWR报告。
从负载上看,不是很高,逻辑读的数量51.7万,不过十多年前的小型机比起现在的X86服务器来性能都差了一大截,这个系统当时也算是负载比较高的了。可能有很多朋友看到LIBRARY CACHE命中率才不到70%就会把目光关注在这上面了,客户的DBA也怀疑LIBRARY CACHE是不是问题的根源。实际上,我们看non-parse CPU的比例为98.4%,就可以放心了,LIBRARY CACHE 大概率不是导致CPU使用率过高的原因。这是一个10.2.0.4的库,所以CPU使用情况需要我们自己算一算:
这个系统有16个CPU核,通过计算可以算出大概CPU IDLE的比例是20%左右,一个2小时的SNAP里,这么高的CPU使用率确实算是很高了。估计经常会有瞬间CPU达到100%了。当然CPU使用率高并不一定意味着存在瓶颈,不过客户已经感觉系统有些,说明CPU使用率高很可能真的已经影响到了系统的整体性能。下面我们来看TOP EVENT:
CPU TIME排在第一位,这意味着系统中可能存在高开销的SQL。排在第二位的很是让人意外,居然是LOG FILE SYNC,而且平均等待时间居然高达58毫秒,这对于写操作的事务肯定产生了较大的影响。第三位的是TX锁,可能受到其他因素的影响,也可能应用本身就有很多争用。排在后面的两个是集群相关的等待,平均指标也不太好。
既然存在LOG FILE SYNC等待,我们就有必要马上看看LOG BUFFER的配置,才不到10M,确实是比较小。不过每秒REDO才185KB,这个BUFFER大小也还能应付。下面我们需要去分析LOG FILE PARALLEL WRITE的情况:
才3毫秒,看样子LOG FILE SYNC等待50多毫秒确实是有些不合理。这可能和GCS/GES性能有关,看看相关指标:
每秒INTERCONNECT流量才1826K,不高,不过CR BLOCK和CURRENT BLOCK的RECEIVE TIME都不太好,超过100毫秒。
消息传输的指标也不尽如人意,通过队列发送的消息延时居然高达99毫秒左右,而且有35%的消息是非直接发送的,35.96%出现了流控。RAC的性能指标为什么会这么差呢?这肯定会对应用产生较大的性能影响。不过RAC集群通信性能差也有可能是CPU使用率过高引起的。
从WAIT CLASS上看,系统等待的消耗多是在集群上,其次是提交(和LOG FILE SYNC等待有关,也可能受到集群性能的间接影响),第三是应用。
从等待事件上看,情况还是挺复杂的,甚至出现了DFS LOCK HANDLE等待,单块读的平均延时也不太好。
调整LOG BUFFER之类的操作暂时还无法完成。现场用户发现营业厅压力开始大起来,业务部门反映一些营业厅的窗口排队的人也多了起来,希望我们尽快解决问题。
于是在这种复杂的情况下,降低CPU使用率成为解决当前问题的关键。于是我不再耽误时间,直接查看
TOP SQL:
几条INSERT语句可以先不管。重点看看这几条DELETE语句,发现这几条DELETE语句都是走全表扫描,于是马上做了个awrsqrpt。
执行这么频繁的语句居然走全表扫描,于是我们确定马上建一个索引,降低这几条语句的逻辑读,缓解CPU使用率。由于系统十分繁忙,这个建索引工作尝试了多次才成功(业务高峰期不敢ONLINE模式创建索引)。索引创建后,CPU使用率立即降低了30%以上。很快,营业厅反馈系统性能有了较大好转,业务人员能够接受当前的性能了。实际上这个案例,到解决之时还是没有彻底搞清楚问题的根源。主要是两个原因,一是我们是通过远程支持解决问题的,对于DFS HANDLE方面的问题没有做任何分析,另外一个原因是业务部门需要尽快解决问题。于是我们选择了采用见效最快的方法去做处置,对于DFS LOCK HANDLE,单块读延时过高,GCS性能问题等都没有去做深入分析。不过有时候生产系统,也只能这样了。