Java程序在运行中会出现各种问题,包括CPU、内存、磁盘等。下面介绍一下常用的问题排查方法。

一、CPU问题

当出现性能问题时,我们首先会排查是否是CPU方面的问题。包括CPU负载过高、死循环、频繁 gc 以及上下文切换过多。在JAVA程序中,经常使用jstat、jstack命令来排查Java程序导致的CPU问题。

我们先用 ps 命令找到对应进程的 pid(如果你有好几个目标进程,可以先用 top 看一下哪个占用比较高)。

接着用top -H -p pid来找到 CPU 使用率比较高的一些线程

java gc排查 java线上排查问题_上下文切换

然后将占用最高的 pid 转换为 16 进制printf '%x\n' pid得到 nid

java gc排查 java线上排查问题_java_02

接着直接在 jstack 中找到相应的堆栈信息jstack pid |grep 'nid' -C5 –color

java gc排查 java线上排查问题_Java_03

可以看到我们已经找到了 nid 为 0x42 的堆栈信息,接着只要仔细分析一番即可。

当然更常见的是我们对整个 jstack 文件进行分析,通常我们会比较关注 WAITING 和 TIMED_WAITING 的部分,BLOCKED 就不用说了。我们可以使用命令cat jstack.log | grep "java.lang.Thread.State" | sort -nr | uniq -c来对 jstack 的状态有一个整体的把握,如果 WAITING 之类的特别多,那么多半是有问题啦。

 

java gc排查 java线上排查问题_上下文切换_04

频繁 gc

当然我们还是会使用 jstack 来分析问题,但有时候我们可以先确定下 gc 是不是太频繁,使用jstat -gc pid 1000命令来对 gc 分代变化情况进行观察,1000 表示采样间隔(ms),S0C/S1C、S0U/S1U、EC/EU、OC/OU、MC/MU 分别代表两个 Survivor 区、Eden 区、老年代、元数据区的容量和使用量。YGC/YGT、FGC/FGCT、GCT 则代表 YoungGc、FullGc 的耗时和次数以及总耗时。如果看到 gc 比较频繁,再针对 gc 方面做进一步分析,具体可以参考一下 gc 章节的描述。

java gc排查 java线上排查问题_java gc排查_05

上下文切换

针对频繁上下文问题,我们可以使用vmstat命令来进行查看

 

java gc排查 java线上排查问题_Java_06

cs(context switch)一列则代表了上下文切换的次数。

如果我们希望对特定的 pid 进行监控那么可以使用 pidstat -w pid命令,cswch 和 nvcswch 表示自愿及非自愿切换。

二、磁盘

磁盘问题和 CPU 一样是属于比较基础的。首先是磁盘空间方面,我们直接使用df -hl来查看文件系统状态

java gc排查 java线上排查问题_java_07

更多时候,磁盘问题还是性能上的问题。我们可以通过 iostatiostat -d -k -x来进行分析

 

java gc排查 java线上排查问题_ios_08

最后一列%util可以看到每块磁盘写入的程度,而rrqpm/s以及wrqm/s分别表示读写速度,一般就能帮助定位到具体哪块磁盘出现问题了。

另外我们还需要知道是哪个进程在进行读写,一般来说开发自己心里有数,或者用 iotop 命令来进行定位文件读写的来源。

java gc排查 java线上排查问题_Java_09

不过这边拿到的是 tid,我们要转换成 pid,可以通过 readlink 来找到 pidreadlink -f /proc/*/task/tid/../..。

java gc排查 java线上排查问题_java_10

找到 pid 之后就可以看这个进程具体的读写情况cat /proc/pid/io

 

java gc排查 java线上排查问题_java gc排查_11

我们还可以通过 lsof 命令来确定具体的文件读写情况lsof -p pid